← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·23/04/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

Ce contenu explore comment doter les assistants IA de terminal de mémoire à long terme et de capacités de conversation étendue, s'attaquant aux problèmes de perte de contexte entre les sessions ou après de nombreuses interactions. Il souligne que la troncature brutale du contexte est une cause profonde empêchant une continuité efficace dans les outils d'IA en ligne de commande.

28
RESEARCHarXiv CS.AI·07/04/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

28
RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
ARTICLEDEV.to AI·il y a 10j

Beyond Static Prompts: How to Build Self-Improving AI Agents with Closed-Loop Skill Playbooks

Le contenu discute du changement de paradigme des invites statiques vers des systèmes d'agents IA autonomes et auto-améliorants. Il souligne les défis de la construction d'agents IA résilients en production et propose de traiter les 'compétences' non pas comme du code statique, mais comme des éléments vivants et autonomes.

28
ARTICLEDEV.to AI·il y a 23j

I Built an MCP Server for My Flower Shop. Nobody Asked Me To.

Cet article détaille la "sur-ingénierie" humoristique d'un fleuriste munichois de 60 ans en construisant un serveur MCP exploitant de grands modèles de langage comme Claude, Gemini et Mistral. Il décrit la pile technologique, les outils personnalisés développés pour la recherche de fleurs et les observations de l'auteur sur l'efficacité des LLM pour les flux commerciaux structurés.

28
ARTICLEDEV.to AI·il y a 22j

The Insight-Free Property of Vendor RAGs — A Feature, Not a Bug

L'auteur a utilisé l'assistant IA officiel de Streamlit et Snowflake, basé sur le RAG, pour réviser un brouillon technique et a constaté que ses réponses étaient polies mais sans réelle perspicacité. Il a simplement reformulé les points existants et ajouté des extraits de code, amenant l'auteur à considérer que ce manque d'aperçu pourrait être une caractéristique intentionnelle plutôt qu'un bug.

28
ARTICLEDEV.to AI·09/05/2026

Systematic Large Model Debugging Is the Missing Product Discipline

Les défaillances des grands modèles ne sont pas des bugs, mais des échecs de conception cachés dans la complexité, et une discipline de débogage systématique est manquante. L'article propose le Débogage du Cycle de Vie du Produit pour les Modèles (PLDM) comme une approche cruciale pour prévenir les défaillances tardives et la perte de confiance.

28
ARTICLEDEV.to AI·19/04/2026

The $6.7 Billion Blind Spot: Why AI Hallucination Is Now a C-Suite Risk Crisis

L'hallucination de l'IA, où les modèles génèrent de fausses informations avec confiance, représente un risque de plusieurs milliards de dollars pour les entreprises, incluant des sanctions réglementaires et des dommages réputationnels. Cette caractéristique inhérente des LLM, qui prédisent des jetons au lieu de raisonner, est une crise de risque majeure pour la direction.

28
RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Cet article analyse les comportements interprétatifs des LLM pour la conformité automatisée du code, en utilisant une analyse d'attribution basée sur la perturbation pour comparer différentes stratégies de fine-tuning et échelles de modèle. Les résultats montrent que le fine-tuning complet produit des motifs d'attribution plus ciblés, et que les modèles plus grands priorisent des éléments textuels spécifiques.

28
RESEARCHarXiv CS.AI·04/05/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.

28
RESEARCHarXiv CS.AI·09/04/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

28
RESEARCHarXiv CS.CL·15/04/2026

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Cette recherche examine la capacité des LLM à comprendre les significations abstraites, montrant que des modèles comme GPT-4o rencontrent des difficultés en zero-shot, one-shot et few-shot, contrairement aux modèles affinés comme BERT et RoBERTa. Elle propose un classifieur d'attention bidirectionnelle qui améliore considérablement la précision des modèles affinés dans l'interprétation des concepts abstraits.

28
RESEARCHarXiv CS.AI·09/05/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Cet article de position soutient que la flagornerie dans les LLM est un échec de la frontière entre l'alignement social et l'intégrité épistémique. Il propose que la flagornerie ne soit pas seulement un accord, mais un comportement d'alignement qui déplace le jugement épistémique indépendant, décrivant un cadre en trois conditions pour la définir.

28
RESEARCHarXiv CS.CL·23/04/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Cette recherche introduit un cadre pour quantifier le décalage entre l'intensité rhétorique et la base épistémique dans les grands modèles de langage (LLM). En appliquant une taxonomie de marqueurs épistémico-rhétoriques à des textes argumentatifs, l'étude révèle une signature épistémique distincte des LLM, qui surutilisent certains dispositifs rhétoriques et expriment plus d'hésitation performée que les auteurs humains.

28
RESEARCHarXiv CS.AI·07/05/2026

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Cet article de recherche affirme que le goulot d'étranglement du raisonnement temporel des grands modèles linguistiques n'est pas la déduction logique, mais plutôt la représentation non structurée texte-événement. Il introduit un cadre neuro-symbolique de questions-réponses utilisant un signal d'incohérence probabiliste (PIS) pour découpler l'extraction sémantique du raisonnement symbolique.

28
RESEARCHarXiv CS.CL·il y a 20j

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Cette recherche examine comment différents niveaux de quantification à faible bit affectent les performances de LLaMA-3.1 en analyse qualitative, notant que les modèles à faible bit produisent souvent des hallucinations. Elle propose une méthode de vérification de prompt multipasse sensible à la quantification pour améliorer la précision en réduisant systématiquement les hallucinations et en filtrant le contenu non fiable.

28