LLMs

722 items

DOCDEV.to AI·il y a 21j

AI Coding Tip 020 - Create a Second Brain

Ce contenu explique comment construire une couche de mémoire persistante pour l'IA, évitant la perte de contexte entre les sessions de chat. Il propose d'utiliser Obsidian avec des notes Markdown et des métadonnées YAML pour donner aux LLM un accès direct au contexte du projet, améliorant ainsi la productivité.

LLMs developer productivity learning Persistent memory

ARTICLEDEV.to AI·23/04/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

Ce contenu explore comment doter les assistants IA de terminal de mémoire à long terme et de capacités de conversation étendue, s'attaquant aux problèmes de perte de contexte entre les sessions ou après de nombreuses interactions. Il souligne que la troncature brutale du contexte est une cause profonde empêchant une continuité efficace dans les outils d'IA en ligne de commande.

LLMs AI Assistants developer tools Context Management

ARTICLEDEV.to AI·17/04/2026

I Built a 7-Agent Prompt Framework, Then Used It to Debug Its Own Output

L'auteur a développé un framework de 7 agents de prompt nommé C.E.H., fonctionnant sur des LLM locaux, qui a construit avec succès un système RAG complexe. Face à 14 échecs dans le code généré, l'auteur a utilisé de manière unique le framework C.E.H. lui-même pour déboguer et corriger sa propre sortie.

LLMs code debugging RAG multi-agent systems

RESEARCHarXiv CS.AI·07/04/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

LLMs ChatGPT Instrumentation Control large language models

RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

ARTICLEDEV.to AI·il y a 10j

Beyond Static Prompts: How to Build Self-Improving AI Agents with Closed-Loop Skill Playbooks

Le contenu discute du changement de paradigme des invites statiques vers des systèmes d'agents IA autonomes et auto-améliorants. Il souligne les défis de la construction d'agents IA résilients en production et propose de traiter les 'compétences' non pas comme du code statique, mais comme des éléments vivants et autonomes.

LLMs prompt-engineering Autonomous systems AI development

ARTICLEDEV.to AI·il y a 23j

I Built an MCP Server for My Flower Shop. Nobody Asked Me To.

Cet article détaille la "sur-ingénierie" humoristique d'un fleuriste munichois de 60 ans en construisant un serveur MCP exploitant de grands modèles de langage comme Claude, Gemini et Mistral. Il décrit la pile technologique, les outils personnalisés développés pour la recherche de fleurs et les observations de l'auteur sur l'efficacité des LLM pour les flux commerciaux structurés.

open-source LLMs real-world application backend development

ARTICLEDEV.to AI·il y a 22j

The Insight-Free Property of Vendor RAGs — A Feature, Not a Bug

L'auteur a utilisé l'assistant IA officiel de Streamlit et Snowflake, basé sur le RAG, pour réviser un brouillon technique et a constaté que ses réponses étaient polies mais sans réelle perspicacité. Il a simplement reformulé les points existants et ajouté des extraits de code, amenant l'auteur à considérer que ce manque d'aperçu pourrait être une caractéristique intentionnelle plutôt qu'un bug.

LLMs Streamlit RAG AI Assistants

ARTICLEDEV.to AI·09/05/2026

Systematic Large Model Debugging Is the Missing Product Discipline

Les défaillances des grands modèles ne sont pas des bugs, mais des échecs de conception cachés dans la complexité, et une discipline de débogage systématique est manquante. L'article propose le Débogage du Cycle de Vie du Produit pour les Modèles (PLDM) comme une approche cruciale pour prévenir les défaillances tardives et la perte de confiance.

LLMs systematic approach product management Debugging

ARTICLEDEV.to AI·19/04/2026

The $6.7 Billion Blind Spot: Why AI Hallucination Is Now a C-Suite Risk Crisis

L'hallucination de l'IA, où les modèles génèrent de fausses informations avec confiance, représente un risque de plusieurs milliards de dollars pour les entreprises, incluant des sanctions réglementaires et des dommages réputationnels. Cette caractéristique inhérente des LLM, qui prédisent des jetons au lieu de raisonner, est une crise de risque majeure pour la direction.

Regulatory Compliance LLMs AI hallucination risk management

RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Cet article analyse les comportements interprétatifs des LLM pour la conformité automatisée du code, en utilisant une analyse d'attribution basée sur la perturbation pour comparer différentes stratégies de fine-tuning et échelles de modèle. Les résultats montrent que le fine-tuning complet produit des motifs d'attribution plus ciblés, et que les modèles plus grands priorisent des éléments textuels spécifiques.

model interpretability LLMs Machine learning research fine-tuning

RESEARCHarXiv CS.AI·04/05/2026

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Ce travail introduit AgentFloor, un benchmark déterministe de 30 tâches organisé en une échelle de six niveaux pour évaluer la capacité d'utilisation d'outils des modèles d'IA. Les résultats montrent que les modèles open-weight de petite et moyenne taille sont suffisants pour une grande partie du travail d'utilisation d'outils structuré et à court terme dominant les pipelines d'agents.

Open-Weight Models LLMs benchmarking tool use

RESEARCHarXiv CS.AI·09/04/2026

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

Transformer Representations hallucination detection LLMs machine learning

RESEARCHarXiv CS.CL·15/04/2026

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Cette recherche examine la capacité des LLM à comprendre les significations abstraites, montrant que des modèles comme GPT-4o rencontrent des difficultés en zero-shot, one-shot et few-shot, contrairement aux modèles affinés comme BERT et RoBERTa. Elle propose un classifieur d'attention bidirectionnelle qui améliore considérablement la précision des modèles affinés dans l'interprétation des concepts abstraits.

LLMs GPT-4o NLP abstract meaning comprehension

RESEARCHarXiv CS.CL·23/04/2026

Can We Locate and Prevent Stereotypes in LLMs?

Cette étude examine où résident les stéréotypes dans les LLM tels que GPT 2 Small et Llama 3.2. Elle explore l'identification des activations neuronales individuelles et des têtes d'attention pour cartographier les "empreintes de biais" et fournir des pistes pour leur atténuation.

neural networks LLMs bias detection Bias Mitigation

RESEARCHarXiv CS.AI·09/05/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Cet article de position soutient que la flagornerie dans les LLM est un échec de la frontière entre l'alignement social et l'intégrité épistémique. Il propose que la flagornerie ne soit pas seulement un accord, mais un comportement d'alignement qui déplace le jugement épistémique indépendant, décrivant un cadre en trois conditions pour la définir.

LLMs AI behavior AI alignment epistemic integrity

RESEARCHarXiv CS.CL·23/04/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Cette recherche introduit un cadre pour quantifier le décalage entre l'intensité rhétorique et la base épistémique dans les grands modèles de langage (LLM). En appliquant une taxonomie de marqueurs épistémico-rhétoriques à des textes argumentatifs, l'étude révèle une signature épistémique distincte des LLM, qui surutilisent certains dispositifs rhétoriques et expriment plus d'hésitation performée que les auteurs humains.

LLMs AI ethics AI evaluation

RESEARCHarXiv CS.CL·23/04/2026

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

OThink-SRR1 est un cadre qui améliore les LLMs avec un processus itératif de Recherche-Affinement-Raisonnement entraîné par apprentissage par renforcement. Il résout les défis du RAG en distillant des faits pertinents à partir de documents récupérés, améliorant l'efficacité et la précision du QA multi-saut complexe.

multi-hop-qa LLMs reinforcement learning RAG

RESEARCHarXiv CS.AI·07/05/2026

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Cet article de recherche affirme que le goulot d'étranglement du raisonnement temporel des grands modèles linguistiques n'est pas la déduction logique, mais plutôt la représentation non structurée texte-événement. Il introduit un cadre neuro-symbolique de questions-réponses utilisant un signal d'incohérence probabiliste (PIS) pour découpler l'extraction sémantique du raisonnement symbolique.

LLMs temporal reasoning Question Answering Neuro-symbolic AI

RESEARCHarXiv CS.CL·il y a 20j

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Cette recherche examine comment différents niveaux de quantification à faible bit affectent les performances de LLaMA-3.1 en analyse qualitative, notant que les modèles à faible bit produisent souvent des hallucinations. Elle propose une méthode de vérification de prompt multipasse sensible à la quantification pour améliorer la précision en réduisant systématiquement les hallucinations et en filtrant le contenu non fiable.

model performance Qualitative Analysis LLMs hallucinations