LLMs

722 items

RESEARCHarXiv CS.CL·il y a 28j

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision propose une méthode pour optimiser les agents d'utilisation informatique en réduisant la redondance visuelle temporelle dans les trajectoires d'interaction. Il utilise un sélecteur de patchs appris pour supprimer les jetons visuels redondants, réduisant ainsi l'utilisation des jetons d'environ 46% et améliorant l'efficacité des modèles de langage multimodaux sur plusieurs benchmarks.

multimodal AI LLMs efficiency computer vision

RESEARCHarXiv CS.CL·il y a 27j

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Cette étude explore des stratégies pour adapter les grands modèles linguistiques (LLM) à usage général aux domaines d'ingénierie spécialisés, notamment la fabrication additive, afin d'améliorer la précision et la pertinence des réponses. Elle examine l'utilisation de l'ajustement fin spécifique au domaine et de la génération augmentée par récupération (RAG) en construisant un corpus sélectionné pour évaluation.

LLMs RAG Additive Manufacturing Domain Adaptation

RESEARCHarXiv CS.LG·il y a 23j

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Cette étude examine l'impact de la quantification post-entraînement sur la qualité des Grands Modèles de Langage (LLMs), révélant que la compression peut entraîner l'émergence de biais. Une quantification à 3 bits a provoqué l'apparition de nouveaux comportements stéréotypés dans 6 à 21% des éléments précédemment impartiaux sur des modèles comme Qwen2.5-7B, Mistral-7B et Phi-3.5-mini. Ce phénomène suit un schéma clair de réponse-dose.

Model Compression LLMs quantization model quality

RESEARCHarXiv CS.AI·il y a 28j

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La distillation on-policy (OPD) et l'autodistillation on-policy (OPSD) sont des méthodes post-entraînement prometteuses pour les grands modèles de langage, mais leur efficacité varie. Cette étude examine empiriquement leurs réussites et échecs, identifiant des sensibilités au choix de l'enseignant et des problèmes d'information privilégiée.

LLMs distillation learning machine learning

RESEARCHarXiv CS.CL·il y a 28j

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Cette recherche examine le manque de diversité dans les sorties des LLM, l'attribuant à la manière dont les modèles allouent la masse de probabilité entre les continuations valides et invalides lors du décodage. Elle introduit un cadre validité-diversité qui décompose le problème en deux formes complémentaires de défaut de calibration : la calibration d'ordre et la calibration de forme.

Calibration diversity LLMs decoding

RESEARCHarXiv CS.CL·il y a 21j

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Cet article présente le Stepwise Confidence Attribution (SCA), un cadre pour les LLM en boîte noire qui diagnostique les échecs de raisonnement multi-étapes en attribuant une confiance au niveau de l'étape. Le SCA applique le principe de l'Information Bottleneck, signalant les déviations par rapport aux structures de consensus comme des erreurs potentielles, et propose deux méthodes complémentaires : NIBS et GIBS.

LLMs information bottleneck Reasoning confidence estimation

ARTICLEDEV.to AI·21/04/2026

Hermes Agent v0.10: Local AGI Stack & Browser Guide

La version 0.10 de Hermes Agent est sortie, mettant l'accent sur le déploiement local de l'IA avec l'intégration d'Ollama et l'automatisation améliorée du navigateur. Cette mise à jour est importante pour les développeurs souhaitant exécuter des agents IA sans coûts d'API et avec un contrôle de navigateur multi-profil.

LLMs Local AI browser automation developer tools

RESEARCHarXiv CS.AI·il y a 12j

Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild

Cette recherche analyse les trajectoires conversationnelles d'environ 12 000 utilisateurs de Microsoft Bing Copilot et les compare aux données de WildChat-4.8M. Elle révèle que, malgré les tendances au niveau de la population, les habitudes des utilisateurs individuels sont extrêmement persistantes, avec peu de changements au fil du temps.

LLMs Longitudinal Study user behavior Conversational AI

RESEARCHarXiv CS.CL·il y a 19j

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Cette étude examine comment les grands modèles de langage (LLMs), comme Claude Haiku, interprètent les mots d'intensité vagues lors de la production d'actions numériques. La recherche révèle que le modèle compresse 10 mots d'intensité en 5 sorties médianes distinctes et est influencé par l'état actuel du système.

LLMs language interpretation numeric actions NLP

RESEARCHarXiv CS.LG·il y a 12j

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Cet article examine les origines mécanistes de l'oubli catastrophique dans les grands modèles linguistiques (LLM), comparant l'apprentissage par renforcement (RL) à l'ajustement fin supervisé (SFT). Il révèle que le RL préserve plus efficacement les circuits computationnels internes, atténuant l'oubli des capacités antérieures, contrairement au SFT qui provoque une plus grande perturbation des circuits.

LLMs deep learning machine learning Catastrophic Forgetting

RESEARCHarXiv CS.AI·il y a 12j

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent est un système multi-agent de bout en bout conçu pour automatiser la modélisation et la simulation par analyse par éléments finis (FEA) à partir d'images et de descriptions de problèmes. Il intègre un pipeline multimodal vision-langage pour les spécifications FEA structurées et un cadre de synthèse de code avec vérification pour la fiabilité.

Engineering Automation multimodal AI LLMs Finite Element Analysis

RESEARCHarXiv CS.CL·il y a 7j

On the Persistent Effects of Lexicality in Large Language Mod

Ce travail étudie l'effet persistant du chevauchement lexical, plutôt que du contenu sémantique, sur les représentations extraites des grands modèles linguistiques (LLM) et ses implications. Les auteurs constatent que l'influence lexicale s'étend sur la profondeur des modèles, les architectures et les régimes d'entraînement, y compris pour les modèles entraînés à la similarité sémantique.

LLMs lexicality NLP semantic analysis

RESEARCHarXiv CS.CL·il y a 7j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

neural networks LLMs deep learning Attention Mechanism

ARTICLEDEV.to AI·17/04/2026

The Layers Beneath A2A: Notes From Running a Live Multi-Agent Society

Ce contenu explore les défis liés à l'exécution de systèmes multi-agents en direct, au-delà des protocoles de routage de messages (A2A) et d'accès aux outils (MCP). L'auteur identifie des échecs dans les "lacunes entre les messages" et la continuité du contexte, soulignant la dérive sémantique comme un défi critique non résolu dans les dialogues multi-tours des LLM.

LLMs AI protocols AI challenges multi-agent systems

RESEARCHarXiv CS.CL·il y a 15j

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Cet article introduit un cadre causal pour étudier le biais de rationalisation chez les LLM utilisés comme juges automatiques pour l'évaluation de résumés et de dialogues. Il examine si les classements et les explications des LLM restent stables lorsque des indices non probants sont perturbés, en proposant des interventions d'indices et des métriques d'ancrage.

LLMs evaluation AI rationalization

RESEARCHarXiv CS.CL·il y a 9j

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Ce protocole évalue la capacité de ChatGPT à générer et vérifier des associations biomédicales centrées sur les maladies, en utilisant des ontologies biomédicales et la littérature. Il intègre une stratégie d'auto-cohérence et un flux de travail activé par RAG, alimenté par des LLM open source, pour résoudre les limitations de correspondance exacte et détecter les hallucinations.

LLMs evaluation ChatGPT RAG

RESEARCHarXiv CS.LG·il y a 9j

LLMs Without Deep Neural Networks: New Architecture, Benefits and Case Study

Cet article propose une nouvelle architecture pour les LLMs qui ne nécessite pas de réseaux neuronaux profonds. Le modèle, basé sur des réseaux RBF améliorés, atteint l'optimum global de la fonction de perte en une seule itération, supprimant l'étape d'entraînement fastidieuse.

neural networks AI architecture LLMs machine learning

RESEARCHarXiv CS.AI·il y a 15j

BODHI: Precise OS Kernel Specification Inference

Cet article propose BODHI, une méthode d'invite de connaissance de domaine pour l'inférence de spécifications de noyau de système d'exploitation, visant à surmonter les limitations actuelles des LLM. Elle augmente l'invite standard en quelques coups avec un guide de traduction structuré C vers Python, améliorant l'automatisation et la précision des spécifications.

AI models LLMs operating systems Formal verification

RESEARCHarXiv CS.AI·il y a 9j

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN (Modular Agentic Verification and Execution Network) est un échafaudage de raisonnement symbolique léger qui améliore la généralisation dans les environnements d'appel d'outils agentiques. Il a été évalué sur des benchmarks établis et introduit MAVEN-Bench, un nouveau benchmark de test de stress pour le raisonnement mathématique et physique en plusieurs étapes.

LLMs Generalization tool-calling benchmarking

RESEARCHarXiv CS.CL·il y a 9j

Can LLM Teams Play What? Where? When?

Cette recherche explore comment les interactions en équipe améliorent les performances des grands modèles de langage (LLM) sur des tâches de raisonnement complexes, notamment dans le jeu de quiz Quoi ? Où ? Quand ?. Elle démontre que les stratégies d'équipe entraînent des gains significatifs en précision, les meilleures équipes se rapprochant des performances humaines.

LLMs team strategies benchmarking Reasoning