← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.CL·il y a 28j

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision propose une méthode pour optimiser les agents d'utilisation informatique en réduisant la redondance visuelle temporelle dans les trajectoires d'interaction. Il utilise un sélecteur de patchs appris pour supprimer les jetons visuels redondants, réduisant ainsi l'utilisation des jetons d'environ 46% et améliorant l'efficacité des modèles de langage multimodaux sur plusieurs benchmarks.

27
RESEARCHarXiv CS.CL·il y a 27j

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Cette étude explore des stratégies pour adapter les grands modèles linguistiques (LLM) à usage général aux domaines d'ingénierie spécialisés, notamment la fabrication additive, afin d'améliorer la précision et la pertinence des réponses. Elle examine l'utilisation de l'ajustement fin spécifique au domaine et de la génération augmentée par récupération (RAG) en construisant un corpus sélectionné pour évaluation.

27
RESEARCHarXiv CS.LG·il y a 23j

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Cette étude examine l'impact de la quantification post-entraînement sur la qualité des Grands Modèles de Langage (LLMs), révélant que la compression peut entraîner l'émergence de biais. Une quantification à 3 bits a provoqué l'apparition de nouveaux comportements stéréotypés dans 6 à 21% des éléments précédemment impartiaux sur des modèles comme Qwen2.5-7B, Mistral-7B et Phi-3.5-mini. Ce phénomène suit un schéma clair de réponse-dose.

27
RESEARCHarXiv CS.CL·il y a 28j

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Cette recherche examine le manque de diversité dans les sorties des LLM, l'attribuant à la manière dont les modèles allouent la masse de probabilité entre les continuations valides et invalides lors du décodage. Elle introduit un cadre validité-diversité qui décompose le problème en deux formes complémentaires de défaut de calibration : la calibration d'ordre et la calibration de forme.

27
RESEARCHarXiv CS.CL·il y a 21j

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Cet article présente le Stepwise Confidence Attribution (SCA), un cadre pour les LLM en boîte noire qui diagnostique les échecs de raisonnement multi-étapes en attribuant une confiance au niveau de l'étape. Le SCA applique le principe de l'Information Bottleneck, signalant les déviations par rapport aux structures de consensus comme des erreurs potentielles, et propose deux méthodes complémentaires : NIBS et GIBS.

27
RESEARCHarXiv CS.AI·il y a 12j

Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild

Cette recherche analyse les trajectoires conversationnelles d'environ 12 000 utilisateurs de Microsoft Bing Copilot et les compare aux données de WildChat-4.8M. Elle révèle que, malgré les tendances au niveau de la population, les habitudes des utilisateurs individuels sont extrêmement persistantes, avec peu de changements au fil du temps.

27
RESEARCHarXiv CS.LG·il y a 12j

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Cet article examine les origines mécanistes de l'oubli catastrophique dans les grands modèles linguistiques (LLM), comparant l'apprentissage par renforcement (RL) à l'ajustement fin supervisé (SFT). Il révèle que le RL préserve plus efficacement les circuits computationnels internes, atténuant l'oubli des capacités antérieures, contrairement au SFT qui provoque une plus grande perturbation des circuits.

27
RESEARCHarXiv CS.AI·il y a 12j

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent est un système multi-agent de bout en bout conçu pour automatiser la modélisation et la simulation par analyse par éléments finis (FEA) à partir d'images et de descriptions de problèmes. Il intègre un pipeline multimodal vision-langage pour les spécifications FEA structurées et un cadre de synthèse de code avec vérification pour la fiabilité.

27
RESEARCHarXiv CS.CL·il y a 7j

On the Persistent Effects of Lexicality in Large Language Mod

Ce travail étudie l'effet persistant du chevauchement lexical, plutôt que du contenu sémantique, sur les représentations extraites des grands modèles linguistiques (LLM) et ses implications. Les auteurs constatent que l'influence lexicale s'étend sur la profondeur des modèles, les architectures et les régimes d'entraînement, y compris pour les modèles entraînés à la similarité sémantique.

27
RESEARCHarXiv CS.CL·il y a 7j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

27
ARTICLEDEV.to AI·17/04/2026

The Layers Beneath A2A: Notes From Running a Live Multi-Agent Society

Ce contenu explore les défis liés à l'exécution de systèmes multi-agents en direct, au-delà des protocoles de routage de messages (A2A) et d'accès aux outils (MCP). L'auteur identifie des échecs dans les "lacunes entre les messages" et la continuité du contexte, soulignant la dérive sémantique comme un défi critique non résolu dans les dialogues multi-tours des LLM.

27
RESEARCHarXiv CS.CL·il y a 15j

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Cet article introduit un cadre causal pour étudier le biais de rationalisation chez les LLM utilisés comme juges automatiques pour l'évaluation de résumés et de dialogues. Il examine si les classements et les explications des LLM restent stables lorsque des indices non probants sont perturbés, en proposant des interventions d'indices et des métriques d'ancrage.

27
RESEARCHarXiv CS.CL·il y a 9j

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Ce protocole évalue la capacité de ChatGPT à générer et vérifier des associations biomédicales centrées sur les maladies, en utilisant des ontologies biomédicales et la littérature. Il intègre une stratégie d'auto-cohérence et un flux de travail activé par RAG, alimenté par des LLM open source, pour résoudre les limitations de correspondance exacte et détecter les hallucinations.

27
RESEARCHarXiv CS.AI·il y a 15j

BODHI: Precise OS Kernel Specification Inference

Cet article propose BODHI, une méthode d'invite de connaissance de domaine pour l'inférence de spécifications de noyau de système d'exploitation, visant à surmonter les limitations actuelles des LLM. Elle augmente l'invite standard en quelques coups avec un guide de traduction structuré C vers Python, améliorant l'automatisation et la précision des spécifications.

27
RESEARCHarXiv CS.AI·il y a 9j

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN (Modular Agentic Verification and Execution Network) est un échafaudage de raisonnement symbolique léger qui améliore la généralisation dans les environnements d'appel d'outils agentiques. Il a été évalué sur des benchmarks établis et introduit MAVEN-Bench, un nouveau benchmark de test de stress pour le raisonnement mathématique et physique en plusieurs étapes.

27
RESEARCHarXiv CS.CL·il y a 9j

Can LLM Teams Play What? Where? When?

Cette recherche explore comment les interactions en équipe améliorent les performances des grands modèles de langage (LLM) sur des tâches de raisonnement complexes, notamment dans le jeu de quiz Quoi ? Où ? Quand ?. Elle démontre que les stratégies d'équipe entraînent des gains significatifs en précision, les meilleures équipes se rapprochant des performances humaines.

27