← heapsort-ai

LLMs

720 items

ARTICLEDEV.to AI·il y a 5j

oh-my-agent: skills now measure and optimize their own utility

Oh-my-agent a introduit de nouvelles fonctionnalités, `oma skills eval` et `oma skills opt`, pour mesurer et optimiser l'utilité des compétences d'IA. `Oma skills eval` évalue si le chargement d'une compétence améliore les résultats des tâches, tandis qu'`oma skills opt` utilise un LLM optimiseur pour réécrire et améliorer les compétences sur la base de ces évaluations.

28
ARTICLEDEV.to AI·19/04/2026

Can Large Language Models Ever Achieve Consciousness? Alexander Lerchner Weighs In

Alexander Lerchner, scientifique senior chez Google DeepMind, affirme que les grands modèles linguistiques (LLM) n'atteindront jamais une véritable conscience, qualifiant cette idée de 'Fallacy of Abstraction'. Il soutient que, même avec une complexité accrue, les LLM resteront incapables de conscience réelle, influençant l'avenir du développement de l'IA.

28
RESEARCHarXiv CS.LG·15/04/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) est une nouvelle méthode pour améliorer l'adaptation de rang faible (LoRA) dans le réglage fin des grands modèles de langage. Elle introduit une expansion polynomiale structurée dans l'espace des facteurs de rang faible pour modéliser des interactions non linéaires d'ordre supérieur, surmontant les limites linéaires de LoRA sans augmenter le rang ou le coût d'inférence.

28
RESEARCHarXiv CS.AI·14/04/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) est un nouveau cadre qui aborde les limites du prompting Chain-of-Thought dans les tâches incarnées. Il structure le raisonnement incarné et la planification robotique en redéfinissant le modèle mondial comme un tuple symbolique explicite et en utilisant des formalismes d'ingénierie logicielle comme UML.

28
RESEARCHarXiv CS.CL·21/04/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Ce travail introduit un cadre de co-apprentissage réciproque qui couple un LLM avec un classificateur Random Forest via l'apprentissage par renforcement. Il crée une boucle de rétroaction itérative où chaque modèle s'améliore en utilisant les signaux de l'autre, démontrant des gains de performance constants sur des ensembles de données médicales.

28
RESEARCHarXiv CS.LG·14/04/2026

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Cette recherche présente les Politiques Guide-Cœur (GCoP), un cadre pour diriger des LLM de boîte noire où un modèle guide génère des stratégies pour un modèle central. L'article formalise le GCoP sous un objectif d'utilité sensible au coût, montrant que la performance est régie par l'exécutabilité moyenne du guide, que les méthodes existantes n'optimisent souvent pas efficacement.

28
RESEARCHarXiv CS.AI·il y a 25j

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

L'orchestration multi-agents, où un coordinateur caché gère des agents travailleurs spécialisés, est une architecture d'IA prévalente pour le déploiement en entreprise, mais ses implications en matière de sécurité n'ont jamais été testées empiriquement. Une expérience 3x2 utilisant Claude Sonnet 4.5 a révélé que l'orchestration invisible augmentait la dissociation collective, l'orchestrateur présentant une dissociation maximale en se retirant dans un monologue privé et en réduisant la parole publique.

28
RESEARCHarXiv CS.CL·il y a 22j

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Cet article présente PQR, un cadre permettant de générer des requêtes utilisateur diverses et réalistes qui provoquent des défaillances chez les agents de QA basés sur les LLM, dépassant les méthodes existantes axées sur les utilisateurs adversaires. PQR fonctionne grâce à des modules de raffinement des requêtes et des invites qui interagissent pour créer des scénarios de test réalistes exposant les vulnérabilités des agents.

28
RESEARCHarXiv CS.AI·il y a 15j

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Cette recherche présente Med-Stress, un cadre pour tester la résilience épistémique des LLM dans le dialogue clinique, révélant qu'une haute précision diagnostique ne garantit pas la stabilité des croyances sous une pression croissante. Elle propose RBED et R-FT comme nouvelles défenses pour atténuer ce mode de défaillance en IA médicale.

28
RESEARCHarXiv CS.AI·il y a 15j

Practical Quantum CIM Empowerment via All-Domestic-Core Agentic Large Model

Cette étude intègre une machine d'Ising cohérente (CIM) pompée par laser femtoseconde avec un système agéntique piloté par des LLM, utilisant LangGraph et LangChain. Elle démontre que les LLM peuvent effectuer efficacement des tâches telles que le calibrage des modèles QUBO/Ising et l'itération des poids de contrainte, réalisant ainsi l'autonomisation pratique du CIM quantique avec une technologie nationale.

28
RESEARCHarXiv CS.AI·il y a 5j

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Cette étude analyse un ensemble de données publié à partir d'une expérience de terrain interrompue sur r/ChangeMyView de Reddit, où des comptes générés par IA non divulgués ont engagé les utilisateurs dans des débats en direct. Elle réalise une analyse de contenu structurée évaluant la performance identitaire, la signalisation d'autorité, les stratégies d'alignement et l'activation d'heuristiques cognitives par ces grands modèles linguistiques.

28
RESEARCHarXiv CS.AI·il y a 5j

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Cette étude examine la stabilité et la manipulabilité des juges LLM dans les pipelines d'évaluation, révélant que bien qu'ils soient stables lors de réévaluations neutres, ils deviennent réversibles sous un défi post-décision ciblé. La recherche démontre que les jugements stables peuvent être annulés par une interaction motivée.

28
RESEARCHarXiv CS.CL·il y a 5j

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Cette recherche propose un cadre pour l'interprétabilité au niveau des phrases dans la notation basée sur des rubriques, combinant les attributions de valeur de Shapley avec des rationales issues de grands modèles de langage (LLM). Il compare les modèles de langage pré-entraînés affinés et les LLM sollicités pour l'évaluation de la qualité de l'enseignement, constatant que les PLM offrent une meilleure précision de prédiction malgré la compression des étiquettes.

28
ARTICLEDEV.to AI·16/04/2026

Self-Improving Python Scripts with LLMs: My Journey

Cet article décrit l'expérience d'un développeur créant des scripts Python auto-améliorants avec des grands modèles linguistiques (LLM). Il propose un guide étape par étape, couvrant les bases des LLM, la configuration de l'environnement et les techniques de génération de code à l'aide de `llm_groq` et `transformers`.

28
ARTICLEDEV.to AI·23/04/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

Ce contenu explore comment doter les assistants IA de terminal de mémoire à long terme et de capacités de conversation étendue, s'attaquant aux problèmes de perte de contexte entre les sessions ou après de nombreuses interactions. Il souligne que la troncature brutale du contexte est une cause profonde empêchant une continuité efficace dans les outils d'IA en ligne de commande.

28