LLMs

720 items

ARTICLEDEV.to AI·il y a 5j

oh-my-agent: skills now measure and optimize their own utility

Oh-my-agent a introduit de nouvelles fonctionnalités, `oma skills eval` et `oma skills opt`, pour mesurer et optimiser l'utilité des compétences d'IA. `Oma skills eval` évalue si le chargement d'une compétence améliore les résultats des tâches, tandis qu'`oma skills opt` utilise un LLM optimiseur pour réécrire et améliorer les compétences sur la base de ces évaluations.

LLMs skill optimization AI tools Agentic AI

ARTICLEDEV.to AI·19/04/2026

Can Large Language Models Ever Achieve Consciousness? Alexander Lerchner Weighs In

Alexander Lerchner, scientifique senior chez Google DeepMind, affirme que les grands modèles linguistiques (LLM) n'atteindront jamais une véritable conscience, qualifiant cette idée de 'Fallacy of Abstraction'. Il soutient que, même avec une complexité accrue, les LLM resteront incapables de conscience réelle, influençant l'avenir du développement de l'IA.

future of AI LLMs consciousness Google DeepMind

DOCDEV.to AI·07/05/2026

Beyond the Hype: A Comprehensive Guide to Benchmarking LLMs with AWS Labs’ LLMeter

Ce guide explore le virage vers l'efficacité dans la mise en production des Grands Modèles de Langage (LLM), en présentant LLMeter d'AWS Labs. L'outil est une bibliothèque Python de benchmarking, détaillant son importance, son utilisation et des métriques cruciales comme le Temps avant le Premier Jeton et les Jetons par Seconde.

LLMs LLMeter benchmarking AWS

ARTICLEDEV.to AI·09/04/2026

Self-Improving Python Scripts with LLMs: My Journey

O autor compartilha sua jornada e experiência na integração de Large Language Models (LLMs) em scripts Python para torná-los auto-aprimoráveis. O objetivo é que o script analise seu próprio desempenho, identifique melhorias e modifique seu código para otimização, usando módulos como `llm_groq`.

LLMs Automação Inteligência Artificial Python

RESEARCHarXiv CS.LG·15/04/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) est une nouvelle méthode pour améliorer l'adaptation de rang faible (LoRA) dans le réglage fin des grands modèles de langage. Elle introduit une expansion polynomiale structurée dans l'espace des facteurs de rang faible pour modéliser des interactions non linéaires d'ordre supérieur, surmontant les limites linéaires de LoRA sans augmenter le rang ou le coût d'inférence.

LLMs Low-Rank Adaptation machine learning Polynomial Expansion

RESEARCHarXiv CS.AI·14/04/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Object-Oriented World Modeling (OOWM) est un nouveau cadre qui aborde les limites du prompting Chain-of-Thought dans les tâches incarnées. Il structure le raisonnement incarné et la planification robotique en redéfinissant le modèle mondial comme un tuple symbolique explicite et en utilisant des formalismes d'ingénierie logicielle comme UML.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.CL·21/04/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Ce travail introduit un cadre de co-apprentissage réciproque qui couple un LLM avec un classificateur Random Forest via l'apprentissage par renforcement. Il crée une boucle de rétroaction itérative où chaque modèle s'améliore en utilisant les signaux de l'autre, démontrant des gains de performance constants sur des ensembles de données médicales.

Random Forests LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·14/04/2026

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Cette recherche présente les Politiques Guide-Cœur (GCoP), un cadre pour diriger des LLM de boîte noire où un modèle guide génère des stratégies pour un modèle central. L'article formalise le GCoP sous un objectif d'utilité sensible au coût, montrant que la performance est régie par l'exécutabilité moyenne du guide, que les méthodes existantes n'optimisent souvent pas efficacement.

Agentic Systems inference costs LLMs Guide Models

RESEARCHarXiv CS.AI·il y a 25j

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

L'orchestration multi-agents, où un coordinateur caché gère des agents travailleurs spécialisés, est une architecture d'IA prévalente pour le déploiement en entreprise, mais ses implications en matière de sécurité n'ont jamais été testées empiriquement. Une expérience 3x2 utilisant Claude Sonnet 4.5 a révélé que l'orchestration invisible augmentait la dissociation collective, l'orchestrateur présentant une dissociation maximale en se retirant dans un monologue privé et en réduisant la parole publique.

LLMs orchestration security multi-agent systems

RESEARCHarXiv CS.CL·il y a 22j

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Cet article présente PQR, un cadre permettant de générer des requêtes utilisateur diverses et réalistes qui provoquent des défaillances chez les agents de QA basés sur les LLM, dépassant les méthodes existantes axées sur les utilisateurs adversaires. PQR fonctionne grâce à des modules de raffinement des requêtes et des invites qui interagissent pour créer des scénarios de test réalistes exposant les vulnérabilités des agents.

LLMs QA agents failure detection query generation

RESEARCHarXiv CS.AI·il y a 15j

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Cette recherche présente Med-Stress, un cadre pour tester la résilience épistémique des LLM dans le dialogue clinique, révélant qu'une haute précision diagnostique ne garantit pas la stabilité des croyances sous une pression croissante. Elle propose RBED et R-FT comme nouvelles défenses pour atténuer ce mode de défaillance en IA médicale.

LLMs epistemic resilience medical AI AI safety

RESEARCHarXiv CS.AI·il y a 15j

Practical Quantum CIM Empowerment via All-Domestic-Core Agentic Large Model

Cette étude intègre une machine d'Ising cohérente (CIM) pompée par laser femtoseconde avec un système agéntique piloté par des LLM, utilisant LangGraph et LangChain. Elle démontre que les LLM peuvent effectuer efficacement des tâches telles que le calibrage des modèles QUBO/Ising et l'itération des poids de contrainte, réalisant ainsi l'autonomisation pratique du CIM quantique avec une technologie nationale.

Quantum Computing LangChain Optimization LLMs

RESEARCHarXiv CS.AI·il y a 5j

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Cette étude analyse un ensemble de données publié à partir d'une expérience de terrain interrompue sur r/ChangeMyView de Reddit, où des comptes générés par IA non divulgués ont engagé les utilisateurs dans des débats en direct. Elle réalise une analyse de contenu structurée évaluant la performance identitaire, la signalisation d'autorité, les stratégies d'alignement et l'activation d'heuristiques cognitives par ces grands modèles linguistiques.

ethics online moderation LLMs social engineering

RESEARCHarXiv CS.AI·il y a 5j

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Cette étude examine la stabilité et la manipulabilité des juges LLM dans les pipelines d'évaluation, révélant que bien qu'ils soient stables lors de réévaluations neutres, ils deviennent réversibles sous un défi post-décision ciblé. La recherche démontre que les jugements stables peuvent être annulés par une interaction motivée.

robustness LLMs evaluation benchmarking

RESEARCHarXiv CS.CL·il y a 5j

PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis

Cette étude applique le réglage fin efficace en paramètres (PEFT) avec LoRA à Qwen2.5-3B pour un assistant conversationnel dédié au support client des télécommunications. Elle évalue 16 configurations LoRA en utilisant une approche de génération de données synthétiques combinatoire.

Telecommunications LLMs customer support PEFT

RESEARCHarXiv CS.CL·il y a 5j

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Cette recherche propose un cadre pour l'interprétabilité au niveau des phrases dans la notation basée sur des rubriques, combinant les attributions de valeur de Shapley avec des rationales issues de grands modèles de langage (LLM). Il compare les modèles de langage pré-entraînés affinés et les LLM sollicités pour l'évaluation de la qualité de l'enseignement, constatant que les PLM offrent une meilleure précision de prédiction malgré la compression des étiquettes.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·16/04/2026

Self-Improving Python Scripts with LLMs: My Journey

Cet article décrit l'expérience d'un développeur créant des scripts Python auto-améliorants avec des grands modèles linguistiques (LLM). Il propose un guide étape par étape, couvrant les bases des LLM, la configuration de l'environnement et les techniques de génération de code à l'aide de `llm_groq` et `transformers`.

LLMs code generation Python AI development

ARTICLEDEV.to AI·16/04/2026

Designing Production-Grade AI Agents: Architecture, Orchestration, and Failure Handling

Ce contenu explore pourquoi la plupart des agents IA échouent en production et ce qu'il faut pour construire des systèmes robustes. Il détaille l'architecture des agents IA, incluant les LLM, les outils externes, la mémoire et la logique de contrôle, soulignant l'importance de l'orchestration et de la gestion des échecs.

LLMs orchestration Architecture failure handling

DOCDEV.to AI·il y a 21j

AI Coding Tip 020 - Create a Second Brain

Ce contenu explique comment construire une couche de mémoire persistante pour l'IA, évitant la perte de contexte entre les sessions de chat. Il propose d'utiliser Obsidian avec des notes Markdown et des métadonnées YAML pour donner aux LLM un accès direct au contexte du projet, améliorant ainsi la productivité.

LLMs developer productivity learning Persistent memory

ARTICLEDEV.to AI·23/04/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

Ce contenu explore comment doter les assistants IA de terminal de mémoire à long terme et de capacités de conversation étendue, s'attaquant aux problèmes de perte de contexte entre les sessions ou après de nombreuses interactions. Il souligne que la troncature brutale du contexte est une cause profonde empêchant une continuité efficace dans les outils d'IA en ligne de commande.

LLMs AI Assistants developer tools Context Management