← heapsort-ai

LLMs

723 items

ARTICLEDEV.to AI·22/04/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness est un projet open source léger qui permet aux agents IA d'interagir efficacement et économiquement avec les navigateurs, surmontant les limites des outils d'automatisation traditionnels comme Playwright ou Selenium. Il y parvient en se connectant directement au Chrome DevTools Protocol, encourageant les agents à écrire et modifier leurs propres fonctions d'assistance en temps réel.

27
DOCDEV.to AI·il y a 22j

89. The Claude API: Building with Anthropic's Models

Ce post explore l'API Claude d'Anthropic, soulignant sa philosophie de capacité et de sécurité combinées, ainsi que ses différences par rapport à OpenAI. Il fournit un guide allant de la configuration aux modèles de production pour la création d'applications avec les modèles de Claude.

27
ARTICLEDEV.to AI·10/04/2026

Building Your Own "Google Maps for Codebases": A Guide to Codebase Q&A with LLMs

O artigo aborda o desafio de navegar em bases de código complexas e propõe a construção de um sistema de Q&A com LLMs, similar a um "Google Maps para código", para entender sua estrutura e responder a perguntas. Ele foca no uso de ferramentas open-source para permitir que o leitor passe de usuário a arquiteto dessas soluções de IA.

27
RESEARCHarXiv CS.LG·13/04/2026

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Cet article propose le framework "GNN-as-Judge" pour améliorer les performances des LLM en apprentissage semi-supervisé few-shot sur les graphes à attributs textuels (TAGs) où les données étiquetées sont rares. La méthode relève les défis de la génération de pseudo-étiquettes fiables et de l'atténuation du bruit d'étiquette en intégrant le biais inductif structurel des GNNs.

27
RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.

27
RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Cet article présente des preuves causales que l'hallucination dans les modèles de langage autorégressifs est un engagement précoce de trajectoire régi par des dynamiques d'attracteur asymétriques. La recherche indique que les trajectoires factuelles et hallucinées divergent dès le premier jeton, et que la correction d'une trajectoire hallucinatoire nécessite une intervention soutenue, tandis que la corruption est plus facile.

27
RESEARCHarXiv CS.CL·04/05/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Les grands modèles de langage (LLMs) rencontrent souvent des difficultés dans la prise de décision stratégique sous information incomplète, un problème étudié à travers deux lacunes internes fondamentales. La recherche révèle une 'lacune observation-croyance' où les croyances internes des LLMs sont précises mais fragiles, se dégradant avec le raisonnement complexe et présentant des biais, et une 'lacune croyance-action' soulignant la faible conversion de ces croyances internes en actions efficaces.

27
RESEARCHarXiv CS.AI·25/04/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Cet article présente COSPLAY, un cadre de co-évolution visant à améliorer la prise de décision des LLM dans des environnements interactifs à long terme. Il permet à un agent LLM de récupérer des compétences d'une banque de compétences apprenable, tandis qu'un pipeline d'agent découvre et retient de nouvelles compétences à partir de ses propres expériences non étiquetées.

27
RESEARCHarXiv CS.LG·09/04/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·22/04/2026

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Cette recherche introduit un nouveau cadre d'apprentissage pour raffiner, visant à réduire le coût de calcul prohibitif des Grands Modèles de Langage (LLM) dans la preuve formelle de théorèmes. En exploitant les sorties des compilateurs qui compressent diverses tentatives de preuve en modes d'échec structurés, la méthode permet une exploration efficace des preuves et une correction locale des erreurs, amplifiant significativement les capacités de raisonnement des prouveurs de base.

27
RESEARCHarXiv CS.CL·08/05/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Cette recherche aborde la menace croissante des intentions malveillantes cachées dans les dialogues multi-tours avec les grands modèles de langage (LLM), où les attaquants distribuent leurs objectifs nuisibles sur plusieurs interactions. Elle propose un mécanisme de détection précoce pour identifier le tour où une réponse pourrait permettre une action nuisible, introduisant également le Multi-Turn Intent Dataset (MTID) pour l'entraînement et l'évaluation.

27
RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.

27
RESEARCHarXiv CS.CL·08/05/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak est un nouveau jeu de données synthétique et un pipeline de génération en quatre étapes conçu pour enseigner aux grands modèles linguistiques (LLM) le bon moment pour intervenir dans les conversations multipartites. Il aborde le défi d'éviter les interruptions excessives et d'améliorer la cohérence conversationnelle dans les interactions de groupe.

27