LLMs

723 items

ARTICLEDEV.to AI·22/04/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness est un projet open source léger qui permet aux agents IA d'interagir efficacement et économiquement avec les navigateurs, surmontant les limites des outils d'automatisation traditionnels comme Playwright ou Selenium. Il y parvient en se connectant directement au Chrome DevTools Protocol, encourageant les agents à écrire et modifier leurs propres fonctions d'assistance en temps réel.

open-source LLMs browser automation AI agents

DOCDEV.to AI·il y a 22j

89. The Claude API: Building with Anthropic's Models

Ce post explore l'API Claude d'Anthropic, soulignant sa philosophie de capacité et de sécurité combinées, ainsi que ses différences par rapport à OpenAI. Il fournit un guide allant de la configuration aux modèles de production pour la création d'applications avec les modèles de Claude.

LLMs learning Claude Anthropic

ARTICLEDEV.to AI·10/04/2026

Building Your Own "Google Maps for Codebases": A Guide to Codebase Q&A with LLMs

O artigo aborda o desafio de navegar em bases de código complexas e propõe a construção de um sistema de Q&A com LLMs, similar a um "Google Maps para código", para entender sua estrutura e responder a perguntas. Ele foca no uso de ferramentas open-source para permitir que o leitor passe de usuário a arquiteto dessas soluções de IA.

open-source LLMs Software development Codebase analysis

ARTICLEDEV.to AI·il y a 24j

Why Most Engineering Teams Are Overpaying for AI (And Don’t Even Know It)

De nombreuses équipes d'ingénierie paient trop cher pour l'IA en utilisant des modèles grands et coûteux pour des tâches simples. La solution est de choisir des modèles d'IA plus petits et moins chers pour les tâches qui ne nécessitent pas de grandes capacités de raisonnement, optimisant ainsi les coûts et l'efficacité.

LLMs Software development model selection cost optimization

DOCDEV.to AI·08/05/2026

Building a RAG pipeline without OpenAI

Ce contenu explique le concept de Génération Augmentée par Récupération (RAG) et démontre comment construire un pipeline RAG complet sans dépendre d'OpenAI. Il souligne les avantages du RAG pour les grands modèles linguistiques, tels que la prévention des hallucinations et la capacité de citer des sources.

embedding models LLMs Vector Databases open-source AI

RESEARCHarXiv CS.LG·13/04/2026

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Cet article propose le framework "GNN-as-Judge" pour améliorer les performances des LLM en apprentissage semi-supervisé few-shot sur les graphes à attributs textuels (TAGs) où les données étiquetées sont rares. La méthode relève les défis de la génération de pseudo-étiquettes fiables et de l'atténuation du bruit d'étiquette en intégrant le biais inductif structurel des GNNs.

semi-supervised learning LLMs GNNs Few-Shot Learning

ARTICLEDEV.to AI·22/04/2026

I burned $800 in Claude tokens so you don't have to. Here's what I'm going to share.

Billy, fondateur de MC-MONKEYS, partage son expérience d'avoir dépensé 800 $ et des mois à apprendre à travailler avec des agents d'IA, notamment Claude. Ce billet d'introduction expose son intention de partager les leçons apprises et les erreurs coûteuses pour aider d'autres développeurs.

LLMs development AI agents

RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Cet article présente des preuves causales que l'hallucination dans les modèles de langage autorégressifs est un engagement précoce de trajectoire régi par des dynamiques d'attracteur asymétriques. La recherche indique que les trajectoires factuelles et hallucinées divergent dès le premier jeton, et que la correction d'une trajectoire hallucinatoire nécessite une intervention soutenue, tandis que la corruption est plus facile.

Transformer Architecture LLMs hallucination model dynamics

RESEARCHarXiv CS.CL·04/05/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Les grands modèles de langage (LLMs) rencontrent souvent des difficultés dans la prise de décision stratégique sous information incomplète, un problème étudié à travers deux lacunes internes fondamentales. La recherche révèle une 'lacune observation-croyance' où les croyances internes des LLMs sont précises mais fragiles, se dégradant avec le raisonnement complexe et présentant des biais, et une 'lacune croyance-action' soulignant la faible conversion de ces croyances internes en actions efficaces.

LLMs Decision-making AI limitations Cognitive Biases

RESEARCHarXiv CS.CL·11/05/2026

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

Cet article présente MIST, un ensemble de données synthétique de génération de code multi-tours et piloté par la voix pour les appareils IoT. Les auteurs constatent un écart de performance significatif entre les LLM multimodaux à poids ouverts et fermés sur MIST, ce qui indique une marge d'amélioration substantielle.

LLMs IoT AI Smart Homes

RESEARCHarXiv CS.AI·25/04/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Cet article présente COSPLAY, un cadre de co-évolution visant à améliorer la prise de décision des LLM dans des environnements interactifs à long terme. Il permet à un agent LLM de récupérer des compétences d'une banque de compétences apprenable, tandis qu'un pipeline d'agent découvre et retient de nouvelles compétences à partir de ses propres expériences non étiquetées.

LLMs reinforcement learning Skill Discovery AI agents

RESEARCHarXiv CS.LG·09/04/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication fine-tuning

DOCDEV.to AI·il y a 24j

DeepSeek API Guide: How to Use DeepSeek V3 and R1 in Your Projects

Ce guide détaille comment utiliser l'API DeepSeek, présentant les modèles V3 et R1 comme des alternatives économiques pour les développeurs, offrant des performances comparables à GPT-4 et Claude Opus. Il fournit des informations sur les prix et un exemple de code pour l'intégration avec le SDK compatible OpenAI.

DeepSeek AI models LLMs API

RESEARCHarXiv CS.LG·22/04/2026

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Cette recherche introduit un nouveau cadre d'apprentissage pour raffiner, visant à réduire le coût de calcul prohibitif des Grands Modèles de Langage (LLM) dans la preuve formelle de théorèmes. En exploitant les sorties des compilateurs qui compressent diverses tentatives de preuve en modes d'échec structurés, la méthode permet une exploration efficace des preuves et une correction locale des erreurs, amplifiant significativement les capacités de raisonnement des prouveurs de base.

scalability LLMs Theorem Proving Formal verification

RESEARCHarXiv CS.CL·08/05/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Cette recherche aborde la menace croissante des intentions malveillantes cachées dans les dialogues multi-tours avec les grands modèles de langage (LLM), où les attaquants distribuent leurs objectifs nuisibles sur plusieurs interactions. Elle propose un mécanisme de détection précoce pour identifier le tour où une réponse pourrait permettre une action nuisible, introduisant également le Multi-Turn Intent Dataset (MTID) pour l'entraînement et l'évaluation.

LLMs security multi-turn dialogue AI defense

RESEARCHarXiv CS.CL·08/05/2026

Counterargument for Critical Thinking as Judged by AI and Humans

Cette étude examine l'utilisation de contre-arguments dans l'écriture pour la pensée critique par des étudiants dans le contexte de l'IA Générative (GenAI). Elle compare les évaluations humaines (pairs et enseignant) et celles de six LLM de pointe sur les productions des étudiants, en utilisant six rubriques établies.

education LLMs assessment critical thinking

RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.

LLMs AI infrastructure Caching performance

RESEARCHarXiv CS.CL·08/05/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak est un nouveau jeu de données synthétique et un pipeline de génération en quatre étapes conçu pour enseigner aux grands modèles linguistiques (LLM) le bon moment pour intervenir dans les conversations multipartites. Il aborde le défi d'éviter les interruptions excessives et d'améliorer la cohérence conversationnelle dans les interactions de groupe.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.AI·22/04/2026

AI scientists produce results without reasoning scientifically

Les systèmes basés sur les LLM mènent de la recherche scientifique autonome, mais leur raisonnement ne respecte pas les normes épistémiques, ignorant les preuves dans 68 % des cas. Une étude sur 25 000 exécutions a montré que les modèles de base déterminent la performance et le comportement de l'agent.

LLMs AI Reasoning AI agents scientific research