LLMs

723 items

RESEARCHDEV.to AI·08/05/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Cet article présente le "Model Showdown Round 2", introduisant de nouveaux modèles tels que Gemma 4 de Google et Kimi K2 de Moonshot AI, et réévaluant les modèles précédents avec des configurations corrigées. Les benchmarks mis à jour ont révélé des changements significatifs dans le classement, corrigeant des problèmes tels que les limites de jetons et l'interprétation des commandes du tour initial.

AI models inference LLMs benchmarking

DOCDEV.to AI·il y a 13j

99. Build a Chatbot With Memory

Ce contenu explique comment construire un chatbot avec mémoire, surmontant la nature sans état des LLM. Il détaille des modèles comme l'historique de conversation, la mémoire à fenêtre glissante, la mémoire récapitulative et la mémoire d'entité, y compris l'utilisation de LangChain pour construire un chatbot multi-tour et persister la mémoire entre les sessions.

LangChain LLMs learning memory

RESEARCHDEV.to AI·08/05/2026

Model Showdown: Benchmarking Local vs Cloud LLMs on a Real Coding Task

L'article présente un benchmark comparant les LLM locaux fonctionnant sur du matériel grand public (Ollama sur RTX 5090) aux modèles cloud d'Anthropic pour une tâche de codage réelle. Le but était de déterminer si les modèles locaux pouvaient produire un code aussi correct, rapide et complet pour une application CLI de gestion de tâches Python avec persistance SQLite.

LLMs cloud computing benchmarking Local AI

DOCDEV.to AI·08/05/2026

Putting the GPU to Work: Running Local LLMs on a Home Lab

Ce contenu décrit l'installation d'Ollama et l'exécution de LLM locaux sur un poste de travail utilisant des GPU, soulignant l'importance de la VRAM. Il détaille l'intégration de modèles locaux avec Coder Agents pour diverses tâches de codage.

LLMs Ollama learning GPU

ARTICLEDEV.to AI·06/04/2026

AI Citation Registries as Information Infrastructure for AI Systems

O conteúdo aborda como sistemas de IA podem deturpar a fonte de informação, como a autoridade emissora de um aviso, ao processar fragmentos de texto e perder o contexto original. Isso ressalta a necessidade de "AI Citation Registries" para preservar atributos cruciais de jurisdição e autoria, garantindo a precisão e a integridade dos dados gerados.

source attribution LLMs data integrity Information Infrastructure

ARTICLEDEV.to AI·05/05/2026

Building Agent Memory: Episodic vs Semantic Stores

Le texte explore le concept de "mémoire d'agent" dans les systèmes d'IA, soulignant le défi pour les agents de conserver le contexte des sessions précédentes en raison de l'initialisation de nouvelles listes de messages. Cela entraîne des problèmes où les agents oublient les préférences de l'utilisateur, augmentant les coûts et la latence lorsqu'on tente de compenser avec de longs prompts système.

memory systems LLMs AI agents

ARTICLEDEV.to AI·18/04/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

L'article compare les méthodes de quantification traditionnelles (INT4/INT8) pour les LLM locaux avec l'approche émergente de quantification ternaire à 1.58 bits, telle que BitNet b1.58. Il souligne la simplicité des modèles ternaires, qui utilisent uniquement -1, 0 ou +1 pour les poids, les contrastant avec les techniques de quantification post-entraînement standard.

Model Compression LLMs AI optimization quantization

ARTICLEDEV.to AI·07/05/2026

Stop Burning API Credits While Building AI Apps: Run Local LLMs with Docker Model Runner

La création d'applications d'IA entraîne souvent des coûts d'API élevés pendant le développement et soulève des préoccupations en matière de confidentialité des données lors de l'utilisation de LLM cloud. Docker Model Runner offre aux développeurs JavaScript une solution pour exécuter des modèles d'IA localement via Docker, fournissant des API familières de style OpenAI et atténuant ces problèmes.

LLMs Docker Local AI API costs

DOCDEV.to AI·26/04/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Le contenu décrit la création d'un système d'agent IA autonome 24h/24 et 7j/7 sur un VPS à 6 $/mois, utilisant OpenClaw, DeepSeek V4 Pro, Playwright et Docker. Cette configuration rentable gère des tâches comme la publication sur les réseaux sociaux et la gestion d'une boutique de produits numériques, affirmant être 5 fois moins chère que les alternatives.

LLMs DIY AI automation Cost Efficiency

ARTICLEDEV.to AI·02/05/2026

Engineering the Modern Turing Test: Building BotSpot

Le contenu décrit BotSpot, un jeu basé sur des glissements conçu pour tester l'intuition humaine contre le modèle Gemini 2.0 Flash dans un test de Turing moderne. Le projet se concentre sur l'ingénierie des invites d'IA pour simuler de manière convaincante les défauts humains, rendant difficile pour les utilisateurs de différencier le contenu généré par des humains et par l'IA.

LLMs Turing Test human-AI interaction AI

ARTICLEDEV.to AI·04/05/2026

Tool-Result Truncation: The Silent Bug That Makes Agents Lie

L'article décrit la "troncation des résultats d'outils", un bug silencieux dans les agents d'IA où les sorties d'outils sont coupées, entraînant l'agent à fournir des informations fausses. Ce mode de défaillance coûteux dans les agents de production se produit sans erreur explicite.

bugs LLMs reliability tool use

RESEARCHarXiv CS.CL·15/04/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Cet article introduit le Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un cadre déterministe pour optimiser la catégorisation de texte avec les LLMs. Il vise à surmonter les limites des LLMs en organisant le texte hiérarchiquement et en utilisant un rapport signal/bruit (SNR) pour se concentrer sur les caractéristiques sémantiques de grande valeur.

LLMs data integrity Text Categorization Natural Language Processing

RESEARCHarXiv CS.LG·15/04/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Cet article analyse comment le renforcement du raisonnement dans les modèles de langage peut nuire à la fidélité des simulations comportementales, surtout lorsque l'objectif est d'échantillonner des comportements rationnellement limités plutôt que de résoudre un problème stratégique. Les auteurs mettent en évidence un "déséquilibre entre solutionneur et échantillonneur" où les LLM sur-optimisent, réduisant les comportements de compromis et entraînant une diversité sans fidélité dans les résultats.

LLMs Strategic Negotiation Behavioral Simulation Reasoning

NEWSMIT Tech Review AI·30/04/2026

This startup’s new mechanistic interpretability tool lets you debug LLMs

La startup Goodfire a lancé Silico, un nouvel outil d'interprétabilité mécaniste permettant de déboguer et d'ajuster les paramètres des LLM pendant l'entraînement. Cela offre un contrôle plus fin sur le développement des modèles.

LLMs interpretability AI tools Debugging

ARTICLEDEV.to AI·04/05/2026

Cost-Capped Agents: A Token Budget That Holds the Line on a Conversation

Ce contenu aborde la question cruciale de l'escalade des coûts dans les conversations des agents IA, où l'expansion des fenêtres contextuelles et les nouvelles tentatives d'outils peuvent tripler les dépenses par appel. Il préconise la mise en œuvre d'un budget de jetons strict par conversation pour contrôler proactivement les coûts et éviter les dépassements financiers, citant un cas réel de facture de 47 000 $.

cost management LLMs token budget Autonomous systems

RESEARCHarXiv CS.LG·28/04/2026

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

CoFi-PGMA est un nouveau cadre pour optimiser l'apprentissage dans les systèmes LLM multi-agents, traitant le feedback filtré dans les scénarios de routage et de collaboration. Il propose un objectif d'entraînement contrefactuel par agent basé sur la contribution marginale pour corriger le signal d'apprentissage.

LLMs reinforcement learning multi-agent systems

RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Cette recherche introduit CURE, un cadre novateur visant à améliorer la factualité de la génération de texte long par les LLM, en leur apprenant à raisonner sur l'incertitude au niveau de chaque affirmation. Il vise à dépasser la limite des modèles qui énoncent souvent des affirmations incorrectes avec confiance, en se concentrant sur une calibration granulaire de l'incertitude.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.LG·15/04/2026

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

Cette recherche introduit le "Schema-Adaptive Tabular Representation Learning", une méthode novatrice qui utilise les grands modèles linguistiques (LLM) pour créer des embeddings tabulaires transférables. En transformant les variables structurées en déclarations sémantiques en langage naturel, elle permet un alignement "zero-shot" sur des schémas de DSE variés en médecine clinique sans ingénierie de caractéristiques manuelle.

Clinical Reasoning LLMs tabular data healthcare AI

RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.CL·05/05/2026

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

Cet article de recherche examine si les LLM peuvent débiaiser les informations partisanes pour améliorer la réceptivité des lecteurs conservateurs. Il a été constaté qu'un recadrage substantiel par les LLM augmentait significativement la confiance et la volonté des conservateurs de s'engager avec les titres de l'actualité libérale, bien que les LLM surestiment leur propre efficacité.

LLMs political polarization news bias media trust