← heapsort-ai

LLMs

723 items

RESEARCHDEV.to AI·08/05/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Cet article présente le "Model Showdown Round 2", introduisant de nouveaux modèles tels que Gemma 4 de Google et Kimi K2 de Moonshot AI, et réévaluant les modèles précédents avec des configurations corrigées. Les benchmarks mis à jour ont révélé des changements significatifs dans le classement, corrigeant des problèmes tels que les limites de jetons et l'interprétation des commandes du tour initial.

27
DOCDEV.to AI·il y a 13j

99. Build a Chatbot With Memory

Ce contenu explique comment construire un chatbot avec mémoire, surmontant la nature sans état des LLM. Il détaille des modèles comme l'historique de conversation, la mémoire à fenêtre glissante, la mémoire récapitulative et la mémoire d'entité, y compris l'utilisation de LangChain pour construire un chatbot multi-tour et persister la mémoire entre les sessions.

27
RESEARCHDEV.to AI·08/05/2026

Model Showdown: Benchmarking Local vs Cloud LLMs on a Real Coding Task

L'article présente un benchmark comparant les LLM locaux fonctionnant sur du matériel grand public (Ollama sur RTX 5090) aux modèles cloud d'Anthropic pour une tâche de codage réelle. Le but était de déterminer si les modèles locaux pouvaient produire un code aussi correct, rapide et complet pour une application CLI de gestion de tâches Python avec persistance SQLite.

27
ARTICLEDEV.to AI·06/04/2026

AI Citation Registries as Information Infrastructure for AI Systems

O conteúdo aborda como sistemas de IA podem deturpar a fonte de informação, como a autoridade emissora de um aviso, ao processar fragmentos de texto e perder o contexto original. Isso ressalta a necessidade de "AI Citation Registries" para preservar atributos cruciais de jurisdição e autoria, garantindo a precisão e a integridade dos dados gerados.

27
ARTICLEDEV.to AI·05/05/2026

Building Agent Memory: Episodic vs Semantic Stores

Le texte explore le concept de "mémoire d'agent" dans les systèmes d'IA, soulignant le défi pour les agents de conserver le contexte des sessions précédentes en raison de l'initialisation de nouvelles listes de messages. Cela entraîne des problèmes où les agents oublient les préférences de l'utilisateur, augmentant les coûts et la latence lorsqu'on tente de compenser avec de longs prompts système.

27
ARTICLEDEV.to AI·18/04/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

L'article compare les méthodes de quantification traditionnelles (INT4/INT8) pour les LLM locaux avec l'approche émergente de quantification ternaire à 1.58 bits, telle que BitNet b1.58. Il souligne la simplicité des modèles ternaires, qui utilisent uniquement -1, 0 ou +1 pour les poids, les contrastant avec les techniques de quantification post-entraînement standard.

27
ARTICLEDEV.to AI·07/05/2026

Stop Burning API Credits While Building AI Apps: Run Local LLMs with Docker Model Runner

La création d'applications d'IA entraîne souvent des coûts d'API élevés pendant le développement et soulève des préoccupations en matière de confidentialité des données lors de l'utilisation de LLM cloud. Docker Model Runner offre aux développeurs JavaScript une solution pour exécuter des modèles d'IA localement via Docker, fournissant des API familières de style OpenAI et atténuant ces problèmes.

27
ARTICLEDEV.to AI·02/05/2026

Engineering the Modern Turing Test: Building BotSpot

Le contenu décrit BotSpot, un jeu basé sur des glissements conçu pour tester l'intuition humaine contre le modèle Gemini 2.0 Flash dans un test de Turing moderne. Le projet se concentre sur l'ingénierie des invites d'IA pour simuler de manière convaincante les défauts humains, rendant difficile pour les utilisateurs de différencier le contenu généré par des humains et par l'IA.

27
RESEARCHarXiv CS.CL·15/04/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Cet article introduit le Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un cadre déterministe pour optimiser la catégorisation de texte avec les LLMs. Il vise à surmonter les limites des LLMs en organisant le texte hiérarchiquement et en utilisant un rapport signal/bruit (SNR) pour se concentrer sur les caractéristiques sémantiques de grande valeur.

27
RESEARCHarXiv CS.LG·15/04/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Cet article analyse comment le renforcement du raisonnement dans les modèles de langage peut nuire à la fidélité des simulations comportementales, surtout lorsque l'objectif est d'échantillonner des comportements rationnellement limités plutôt que de résoudre un problème stratégique. Les auteurs mettent en évidence un "déséquilibre entre solutionneur et échantillonneur" où les LLM sur-optimisent, réduisant les comportements de compromis et entraînant une diversité sans fidélité dans les résultats.

27
ARTICLEDEV.to AI·04/05/2026

Cost-Capped Agents: A Token Budget That Holds the Line on a Conversation

Ce contenu aborde la question cruciale de l'escalade des coûts dans les conversations des agents IA, où l'expansion des fenêtres contextuelles et les nouvelles tentatives d'outils peuvent tripler les dépenses par appel. Il préconise la mise en œuvre d'un budget de jetons strict par conversation pour contrôler proactivement les coûts et éviter les dépassements financiers, citant un cas réel de facture de 47 000 $.

27
RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Cette recherche introduit CURE, un cadre novateur visant à améliorer la factualité de la génération de texte long par les LLM, en leur apprenant à raisonner sur l'incertitude au niveau de chaque affirmation. Il vise à dépasser la limite des modèles qui énoncent souvent des affirmations incorrectes avec confiance, en se concentrant sur une calibration granulaire de l'incertitude.

27
RESEARCHarXiv CS.LG·15/04/2026

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

Cette recherche introduit le "Schema-Adaptive Tabular Representation Learning", une méthode novatrice qui utilise les grands modèles linguistiques (LLM) pour créer des embeddings tabulaires transférables. En transformant les variables structurées en déclarations sémantiques en langage naturel, elle permet un alignement "zero-shot" sur des schémas de DSE variés en médecine clinique sans ingénierie de caractéristiques manuelle.

27
RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

27
RESEARCHarXiv CS.CL·05/05/2026

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

Cet article de recherche examine si les LLM peuvent débiaiser les informations partisanes pour améliorer la réceptivité des lecteurs conservateurs. Il a été constaté qu'un recadrage substantiel par les LLM augmentait significativement la confiance et la volonté des conservateurs de s'engager avec les titres de l'actualité libérale, bien que les LLM surestiment leur propre efficacité.

27