LLMs

722 items

ARTICLEDEV.to AI·18/04/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Cet article met en garde contre l'utilisation de l'IA générative comme ChatGPT dans le domaine de la protection de l'enfance, arguant que sa nature probabiliste et sa tendance à halluciner la rendent inadaptée aux décisions critiques. Il souligne qu'une automatisation 'suffisamment bonne' est inacceptable lorsque l'avenir d'un enfant est en jeu, risquant l'invention de faux indicateurs de risque.

Child welfare LLMs public services AI risks

RESEARCHarXiv CS.CL·il y a 28j

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Cet article introduit ClinicalBench, un nouveau benchmark de 400 questions pour tester la récupération sensible aux assertions dans les questions-réponses cliniques sur MIMIC-IV à partir de notes EHR réelles. Il présente également EpiKG, un système de graphe de connaissances patient qui améliore la récupération en tenant compte de la négation et de la temporalité, démontrant des améliorations significatives des performances des LLM cliniques.

LLMs benchmarking clinical QA medical AI

RESEARCHarXiv CS.CL·il y a 28j

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD propose un cadre de distillation de capacités guidé par le renforcement pour les Grands Modèles de Langage (LLMs), visant à compresser ces modèles tout en préservant les compétences essentielles pour des tâches spécifiques. Il tient compte explicitement de l'interdépendance des capacités pour optimiser l'utilisation du budget de tokens et prévenir la dégradation d'autres compétences utiles.

Model Compression Knowledge Distillation LLMs reinforcement learning

ARTICLEDEV.to AI·05/05/2026

Tool-use API design for LLMs: 5 patterns that prevent agent loops and silent failures

Cet article examine comment les agents LLM peuvent entraîner des coûts importants en raison de boucles de récursion et de défaillances silencieuses dues à une conception d'API d'outils inadéquate. Il propose cinq modèles pour prévenir ces problèmes dans les systèmes LLM en production, en mettant l'accent sur la conception des outils plutôt que sur les prompts.

LLMs Agent Loops software engineering API design

RESEARCHarXiv CS.CL·il y a 7j

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Une inspection systématique des divisions de validation de extsf{FOLIO} et extsf{MALLS} a révélé des taux élevés de formalisations FOL incorrectes et de phrases NL ambiguës, faussant l'évaluation des modèles d'IA. Les auteurs ont développé et publié des vérités fondamentales corrigées pour ces ensembles de données, démontrant l'impact des erreurs d'annotation sur l'évaluation des LLM de pointe.

LLMs Neurosymbolic AI Natural Language Processing benchmarks

RESEARCHarXiv CS.AI·il y a 7j

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Cette recherche explore l'utilisation d'échafaudages graphiques visuels pour organiser le raisonnement dans les grands modèles de langage (LLM), inspirée des cartes mentales humaines. Des expériences sur des tâches de questions-réponses multi-sauts révèlent que le guidage visuel par graphes améliore considérablement l'efficacité du raisonnement et la qualité des réponses par rapport aux représentations textuelles aplaties.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·il y a 7j

Greener Than Humans? Environmental Attitudes in Large Language Models

Cet article développe un benchmark pour évaluer les attitudes environnementales chez les grands modèles linguistiques (LLM), en comparant leurs réponses à des enquêtes humaines. La recherche montre que de nombreux LLM s'alignent davantage sur des attitudes environnementales progressistes que le répondant humain moyen.

LLMs benchmarking sustainability environmental attitudes

RESEARCHDEV.to AI·07/05/2026

The 55.6% problem: why frontier LLMs fail at embedded code

Les LLM de pointe affichent des performances étonnamment faibles (environ 50-55%) pour les tâches de code embarqué, selon le nouveau benchmark EmbedBench. Cela souligne un écart significatif par rapport à leurs performances dans d'autres domaines de développement, malgré les tests sur seulement quelques plateformes matérielles.

LLMs AI limitations firmware benchmarking

ARTICLEDEV.to AI·il y a 11j

The NSA Said MCP Is a National Security Problem. Here's How to Actually Fix It.

La NSA a qualifié le Protocole de Contexte de Modèle (MCP) de problème de sécurité nationale, car son architecture d'appel d'outils crée des surfaces d'attaque exploitables dans l'automatisation de l'IA. Cet article explique comment opérationnaliser les directives de la NSA pour corriger ces vulnérabilités.

LLMs cybersecurity security AI safety

RESEARCHDEV.to AI·il y a 13j

I gave ADHD to Claude.. its thinking 2x better now

L'auteur propose un nouveau modèle de pensée pour l'IA, "ADHD - Parallel Divergent Ideation for Coding Agents", inspiré par la pensée divergente. Il suggère de remplacer la "Chain-of-thoughts" linéaire par une "Tree-of-thoughts" pour permettre aux modèles d'IA de connecter des idées disparates et de penser plus créativement.

LLMs cognitive AI Divergent thinking AI

ARTICLEDEV.to AI·il y a 5j

Context Engineering: The Skill Replacing Prompt Engineering in 2026

L'ingénierie de contexte est la discipline de la conception systématique de l'environnement informationnel qui entoure une invite dans les systèmes LLM. Cette compétence, qui devrait remplacer l'ingénierie d'invite d'ici 2026, se concentre sur ce que le modèle doit savoir pour bien fonctionner, plutôt que sur ce qu'il doit faire.

LLMs prompt-engineering Context Engineering learning

DOCDEV.to AI·22/04/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Les systèmes de Génération Augmentée par Récupération (RAG) sont présentés comme une approche révolutionnaire permettant aux entreprises de créer des systèmes de connaissance intelligents en combinant les LLMs avec des connaissances spécifiques au domaine. Ce guide, basé sur l'expérience de Groovy Web avec des entreprises Fortune 500, couvre le processus complet de construction et de déploiement de systèmes RAG prêts pour la production, de l'architecture à la surveillance.

LLMs RAG knowledge management Enterprise AI

RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

LLMs reasoning tasks reinforcement learning PPO

RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

ARTICLEDEV.to AI·11/04/2026

The Future of AI Integration: Model Context Protocol (MCP) Connectors

Le Model Context Protocol (MCP) d'Anthropic est un nouveau standard ouvert qui résout le problème d'intégration de données "N×M" pour les LLM. Il standardise l'interaction entre les applications d'IA et les services externes, offrant une solution transformative pour les écosystèmes d'agents autonomes.

AI integration LLMs MCP Connectors Model Context Protocol

ARTICLEDEV.to AI·il y a 20j

One Tool That Cuts Token Costs 40-80% for Claude Code, Codex, opencode, and openclaw

Cet article identifie quatre schémas structurels qui augmentent considérablement les coûts de jetons pour les modèles d'IA tels que Claude Code et Codex, soulignant que l'optimisation des invites seule est insuffisante. Les problèmes incluent les captures d'écran en pleine résolution, les lectures de fichiers répétées, la compaction qui perd le contexte et la sortie Bash non optimisée, qui augmentent collectivement les factures d'API.

token management LLMs Cost Optimization AI

DOCDEV.to AI·26/04/2026

How to Deploy Llama 3.2 70B with Ollama on a $18/Month DigitalOcean Droplet: Memory-Optimized Self-Hosting

Ce contenu guide les utilisateurs sur le déploiement de Llama 3.2 70B avec Ollama sur un droplet DigitalOcean à 18 $/mois, démontrant des économies de coûts significatives par rapport à l'utilisation d'API. Il montre comment obtenir une inférence LLM de qualité production à grande échelle avec une qualité comparable aux API commerciales, rendant l'IA avancée accessible aux développeurs sérieux.

LLMs deployment self-hosting Cost Optimization

ARTICLEDEV.to AI·12/04/2026

Upwork for AI Agents

Le contenu aborde l'obsolescence des plateformes freelance traditionnelles avec l'essor des agents d'IA autonomes. Il présente le Marché du Travail des Agents (ALM), où la confiance est basée sur des manifestes techniques et des capacités vérifiées des agents, avec des exemples comme UpAgents.

future-of-work LLMs Agentic Labor Market Freelance Platforms

ARTICLEDEV.to AI·02/05/2026

Why AI Makes Software Fundamentals More Expensive Than Ever

L'article conteste l'idée que les LLMs rendent les compétences en ingénierie obsolètes, affirmant que les fondamentaux du logiciel sont plus importants que jamais. Il avertit que traiter le code généré par l'IA comme "bon marché" mène à "l'entropie logicielle" et au "Voodoo Coding", entraînant une dégradation rapide de la qualité.

future-of-work LLMs developer skills code quality

ARTICLEDEV.to AI·18/04/2026

Multi-Agent Architecture: Specialist Routing in an Autonomous Task System

Cet article décrit une architecture de routage spécialisé déployée en production pour les systèmes d'agents autonomes, s'opposant à l'inefficacité et au coût d'utilisation d'un modèle généraliste unique pour toutes les tâches. En classifiant les requêtes et en employant des agents spécialisés, cette approche optimise les dépenses et produit des résultats plus clairs et pertinents, basée sur un déploiement en production.

AI architecture LLMs Cost Optimization multi-agent systems