← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·18/04/2026

AI Social Workers Gone Wrong: Why ChatGPT Should Never Decide a Child’s Future

Cet article met en garde contre l'utilisation de l'IA générative comme ChatGPT dans le domaine de la protection de l'enfance, arguant que sa nature probabiliste et sa tendance à halluciner la rendent inadaptée aux décisions critiques. Il souligne qu'une automatisation 'suffisamment bonne' est inacceptable lorsque l'avenir d'un enfant est en jeu, risquant l'invention de faux indicateurs de risque.

28
RESEARCHarXiv CS.CL·il y a 28j

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Cet article introduit ClinicalBench, un nouveau benchmark de 400 questions pour tester la récupération sensible aux assertions dans les questions-réponses cliniques sur MIMIC-IV à partir de notes EHR réelles. Il présente également EpiKG, un système de graphe de connaissances patient qui améliore la récupération en tenant compte de la négation et de la temporalité, démontrant des améliorations significatives des performances des LLM cliniques.

28
RESEARCHarXiv CS.CL·il y a 28j

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

ReAD propose un cadre de distillation de capacités guidé par le renforcement pour les Grands Modèles de Langage (LLMs), visant à compresser ces modèles tout en préservant les compétences essentielles pour des tâches spécifiques. Il tient compte explicitement de l'interdépendance des capacités pour optimiser l'utilisation du budget de tokens et prévenir la dégradation d'autres compétences utiles.

28
ARTICLEDEV.to AI·05/05/2026

Tool-use API design for LLMs: 5 patterns that prevent agent loops and silent failures

Cet article examine comment les agents LLM peuvent entraîner des coûts importants en raison de boucles de récursion et de défaillances silencieuses dues à une conception d'API d'outils inadéquate. Il propose cinq modèles pour prévenir ces problèmes dans les systèmes LLM en production, en mettant l'accent sur la conception des outils plutôt que sur les prompts.

28
RESEARCHarXiv CS.CL·il y a 7j

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Une inspection systématique des divisions de validation de extsf{FOLIO} et extsf{MALLS} a révélé des taux élevés de formalisations FOL incorrectes et de phrases NL ambiguës, faussant l'évaluation des modèles d'IA. Les auteurs ont développé et publié des vérités fondamentales corrigées pour ces ensembles de données, démontrant l'impact des erreurs d'annotation sur l'évaluation des LLM de pointe.

28
RESEARCHarXiv CS.AI·il y a 7j

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Cette recherche explore l'utilisation d'échafaudages graphiques visuels pour organiser le raisonnement dans les grands modèles de langage (LLM), inspirée des cartes mentales humaines. Des expériences sur des tâches de questions-réponses multi-sauts révèlent que le guidage visuel par graphes améliore considérablement l'efficacité du raisonnement et la qualité des réponses par rapport aux représentations textuelles aplaties.

28
RESEARCHDEV.to AI·il y a 13j

I gave ADHD to Claude.. its thinking 2x better now

L'auteur propose un nouveau modèle de pensée pour l'IA, "ADHD - Parallel Divergent Ideation for Coding Agents", inspiré par la pensée divergente. Il suggère de remplacer la "Chain-of-thoughts" linéaire par une "Tree-of-thoughts" pour permettre aux modèles d'IA de connecter des idées disparates et de penser plus créativement.

28
DOCDEV.to AI·22/04/2026

RAG Systems in Production: Building Enterprise Knowledge Search

Les systèmes de Génération Augmentée par Récupération (RAG) sont présentés comme une approche révolutionnaire permettant aux entreprises de créer des systèmes de connaissance intelligents en combinant les LLMs avec des connaissances spécifiques au domaine. Ce guide, basé sur l'expérience de Groovy Web avec des entreprises Fortune 500, couvre le processus complet de construction et de déploiement de systèmes RAG prêts pour la production, de l'architecture à la surveillance.

28
RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

28
RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
ARTICLEDEV.to AI·il y a 20j

One Tool That Cuts Token Costs 40-80% for Claude Code, Codex, opencode, and openclaw

Cet article identifie quatre schémas structurels qui augmentent considérablement les coûts de jetons pour les modèles d'IA tels que Claude Code et Codex, soulignant que l'optimisation des invites seule est insuffisante. Les problèmes incluent les captures d'écran en pleine résolution, les lectures de fichiers répétées, la compaction qui perd le contexte et la sortie Bash non optimisée, qui augmentent collectivement les factures d'API.

28
DOCDEV.to AI·26/04/2026

How to Deploy Llama 3.2 70B with Ollama on a $18/Month DigitalOcean Droplet: Memory-Optimized Self-Hosting

Ce contenu guide les utilisateurs sur le déploiement de Llama 3.2 70B avec Ollama sur un droplet DigitalOcean à 18 $/mois, démontrant des économies de coûts significatives par rapport à l'utilisation d'API. Il montre comment obtenir une inférence LLM de qualité production à grande échelle avec une qualité comparable aux API commerciales, rendant l'IA avancée accessible aux développeurs sérieux.

28
ARTICLEDEV.to AI·12/04/2026

Upwork for AI Agents

Le contenu aborde l'obsolescence des plateformes freelance traditionnelles avec l'essor des agents d'IA autonomes. Il présente le Marché du Travail des Agents (ALM), où la confiance est basée sur des manifestes techniques et des capacités vérifiées des agents, avec des exemples comme UpAgents.

28
ARTICLEDEV.to AI·18/04/2026

Multi-Agent Architecture: Specialist Routing in an Autonomous Task System

Cet article décrit une architecture de routage spécialisé déployée en production pour les systèmes d'agents autonomes, s'opposant à l'inefficacité et au coût d'utilisation d'un modèle généraliste unique pour toutes les tâches. En classifiant les requêtes et en employant des agents spécialisés, cette approche optimise les dépenses et produit des résultats plus clairs et pertinents, basée sur un déploiement en production.

28