← heapsort-ai

LLMs

720 items

ARTICLEDEV.to AI·16/04/2026

I read all 232 pages of the Opus 4.7 system card

L'auteur a analysé les 232 pages de la carte système de Claude Opus 4.7 d'Anthropic, soulignant que le modèle a auto-évalué ses propres circonstances avec le score le plus élevé jamais enregistré (4.49/7). Ce bond générationnel significatif dans l'auto-évaluation du bien-être est jugé plus important que les métriques SWE-bench largement diffusées.

30
ARTICLEDEV.to AI·il y a 20j

How I Let an AI Refactor My Whole Codebase (Using Gemini 3.5)

L'auteur explique comment il a utilisé Gemini 3.5 Flash, avec sa vaste fenêtre contextuelle et sa vitesse élevée, pour refactoriser une base de code entière et relever les défis d'un monolithe hérité. La nouvelle API d'Interactions a été essentielle pour gérer les flux de travail avec état sans nécessiter de boucles de conversation manuelles.

30
ARTICLEDEV.to AI·il y a 3j

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Les chatbots IA standards échouent à convertir des tableaux financiers complexes à partir d'images ou de scans, entraînant des erreurs comme des colonnes décalées et des chiffres hallucinés. Cela se produit car les LLM multimodaux généraux ne parviennent pas à préserver les mises en page de grille complexes, nécessitant des pipelines spécialisés pour une extraction de données précise et l'intégrité.

30
RESEARCHDEV.to AI·13/04/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se concentre sur l'intégration d'outils externes avec des modèles de langage volumineux pour augmenter leurs capacités. Cette approche permet aux LLM d'effectuer des tâches complexes plus efficacement en tirant parti de fonctions spécialisées et d'interactions réelles.

30
RESEARCHarXiv CS.CL·13/04/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Cette étude évalue les performances des stratégies de prompting (chain-of-thought et zéro-shot) dans les LLM à raisonnement étendu comme Grok-4.1, en faisant varier la température d'échantillonnage sur 39 problèmes mathématiques complexes. Il a été constaté que le prompting zéro-shot atteint des performances optimales à des températures modérées, tandis que le chain-of-thought est plus efficace aux températures extrêmes, augmentant le bénéfice du raisonnement étendu.

30
ARTICLEDEV.to AI·il y a 3j

AI agent memory management: beyond the context window

Cet article traite du problème critique des agents d'IA qui oublient des informations en raison des limitations de la fenêtre de contexte, où les messages plus anciens sont évincés. Il souligne qu'il s'agit d'un problème d'architecture de mémoire, et non d'hallucination, et propose d'aller au-delà de la considération de la fenêtre de contexte comme la seule mémoire de l'agent.

30
RESEARCHarXiv CS.CL·il y a 5j

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Cette recherche étudie l'amélioration de la réponse aux questions médicales axées sur le cœur dans les grands modèles linguistiques (LLM) à l'aide de l'optimisation de la politique relative de groupe (GRPO) pour le post-apprentissage. Un cadre de récompense sensible à la variance est proposé pour améliorer la supervision basée sur des rubriques avec des fonctions de récompense analytiques continues.

30
ARTICLEDEV.to AI·13/04/2026

I built a data platform that lets AI agents query 2,500+ verified datasets

Le créateur a bâti autario, une plateforme de données rendant plus de 2 500 ensembles de données publiques vérifiées de diverses sources interrogeables pour les humains, les applications et surtout les agents d'IA. Cette plateforme vise à prévenir les hallucinations des LLM en permettant l'interrogation de données en temps réel et la publication de graphiques avec des informations vérifiées.

29
RESEARCHarXiv CS.CL·il y a 20j

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Cet article présente MedicalBench, un nouveau benchmark pour évaluer les grands modèles de langage dans l'extraction de concepts médicaux à partir des dossiers de santé électroniques. Il se concentre sur le raisonnement médical implicite et l'ancrage des preuves, s'attaquant au défi d'identifier les concepts non explicitement énoncés.

29
RESEARCHarXiv CS.AI·il y a 13j

Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

Cet article de recherche révèle que les grands modèles de langage échouent fondamentalement dans la découverte causale en raison de leur incapacité à distinguer entre les graphes causaux générant des données observationnelles similaires. Il introduit un "théorème d'obstruction du noyau" pour formaliser cette limitation intrinsèque des paradigmes d'apprentissage actuels.

29
RESEARCHarXiv CS.CL·16/04/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Cette recherche présente une approche d'IA générative améliorée par le raisonnement mathématique pour la dérivation de formules de communication optique, en se concentrant sur la modélisation des interférences non linéaires de la fibre. L'étude a réussi à reconstruire des expressions connues et à dériver une nouvelle approximation à l'aide d'un LLM, prouvant la cohérence physique et la précision pratique.

29
RESEARCHarXiv CS.CL·il y a 22j

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

L'article propose d'aborder l'annotation juridique multi-étiquettes comme une tâche de récupération, en utilisant des modèles figés et des k-plus proches voisins pour attribuer les étiquettes. Cette méthode atteint une précision compétitive et une forte efficacité des données sur des ensembles de données juridiques, réduisant considérablement les coûts de calcul par rapport au réglage fin des grands modèles linguistiques.

29
RESEARCHarXiv CS.CL·il y a 14j

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Cet article propose la première étude unifiée sur l'Exposition des Données de Pré-entraînement (PDE) dans les Grands Modèles Linguistiques (LLMs), couvrant la contamination des données et l'inférence d'appartenance. Il formalise le PDE, examine les méthodes d'attaque et de défense, et souligne les défis futurs pour assurer l'intégrité de l'évaluation et protéger la confidentialité.

29
RESEARCHarXiv CS.AI·il y a 6j

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

Nous introduisons VAMPS, un nouveau benchmark pour les grands modèles de langage multimodaux (MLLM) axé sur la résolution de problèmes mathématiques assistée visuellement. Il contient 1 168 paires de questions-réponses bilingues à choix multiples, issues d'examens d'entrée universitaires iraniens, où le traçage fournit une stratégie de solution naturelle.

29
ARTICLEDEV.to AI·21/04/2026

How we handle LLM context window limits without losing conversation quality

Cet article traite du défi critique des limites de la fenêtre de contexte des LLM, qui fait que les chatbots oublient des informations et que les agents perdent leurs objectifs, même avec des modèles offrant des fenêtres plus grandes. Il souligne que la simple expansion des fenêtres de contexte est insuffisante en raison de coûts prohibitifs et d'une latence accrue, promettant de partager des stratégies de production et leurs compromis.

29