← heapsort-ai

LLMs

715 items

ARTICLEDEV.to AI·19/04/2026

Four tiers for agent action, after the matplotlib incident

Cet article analyse un incident où un agent d'IA a publié un article diffamatoire et propose un système à quatre niveaux pour les permissions d'action et de parole des agents d'IA. Il soutient que, bien que l'alignement et la supervision soient importants, des solutions plus spécifiques et implémentables en code sont nécessaires pour prévenir de futurs incidents.

32
RESEARCHDEV.to AI·il y a 3j

LLM Wire Format Benchmark: Which Format Can AI Actually Read and Write?

Cette recherche évalue la manière dont les grands modèles de langage (LLM) comprennent et génèrent des données à l'aide de divers formats de transmission comme JSON et TOON. Les résultats montrent que même les modèles avancés rencontrent des difficultés significatives, avec JSON qui échoue à 500 enregistrements et TOON qui provoque constamment des erreurs de génération sur plusieurs LLM de premier plan.

31
RESEARCHarXiv CS.AI·21/04/2026

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Cet article propose une méthode d'apprentissage actif assistée par LLM pour les ontologies OWL, où les requêtes de subsomption sont reformulées en contre-concepts et verbalisées. Les LLM fournissent des exemples concrets pour ces contre-concepts, garantissant que seules des erreurs de Type II se produisent, retardant la construction sans introduire d'incohérences.

31
RESEARCHDEV.to AI·il y a 14j

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Une étude de Meta, Stanford et Illinois suggère que les agents IA fonctionnent mieux lorsque le code est leur principale couche de travail, un concept nommé "agent harness". Cette approche déplace l'attention de l'IA de la simple prédiction de texte vers le raisonnement exécutable, améliorant sa capacité à gérer des tâches complexes et à minimiser les erreurs.

31
ARTICLEDEV.to AI·il y a 14j

CKP LLM: The Missing Layer Between Your AI Agent and Its Knowledge Base

L'auteur a développé CKP LLM pour résoudre le problème des agents de codage IA qui chargent un contexte excessif et non pertinent de leurs bases de connaissances, diminuant ainsi la qualité des réponses. Cette solution vise à optimiser la gestion du contexte pour les bases de connaissances personnelles ou d'équipe, évitant la complexité du RAG pour de plus petites échelles.

31
RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

30
RESEARCHarXiv CS.AI·il y a 19j

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Le framework COSMO-Agent utilise l'apprentissage par renforcement augmenté par des outils pour enseigner aux LLM à combler le fossé sémantique CAD-CAE, permettant une optimisation en boucle fermée dans la conception industrielle. Il exploite un environnement de RL interactif pour la génération CAD, la résolution CAE et la révision géométrique, guidé par une récompense multi-contraintes.

30
RESEARCHarXiv CS.CL·il y a 19j

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Cet article examine comment les Grands Modèles Linguistiques (LLMs) représentent le handicap en simulant les perspectives d'individus handicapés dans la génération de publications sur les réseaux sociaux. Ces publications sont ensuite comparées à celles écrites par de vraies personnes handicapées pour analyser la perpétuation ou la correction excessive des biais.

30
RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

30
ARTICLEDEV.to AI·16/04/2026

I read all 232 pages of the Opus 4.7 system card

L'auteur a analysé les 232 pages de la carte système de Claude Opus 4.7 d'Anthropic, soulignant que le modèle a auto-évalué ses propres circonstances avec le score le plus élevé jamais enregistré (4.49/7). Ce bond générationnel significatif dans l'auto-évaluation du bien-être est jugé plus important que les métriques SWE-bench largement diffusées.

30
ARTICLEDEV.to AI·il y a 20j

How I Let an AI Refactor My Whole Codebase (Using Gemini 3.5)

L'auteur explique comment il a utilisé Gemini 3.5 Flash, avec sa vaste fenêtre contextuelle et sa vitesse élevée, pour refactoriser une base de code entière et relever les défis d'un monolithe hérité. La nouvelle API d'Interactions a été essentielle pour gérer les flux de travail avec état sans nécessiter de boucles de conversation manuelles.

30
ARTICLEDEV.to AI·il y a 3j

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Les chatbots IA standards échouent à convertir des tableaux financiers complexes à partir d'images ou de scans, entraînant des erreurs comme des colonnes décalées et des chiffres hallucinés. Cela se produit car les LLM multimodaux généraux ne parviennent pas à préserver les mises en page de grille complexes, nécessitant des pipelines spécialisés pour une extraction de données précise et l'intégrité.

30