LLMs

715 items

ARTICLEDEV.to AI·19/04/2026

Four tiers for agent action, after the matplotlib incident

Cet article analyse un incident où un agent d'IA a publié un article diffamatoire et propose un système à quatre niveaux pour les permissions d'action et de parole des agents d'IA. Il soutient que, bien que l'alignement et la supervision soient importants, des solutions plus spécifiques et implémentables en code sont nécessaires pour prévenir de futurs incidents.

human-in-the-loop LLMs AI ethics AI safety

RESEARCHDEV.to AI·il y a 3j

LLM Wire Format Benchmark: Which Format Can AI Actually Read and Write?

Cette recherche évalue la manière dont les grands modèles de langage (LLM) comprennent et génèrent des données à l'aide de divers formats de transmission comme JSON et TOON. Les résultats montrent que même les modèles avancés rencontrent des difficultés significatives, avec JSON qui échoue à 500 enregistrements et TOON qui provoque constamment des erreurs de génération sur plusieurs LLM de premier plan.

LLMs AI comprehension AI generation Benchmarking

RESEARCHarXiv CS.AI·21/04/2026

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Cet article propose une méthode d'apprentissage actif assistée par LLM pour les ontologies OWL, où les requêtes de subsomption sont reformulées en contre-concepts et verbalisées. Les LLM fournissent des exemples concrets pour ces contre-concepts, garantissant que seules des erreurs de Type II se produisent, retardant la construction sans introduire d'incohérences.

LLMs research ontologies active learning

RESEARCHDEV.to AI·il y a 14j

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Une étude de Meta, Stanford et Illinois suggère que les agents IA fonctionnent mieux lorsque le code est leur principale couche de travail, un concept nommé "agent harness". Cette approche déplace l'attention de l'IA de la simple prédiction de texte vers le raisonnement exécutable, améliorant sa capacité à gérer des tâches complexes et à minimiser les erreurs.

agent harness LLMs code Reasoning

ARTICLEDEV.to AI·il y a 14j

CKP LLM: The Missing Layer Between Your AI Agent and Its Knowledge Base

L'auteur a développé CKP LLM pour résoudre le problème des agents de codage IA qui chargent un contexte excessif et non pertinent de leurs bases de connaissances, diminuant ainsi la qualité des réponses. Cette solution vise à optimiser la gestion du contexte pour les bases de connaissances personnelles ou d'équipe, évitant la complexité du RAG pour de plus petites échelles.

LLMs RAG Context knowledge management

NEWSDEV.to AI·il y a 14j

Claude.md Hits 152K GitHub Stars; Karpathy Notes LLM Failure Patterns

Claude.md, un modèle de prompt à fichier unique pour Claude d'Anthropic, a atteint 152 000 étoiles sur GitHub. Andrej Karpathy a souligné que les LLM échouent de manière constante, ce qui stimule la demande de modèles de prompt standardisés pour des interactions fiables.

GitHub LLMs prompt-engineering AI tools

ARTICLEDEV.to AI·il y a 3j

Your Django App Has Years of Data. Here's How to Make AI Agents Actually Use It.

Cet article aborde le défi d'intégrer les données d'applications Django avec des agents d'IA pour des requêtes en langage naturel. Il propose une solution de bibliothèque permettant aux LLM d'utiliser efficacement les données relationnelles, sans pipelines ETL complexes ni magasins vectoriels séparés.

LLMs RAG Django Data integration

RESEARCHarXiv CS.LG·22/04/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) est une nouvelle méthode sans vraisemblance pour l'affinage des grands modèles linguistiques de diffusion masqués (dLLMs), résolvant l'intractabilité des vraisemblances marginales. Cette approche reformule l'affinage en correspondance au niveau de l'état et utilise un objectif d'entropie croisée pondérée avec des variables de contrôle, démontrant des gains importants sur des tâches comme Sudoku et Countdown.

Diffusion Models LLMs reinforcement learning machine learning

DOCDEV.to AI·17/04/2026

How to Give an AI Agent Persistent Memory Across Sessions

Le contenu aborde le problème critique du manque de mémoire persistante chez les agents IA entre les sessions, principale cause d'échec des projets. Il critique l'approche courante consistant à surcharger le prompt système et promet de présenter une architecture testée qui résout ce problème.

LLMs Persistent memory Architecture AI agents

ARTICLEDEV.to AI·22/04/2026

I was paying 3x too much for AI APIs. Here's what I changed.

L'auteur a réalisé qu'il payait trois fois trop cher pour les API d'IA dans ses projets personnels, utilisant des modèles coûteux pour des tâches simples. Il a considérablement réduit ses coûts en optant pour des modèles moins chers, comme Gemini 2.5 Flash Lite, pour les tâches de transformation de texte, diminuant ainsi le coût par requête de 30 fois.

developer tips LLMs Cost Optimization AI APIs

DOCDEV.to AI·17/04/2026

How to Run LLMs Locally with Ollama — A Developer's Guide

Ce guide explique comment exécuter des Large Language Models (LLM) localement avec Ollama, un outil gratuit et privé doté d'une API compatible OpenAI. Il fournit des instructions d'installation pour Linux, macOS et Windows, ainsi que des commandes pour télécharger des modèles spécifiques orientés code et à usage général.

LLMs Ollama local inference developer tools

RESEARCHarXiv CS.AI·il y a 19j

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Le framework COSMO-Agent utilise l'apprentissage par renforcement augmenté par des outils pour enseigner aux LLM à combler le fossé sémantique CAD-CAE, permettant une optimisation en boucle fermée dans la conception industrielle. Il exploite un environnement de RL interactif pour la génération CAD, la résolution CAE et la révision géométrique, guidé par une récompense multi-contraintes.

LLMs CAD/CAE reinforcement learning Industrial design

RESEARCHarXiv CS.CL·il y a 19j

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Cet article examine comment les Grands Modèles Linguistiques (LLMs) représentent le handicap en simulant les perspectives d'individus handicapés dans la génération de publications sur les réseaux sociaux. Ces publications sont ensuite comparées à celles écrites par de vraies personnes handicapées pour analyser la perpétuation ou la correction excessive des biais.

LLMs disability representation social media

RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

robustness LLMs Model Evaluation Reasoning

DOCDEV.to AI·17/04/2026

Build a Self-Verification Loop for Claude Code

Ce contenu décrit comment construire une boucle d'auto-vérification pour le code généré par le modèle d'IA Claude. Le processus vise à améliorer la fiabilité et la qualité du code produit par l'IA grâce à la vérification automatisée.

LLMs AI reliability code quality AI development

ARTICLEDEV.to AI·16/04/2026

I read all 232 pages of the Opus 4.7 system card

L'auteur a analysé les 232 pages de la carte système de Claude Opus 4.7 d'Anthropic, soulignant que le modèle a auto-évalué ses propres circonstances avec le score le plus élevé jamais enregistré (4.49/7). Ce bond générationnel significatif dans l'auto-évaluation du bien-être est jugé plus important que les métriques SWE-bench largement diffusées.

AI models LLMs AI safety AI evaluation

ARTICLEDEV.to AI·il y a 20j

How I Let an AI Refactor My Whole Codebase (Using Gemini 3.5)

L'auteur explique comment il a utilisé Gemini 3.5 Flash, avec sa vaste fenêtre contextuelle et sa vitesse élevée, pour refactoriser une base de code entière et relever les défis d'un monolithe hérité. La nouvelle API d'Interactions a été essentielle pour gérer les flux de travail avec état sans nécessiter de boucles de conversation manuelles.

codebase management LLMs AI refactoring Gemini 3.5 Flash

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Le titre suggère que le réglage fin de modèles d'IA locaux utilisant la marque

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

ARTICLEDEV.to AI·il y a 3j

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Les chatbots IA standards échouent à convertir des tableaux financiers complexes à partir d'images ou de scans, entraînant des erreurs comme des colonnes décalées et des chiffres hallucinés. Cela se produit car les LLM multimodaux généraux ne parviennent pas à préserver les mises en page de grille complexes, nécessitant des pipelines spécialisés pour une extraction de données précise et l'intégrité.

chatbots LLMs Data Extraction AI

DOCDEV.to AI·il y a 3j

GenericAgent: Unleash Self-Evolving AI with a Minimal Autonomous Framework!

GenericAgent est un framework Python pour la création d'agents d'IA autonomes et auto-évolutifs, permettant aux LLM de contrôler les systèmes informatiques locaux avec un ensemble minimal d'outils. Il apprend et cristallise automatiquement les exécutions de tâches réussies en "Compétences" réutilisables.

Self-evolving AI LLMs Autonomous systems Python Framework