LLMs

720 items

ARTICLEDEV.to AI·16/04/2026

I read all 232 pages of the Opus 4.7 system card

L'auteur a analysé les 232 pages de la carte système de Claude Opus 4.7 d'Anthropic, soulignant que le modèle a auto-évalué ses propres circonstances avec le score le plus élevé jamais enregistré (4.49/7). Ce bond générationnel significatif dans l'auto-évaluation du bien-être est jugé plus important que les métriques SWE-bench largement diffusées.

AI models LLMs AI safety AI evaluation

ARTICLEDEV.to AI·il y a 20j

How I Let an AI Refactor My Whole Codebase (Using Gemini 3.5)

L'auteur explique comment il a utilisé Gemini 3.5 Flash, avec sa vaste fenêtre contextuelle et sa vitesse élevée, pour refactoriser une base de code entière et relever les défis d'un monolithe hérité. La nouvelle API d'Interactions a été essentielle pour gérer les flux de travail avec état sans nécessiter de boucles de conversation manuelles.

codebase management LLMs AI refactoring Gemini 3.5 Flash

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Le titre suggère que le réglage fin de modèles d'IA locaux utilisant la marque

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

ARTICLEDEV.to AI·il y a 3j

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Les chatbots IA standards échouent à convertir des tableaux financiers complexes à partir d'images ou de scans, entraînant des erreurs comme des colonnes décalées et des chiffres hallucinés. Cela se produit car les LLM multimodaux généraux ne parviennent pas à préserver les mises en page de grille complexes, nécessitant des pipelines spécialisés pour une extraction de données précise et l'intégrité.

chatbots LLMs Data Extraction AI

DOCDEV.to AI·il y a 3j

GenericAgent: Unleash Self-Evolving AI with a Minimal Autonomous Framework!

GenericAgent est un framework Python pour la création d'agents d'IA autonomes et auto-évolutifs, permettant aux LLM de contrôler les systèmes informatiques locaux avec un ensemble minimal d'outils. Il apprend et cristallise automatiquement les exécutions de tâches réussies en "Compétences" réutilisables.

Self-evolving AI LLMs Autonomous systems Python Framework

CASEDEV.to AI·il y a 3j

We Built an AI That Remembers Everything Your Team Forgets

Un système d'IA nommé ECHO a été développé pour transformer le chaos de Slack en un graphe de connaissances vivant, luttant contre l'oubli au sein des équipes. Il utilise des LLM pour l'extraction d'entités, construit des relations dans un graphe et applique une décroissance temporelle pour maintenir la pertinence de l'expertise de l'équipe.

LLMs Knowledge Graph team collaboration knowledge management

RESEARCHDEV.to AI·13/04/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se concentre sur l'intégration d'outils externes avec des modèles de langage volumineux pour augmenter leurs capacités. Cette approche permet aux LLM d'effectuer des tâches complexes plus efficacement en tirant parti de fonctions spécialisées et d'interactions réelles.

language models LLMs NLP Tool Augmentation

ARTICLEDEV.to AI·il y a 3j

How I built an intent drift detector for LLM agents

Cet article détaille la création du SIP (State Integrity Protocol), un outil conçu pour détecter la dérive d'intention et sémantique dans les sorties des agents LLM. Il aborde le problème de l'échec silencieux des agents IA en vérifiant automatiquement les écarts entre les résultats attendus et réels.

LLMs Semantic Drift Intent Detection AI agents

RESEARCHarXiv CS.CL·13/04/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Cette étude évalue les performances des stratégies de prompting (chain-of-thought et zéro-shot) dans les LLM à raisonnement étendu comme Grok-4.1, en faisant varier la température d'échantillonnage sur 39 problèmes mathématiques complexes. Il a été constaté que le prompting zéro-shot atteint des performances optimales à des températures modérées, tandis que le chain-of-thought est plus efficace aux températures extrêmes, augmentant le bénéfice du raisonnement étendu.

mathematical reasoning LLMs Prompting Temperature

ARTICLEDEV.to AI·il y a 3j

AI agent memory management: beyond the context window

Cet article traite du problème critique des agents d'IA qui oublient des informations en raison des limitations de la fenêtre de contexte, où les messages plus anciens sont évincés. Il souligne qu'il s'agit d'un problème d'architecture de mémoire, et non d'hallucination, et propose d'aller au-delà de la considération de la fenêtre de contexte comme la seule mémoire de l'agent.

AI architecture LLMs Context window memory management

RESEARCHarXiv CS.CL·23/04/2026

Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs

Une nouvelle recherche indique que les « neurones d'hallucination » (H-neurons) prédisant les hallucinations des LLM ne se généralisent pas entre différents domaines de connaissance. Cela suggère que l'hallucination pourrait ne pas être un mécanisme unique avec une signature neurale universelle, mais plutôt dépendante du contexte.

LLMs hallucination AI safety AI research

RESEARCHarXiv CS.CL·il y a 5j

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Cette recherche étudie l'amélioration de la réponse aux questions médicales axées sur le cœur dans les grands modèles linguistiques (LLM) à l'aide de l'optimisation de la politique relative de groupe (GRPO) pour le post-apprentissage. Un cadre de récompense sensible à la variance est proposé pour améliorer la supervision basée sur des rubriques avec des fonctions de récompense analytiques continues.

LLMs Medical Question Answering GRPO healthcare AI

ARTICLEDEV.to AI·13/04/2026

I built a data platform that lets AI agents query 2,500+ verified datasets

Le créateur a bâti autario, une plateforme de données rendant plus de 2 500 ensembles de données publiques vérifiées de diverses sources interrogeables pour les humains, les applications et surtout les agents d'IA. Cette plateforme vise à prévenir les hallucinations des LLM en permettant l'interrogation de données en temps réel et la publication de graphiques avec des informations vérifiées.

verified data LLMs Data Platform data querying

RESEARCHarXiv CS.CL·il y a 20j

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Cet article présente MedicalBench, un nouveau benchmark pour évaluer les grands modèles de langage dans l'extraction de concepts médicaux à partir des dossiers de santé électroniques. Il se concentre sur le raisonnement médical implicite et l'ancrage des preuves, s'attaquant au défi d'identifier les concepts non explicitement énoncés.

LLMs concept extraction Healthcare benchmarking

RESEARCHarXiv CS.AI·il y a 13j

Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

Cet article de recherche révèle que les grands modèles de langage échouent fondamentalement dans la découverte causale en raison de leur incapacité à distinguer entre les graphes causaux générant des données observationnelles similaires. Il introduit un "théorème d'obstruction du noyau" pour formaliser cette limitation intrinsèque des paradigmes d'apprentissage actuels.

LLMs research Causal Discovery machine learning

RESEARCHarXiv CS.CL·16/04/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Cette recherche présente une approche d'IA générative améliorée par le raisonnement mathématique pour la dérivation de formules de communication optique, en se concentrant sur la modélisation des interférences non linéaires de la fibre. L'étude a réussi à reconstruire des expressions connues et à dériver une nouvelle approximation à l'aide d'un LLM, prouvant la cohérence physique et la précision pratique.

mathematical reasoning LLMs Scientific Discovery Generative AI

RESEARCHarXiv CS.CL·il y a 22j

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

L'article propose d'aborder l'annotation juridique multi-étiquettes comme une tâche de récupération, en utilisant des modèles figés et des k-plus proches voisins pour attribuer les étiquettes. Cette méthode atteint une précision compétitive et une forte efficacité des données sur des ensembles de données juridiques, réduisant considérablement les coûts de calcul par rapport au réglage fin des grands modèles linguistiques.

Multi-label Classification LLMs Legal AI Data efficiency

RESEARCHarXiv CS.CL·il y a 14j

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Cet article propose la première étude unifiée sur l'Exposition des Données de Pré-entraînement (PDE) dans les Grands Modèles Linguistiques (LLMs), couvrant la contamination des données et l'inférence d'appartenance. Il formalise le PDE, examine les méthodes d'attaque et de défense, et souligne les défis futurs pour assurer l'intégrité de l'évaluation et protéger la confidentialité.

LLMs membership inference data privacy security

RESEARCHarXiv CS.AI·il y a 6j

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

Nous introduisons VAMPS, un nouveau benchmark pour les grands modèles de langage multimodaux (MLLM) axé sur la résolution de problèmes mathématiques assistée visuellement. Il contient 1 168 paires de questions-réponses bilingues à choix multiples, issues d'examens d'entrée universitaires iraniens, où le traçage fournit une stratégie de solution naturelle.

multimodal AI LLMs benchmarking mathematics

ARTICLEDEV.to AI·21/04/2026

How we handle LLM context window limits without losing conversation quality

Cet article traite du défi critique des limites de la fenêtre de contexte des LLM, qui fait que les chatbots oublient des informations et que les agents perdent leurs objectifs, même avec des modèles offrant des fenêtres plus grandes. Il souligne que la simple expansion des fenêtres de contexte est insuffisante en raison de coûts prohibitifs et d'une latence accrue, promettant de partager des stratégies de production et leurs compromis.

LLMs Context window Cost Optimization performance