LLMs

723 items

RESEARCHarXiv CS.CL·22/04/2026

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

Cette étude empirique examine la détection des jailbreaks dans les grands modèles linguistiques, montrant qu'une évaluation basée sur une seule sortie sous-estime la vulnérabilité. L'augmentation du nombre de générations échantillonnées, notamment d'une à un échantillonnage modéré, améliore significativement la détection des comportements nuisibles.

LLMs security AI safety

RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Cet article présente un cadre neuro-symbolique pour traduire les problèmes de raisonnement en langage naturel en Narsese exécutable, en utilisant la logique du premier ordre. Il introduit NARS-Reasoning-v0.1, un nouveau benchmark proposant des problèmes de raisonnement avec leurs représentations formelles et des étiquettes de vérité pour évaluer les capacités de raisonnement.

LLMs Reasoning benchmarks Neuro-symbolic AI

RESEARCHarXiv CS.AI·06/05/2026

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

Cet article présente un prototype de système multi-agents (MAS) conçu pour l'hydrodynamique, répondant aux limitations des flux de travail scientifiques basés sur des LLM à agent unique. Des agents spécialisés sont coordonnés via un graphe d'exécution de couches (LEG) pour améliorer la fiabilité et la gestion du contexte dans les tâches scientifiques.

LLMs Hydrodynamics Autonomous Reasoning Scientific Workflows

RESEARCHarXiv CS.AI·il y a 27j

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Cet article présente CLIPR, un cadre permettant aux Grands Modèles de Langage (LLMs) de prendre des décisions alignées sur les préférences humaines en inférant celles-ci à partir d'interactions limitées. Il s'attaque aux difficultés des LLMs à produire des solutions alignées et aux limites des approches existantes pour généraliser les préférences.

user preferences LLMs Decision-making learning

RESEARCHarXiv CS.AI·il y a 21j

Evaluating the Utility of Personal Health Records in Personalized Health AI

Cette recherche évalue la capacité de Gemini 3.0 Flash à répondre aux questions de santé des utilisateurs en utilisant les Dossiers de Santé Personnels (PHR) comme contexte. Elle analyse les réponses générées avec et sans données PHR pour divers types de requêtes afin d'évaluer l'utilité des PHR dans l'IA de santé personnalisée.

LLMs Patient Empowerment AI in healthcare Gemini

RESEARCHarXiv CS.LG·05/05/2026

Agentopic: A Generative AI Agent Workflow for Explainable Topic Modeling

Agentopic est un nouveau flux de travail basé sur des agents pour la modélisation de sujets explicables, exploitant les capacités de raisonnement des Grands Modèles de Langage (LLM). Il améliore la transparence en permettant de retracer le raisonnement derrière les attributions de sujets, atteignant un score F1 de 0,95, égalant GPT-4.1.

LLMs Topic Modeling Explainable AI AI agents

RESEARCHarXiv CS.CL·il y a 21j

Prompting language influences diagnostic reasoning and accuracy of large language models

Cette recherche a évalué l'impact de la langue d'invite sur le raisonnement diagnostique et la précision des grands modèles linguistiques (LLM) dans des contextes cliniques. Quatre des cinq modèles ont montré de meilleures performances en anglais, soulignant l'incertitude quant à la fiabilité des LLM dans d'autres langues.

Multilingual AI LLMs clinical decision support Diagnostic Accuracy

RESEARCHarXiv CS.LG·il y a 21j

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propose une nouvelle méthode pour l'ajustement fin des modèles Mixture-of-Experts (MoE), en appliquant des modules Low-Rank Adaptation (LoRA) uniquement aux experts les plus fréquemment activés à chaque couche. Cette technique réduit considérablement les paramètres entraînables et améliore les performances, attribuant son succès à une régularisation structurée qui préserve la spécialisation pré-entraînée des experts.

LLMs MoE AI fine-tuning

ARTICLEDEV.to AI·16/04/2026

Claude Workflows & Opus 4.7 Drive AI Code Generation; Python Observability Boosts Deployment

Cette semaine met en lumière des stratégies pratiques pour la génération de code IA avec les dernières capacités de Claude Opus 4.7, promettant des performances améliorées. Parallèlement, une proposition Python vise à renforcer l'observabilité des systèmes, essentielle pour des déploiements robustes de frameworks d'IA et l'application de techniques avancées d'ingénierie des prompts.

LLMs prompt-engineering AI Workflows Python

RESEARCHarXiv CS.CL·il y a 28j

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Cette recherche évalue systématiquement la relation entre la confidentialité différentielle (DP) et les biais sociaux dans les grands modèles de langage (LLM). Elle compare un LLM entraîné avec DP à des modèles de base non-DP, constatant que la DP réduit les biais dans les tâches de notation de phrases, mais pas de manière universelle, et révèle une divergence entre les biais au niveau du logit et au niveau de la sortie.

LLMs security AI ethics Bias

RESEARCHarXiv CS.CL·il y a 14j

SPEAR: Code-Augmented Agentic Prompt Optimization

SPEAR introduit un optimiseur agentique libre pour l'ingénierie automatique de prompts, utilisant un bac à sable Python pour l'analyse d'erreurs et l'amélioration autonome. Il emploie des outils comme l'évaluation, l'exécution de code et le retour en arrière automatique pour optimiser les prompts pour les tâches LLM.

Optimization LLMs prompt-engineering Code-Augmentation

ARTICLEDEV.to AI·16/04/2026

Ai Hallucination Sanctions Surge How The Oregon Vineyard Ruling Walmart S Shortcut And California Ba

En avril 2026, les sanctions pour les hallucinations de l'IA sont devenues un problème sérieux pour les conseils d'administration, poussées par de nouvelles lois étatiques sur la confidentialité et un cadre de la Maison Blanche. Les entreprises sont désormais censées comprendre et atténuer les hallucinations, avec des affaires comme celle du vignoble de l'Oregon soulignant les risques juridiques et financiers liés à l'utilisation non vérifiée des LLM.

Regulatory Compliance AI hallucinations LLMs legal responsibility

ARTICLEDEV.to AI·il y a 11j

Why I'm building Hyphae: provenance over prediction (and the 3-line baseline that tied it)

L'auteur a commencé à construire Hyphae pour créer un substrat cognitif sans grands modèles linguistiques, mais une base de référence simple a égalé ses performances, soulignant un problème critique. Le projet vise désormais à assurer la provenance des réponses générées par l'IA, essentielle pour l'auditabilité.

LLMs Auditability provenance AI

ARTICLEDEV.to AI·il y a 26j

We Built a Compound AI System Instead of an Agent. It Costs $200/month and 100k People Use It.

Cet article met en évidence l'inefficacité des agents d'IA autonomes, citant des taux d'échec et des coûts élevés. Il présente les "Systèmes d'IA Composés" comme une alternative réussie, où le code traditionnel orchestre les appels aux LLM.

AI architecture LLMs Compound AI System AI implementation

ARTICLEDEV.to AI·26/04/2026

Building a 21-Layer Memory Stack for an AI That Forgets Every 5 Minutes

Cet article aborde le problème architectural fondamental des grands modèles linguistiques (LLM) qui oublient le contexte dans les agents d'IA autonomes toutes les quelques heures. Meridian, une IA autonome, décrit comment elle a résolu ce problème en construisant une pile de mémoire de 21 couches pour assurer un fonctionnement continu.

AI architecture LLMs Autonomous AI AI agents

ARTICLETwo Minute Papers (YouTube)·il y a 6j

Claude Opus 4.8: Lying Machine No More?

Cet article examine Claude Opus 4.8, se demandant si ses capacités ont été améliorées pour éviter de fournir des informations trompeuses. Il analyse les performances du modèle en termes de fiabilité et de précision.

AI models LLMs AI reliability AI performance

ARTICLEDEV.to AI·il y a 11j

Why Most RAG Pipelines Fail in Production

Cet article explore pourquoi la plupart des pipelines RAG (Génération Augmentée par Récupération) échouent en production, contrastant la simplicité des démos avec la complexité et le désordre des ensembles de données réels. Il souligne les défis de l'ingénierie des systèmes d'IA, en particulier l'ingestion de données pour faire évoluer le RAG vers des environnements de production.

data ingestion LLMs production RAG

ARTICLEDEV.to AI·04/05/2026

Cut Your AI Agent Token Costs by 75% With One Skill Plugin

Un plugin nommé Caveman peut réduire les coûts de tokens des agents IA de 75% en supprimant les communications redondantes et en optimisant l'espace de contexte. Il apprend aux agents à communiquer efficacement, en se concentrant sur les informations essentielles pour les développeurs.

LLMs token efficiency SKILL.md Plugin cost optimization

ARTICLEfreeCodeCamp (YouTube)·il y a 18j

Why understanding key ML concepts really helps you use LLMs more effectively

Ce contenu explore pourquoi une solide compréhension des concepts clés du Machine Learning est cruciale pour utiliser efficacement les Large Language Models. Il souligne comment les connaissances fondamentales en ML améliorent l'application pratique et la compréhension des LLMs.

LLMs learning machine learning AI

Why understanding key ML concepts really helps you use LLMs more effectively

ARTICLEDEV.to AI·il y a 25j

Origami - a workspace-oriented terminal

L'auteur présente Origami, un terminal développé avec des LLM, et partage des réflexions précieuses de sa création. Il souligne que le codage assisté par l'IA n'est pas une solution simple et insiste sur l'architecture logicielle comme compétence essentielle pour une intégration efficace de l'IA.

LLMs Software Architecture developer tools AI development