← heapsort-ai

LLMs

723 items

RESEARCHarXiv CS.CL·22/04/2026

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

Cette étude empirique examine la détection des jailbreaks dans les grands modèles linguistiques, montrant qu'une évaluation basée sur une seule sortie sous-estime la vulnérabilité. L'augmentation du nombre de générations échantillonnées, notamment d'une à un échantillonnage modéré, améliore significativement la détection des comportements nuisibles.

27
RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Cet article présente un cadre neuro-symbolique pour traduire les problèmes de raisonnement en langage naturel en Narsese exécutable, en utilisant la logique du premier ordre. Il introduit NARS-Reasoning-v0.1, un nouveau benchmark proposant des problèmes de raisonnement avec leurs représentations formelles et des étiquettes de vérité pour évaluer les capacités de raisonnement.

27
RESEARCHarXiv CS.AI·06/05/2026

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

Cet article présente un prototype de système multi-agents (MAS) conçu pour l'hydrodynamique, répondant aux limitations des flux de travail scientifiques basés sur des LLM à agent unique. Des agents spécialisés sont coordonnés via un graphe d'exécution de couches (LEG) pour améliorer la fiabilité et la gestion du contexte dans les tâches scientifiques.

27
RESEARCHarXiv CS.AI·il y a 27j

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Cet article présente CLIPR, un cadre permettant aux Grands Modèles de Langage (LLMs) de prendre des décisions alignées sur les préférences humaines en inférant celles-ci à partir d'interactions limitées. Il s'attaque aux difficultés des LLMs à produire des solutions alignées et aux limites des approches existantes pour généraliser les préférences.

27
RESEARCHarXiv CS.CL·il y a 21j

Prompting language influences diagnostic reasoning and accuracy of large language models

Cette recherche a évalué l'impact de la langue d'invite sur le raisonnement diagnostique et la précision des grands modèles linguistiques (LLM) dans des contextes cliniques. Quatre des cinq modèles ont montré de meilleures performances en anglais, soulignant l'incertitude quant à la fiabilité des LLM dans d'autres langues.

27
RESEARCHarXiv CS.LG·il y a 21j

HELLoRA: Hot Experts Layer-Level Low-Rank Adaptation for Mixture-of-Experts Models

HELLoRA propose une nouvelle méthode pour l'ajustement fin des modèles Mixture-of-Experts (MoE), en appliquant des modules Low-Rank Adaptation (LoRA) uniquement aux experts les plus fréquemment activés à chaque couche. Cette technique réduit considérablement les paramètres entraînables et améliore les performances, attribuant son succès à une régularisation structurée qui préserve la spécialisation pré-entraînée des experts.

27
ARTICLEDEV.to AI·16/04/2026

Claude Workflows & Opus 4.7 Drive AI Code Generation; Python Observability Boosts Deployment

Cette semaine met en lumière des stratégies pratiques pour la génération de code IA avec les dernières capacités de Claude Opus 4.7, promettant des performances améliorées. Parallèlement, une proposition Python vise à renforcer l'observabilité des systèmes, essentielle pour des déploiements robustes de frameworks d'IA et l'application de techniques avancées d'ingénierie des prompts.

27
RESEARCHarXiv CS.CL·il y a 28j

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Cette recherche évalue systématiquement la relation entre la confidentialité différentielle (DP) et les biais sociaux dans les grands modèles de langage (LLM). Elle compare un LLM entraîné avec DP à des modèles de base non-DP, constatant que la DP réduit les biais dans les tâches de notation de phrases, mais pas de manière universelle, et révèle une divergence entre les biais au niveau du logit et au niveau de la sortie.

27
ARTICLEDEV.to AI·16/04/2026

Ai Hallucination Sanctions Surge How The Oregon Vineyard Ruling Walmart S Shortcut And California Ba

En avril 2026, les sanctions pour les hallucinations de l'IA sont devenues un problème sérieux pour les conseils d'administration, poussées par de nouvelles lois étatiques sur la confidentialité et un cadre de la Maison Blanche. Les entreprises sont désormais censées comprendre et atténuer les hallucinations, avec des affaires comme celle du vignoble de l'Oregon soulignant les risques juridiques et financiers liés à l'utilisation non vérifiée des LLM.

27
ARTICLEDEV.to AI·il y a 11j

Why Most RAG Pipelines Fail in Production

Cet article explore pourquoi la plupart des pipelines RAG (Génération Augmentée par Récupération) échouent en production, contrastant la simplicité des démos avec la complexité et le désordre des ensembles de données réels. Il souligne les défis de l'ingénierie des systèmes d'IA, en particulier l'ingestion de données pour faire évoluer le RAG vers des environnements de production.

27