← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.CL·il y a 16j

Graph Alignment Topology as an Inductive Bias for Grounding Detection

Les grands modèles linguistiques (LLM) sont optimisés pour des continuations plausibles plutôt que pour vérifier explicitement l'ancrage des propositions aux documents sources, limitant leur usage dans des domaines critiques. Cette recherche propose d'exploiter la topologie d'alignement comme biais inductif en construisant des graphes bipartites alignés entre les informations de référence et les sorties de LLM, puis en entraînant un réseau neuronal graphique (GNN).

27
RESEARCHarXiv CS.CL·il y a 9j

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Cette recherche introduit CanLegalRAGBench, un nouveau benchmark canadien pour l'évaluation des systèmes de Génération Augmentée par Récupération (RAG) sur des questions juridiques, avec des requêtes réalistes et des réponses annotées par des experts. L'étude révèle la sensibilité de la performance de récupération, la compétitivité des modèles d'embedding open-source et les limites des évaluations automatiques et des hallucinations des LLM.

27
RESEARCHarXiv CS.LG·il y a 9j

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval est un nouveau jeu de données complet conçu pour entraîner et évaluer les Grands Modèles de Langage (LLMs) sur les programmes OpenQASM-3 impliquant des fonctionnalités avancées orientées matériel. Il comble une lacune dans la capacité des LLMs à gérer la programmation en informatique quantique au-delà de la spécification de circuits à séquences de portes.

27
RESEARCHarXiv CS.LG·il y a 15j

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre en boucle fermée pour la découverte scientifique, allant au-delà de l'inférence statique en couplant activement la génération d'hypothèses avec la sélection d'expériences et le raffinement des mécanismes. Il suggère itérativement des hypothèses, choisit des expériences informatives pour les distinguer ou les affiner, et met à jour son état en utilisant les preuves résultantes.

27
RESEARCHarXiv CS.CL·il y a 15j

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

Cette recherche présente SLAP, un nouveau cadre de sélection de données sensible aux lots conçu pour améliorer l'efficacité des données lors du réglage des instructions pour les LLM. SLAP optimise l'apprentissage en évaluant des compositions de lots entiers, assurant une couverture complète de la distribution des données et maximisant la diversité intra-lot pour atteindre des performances sans perte avec des coûts d'entraînement réduits.

27
RESEARCHarXiv CS.CL·il y a 7j

Adaptive Latent Agentic Reasoning

Cette recherche introduit le Raisonnement Agentique Latent Adaptatif (ALAR), un cadre à double mode conçu pour améliorer l'efficacité des agents LLM. ALAR utilise un raisonnement latent compact pour les tâches de routine et passe à un raisonnement explicite en chaîne de pensée lorsque une délibération plus approfondie est nécessaire, atteignant une précision de tâche comparable ou supérieure avec des gains d'efficacité substantiels.

27
RESEARCHarXiv CS.AI·il y a 14j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

27
RESEARCHarXiv CS.AI·il y a 14j

Can LLMs Introspect? A Reality Check

Une nouvelle étude se demande si les grands modèles de langage (LLM) peuvent réellement s'introspectionner, arguant que les conclusions actuelles pourraient être prématurées. Elle suggère que le succès apparent pourrait provenir de la détection générale d'anomalies plutôt que d'une introspection authentique, s'inspirant des recherches sur la métacognition humaine.

27
RESEARCHarXiv CS.AI·il y a 13j

Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

Cette recherche propose une architecture multi-agents pour la découverte autonome d'insights dans les flux de données en temps réel, palliant les limites des systèmes d'analyse réactifs. Le système met en œuvre une boucle de découverte continue, générant des hypothèses, compilant des analyses, validant des artefacts et produisant des visualisations, en utilisant Kafka, Flink et les grands modèles de langage.

27
RESEARCHarXiv CS.CL·il y a 14j

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Cet article propose un nouveau cadre pour évaluer et intervenir sur l'alignement des valeurs culturelles dans les Grands Modèles Linguistiques (LLM), abordant l'homogénéisation culturelle. La méthode utilise un sondage comportemental basé sur des scénarios et l'extraction de probabilités de jetons implicites pour cartographier les valeurs latentes, introduisant également le pilotage d'activation pour ajuster ces alignements sans réentraînement.

27