LLMs

722 items

RESEARCHarXiv CS.CL·il y a 16j

Graph Alignment Topology as an Inductive Bias for Grounding Detection

Les grands modèles linguistiques (LLM) sont optimisés pour des continuations plausibles plutôt que pour vérifier explicitement l'ancrage des propositions aux documents sources, limitant leur usage dans des domaines critiques. Cette recherche propose d'exploiter la topologie d'alignement comme biais inductif en construisant des graphes bipartites alignés entre les informations de référence et les sorties de LLM, puis en entraînant un réseau neuronal graphique (GNN).

LLMs hallucination grounding detection GNNs

RESEARCHarXiv CS.CL·il y a 9j

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Cette recherche introduit CanLegalRAGBench, un nouveau benchmark canadien pour l'évaluation des systèmes de Génération Augmentée par Récupération (RAG) sur des questions juridiques, avec des requêtes réalistes et des réponses annotées par des experts. L'étude révèle la sensibilité de la performance de récupération, la compétitivité des modèles d'embedding open-source et les limites des évaluations automatiques et des hallucinations des LLM.

Retrieval Augmented Generation LLMs evaluation Legal AI

RESEARCHarXiv CS.AI·il y a 7j

Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems

Cet article présente GAMBLe, un cadre analytique pour les systèmes de recherche pilotés par l'IA (ADRS). Il décompose le comportement des ADRS en quatre paramètres et un paysage efficace, montrant comment différentes paires générateur-évaluateur induisent des paysages d'optimisation structurellement différents.

LLMs research frameworks AI

RESEARCHarXiv CS.LG·il y a 9j

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval est un nouveau jeu de données complet conçu pour entraîner et évaluer les Grands Modèles de Langage (LLMs) sur les programmes OpenQASM-3 impliquant des fonctionnalités avancées orientées matériel. Il comble une lacune dans la capacité des LLMs à gérer la programmation en informatique quantique au-delà de la spécification de circuits à séquences de portes.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·il y a 15j

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propose un cadre en boucle fermée pour la découverte scientifique, allant au-delà de l'inférence statique en couplant activement la génération d'hypothèses avec la sélection d'expériences et le raffinement des mécanismes. Il suggère itérativement des hypothèses, choisit des expériences informatives pour les distinguer ou les affiner, et met à jour son état en utilisant les preuves résultantes.

LLMs research active experimentation Scientific Discovery

RESEARCHarXiv CS.CL·il y a 15j

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

Cette recherche présente SLAP, un nouveau cadre de sélection de données sensible aux lots conçu pour améliorer l'efficacité des données lors du réglage des instructions pour les LLM. SLAP optimise l'apprentissage en évaluant des compositions de lots entiers, assurant une couverture complète de la distribution des données et maximisant la diversité intra-lot pour atteindre des performances sans perte avec des coûts d'entraînement réduits.

Instruction Tuning LLMs machine learning model optimization

RESEARCHarXiv CS.CL·il y a 7j

Translating Classical Poetry into Modern Prose

Padyam2Gadyam est un nouveau jeu de données pour la traduction poème-prose, allant de la poésie classique telugu du XIIIe au XVIIe siècle vers la prose telugu et anglaise contemporaine. L'évaluation de cinq grands modèles de langage sur ce jeu de données a révélé que leur performance globale laisse une grande marge d'amélioration.

poetry LLMs Translation Natural Language Processing

RESEARCHarXiv CS.CL·il y a 7j

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Cette étude examine comment le contexte conversationnel affecte les réponses des LLM, en particulier dans des scénarios à enjeux élevés. Elle démontre que les sujets de conversation sont les principaux prédicteurs des conseils générés par les LLM, influençant les disparités de résultats.

conversational context LLMs linguistic features sociodemographics

RESEARCHarXiv CS.CL·il y a 7j

Adaptive Latent Agentic Reasoning

Cette recherche introduit le Raisonnement Agentique Latent Adaptatif (ALAR), un cadre à double mode conçu pour améliorer l'efficacité des agents LLM. ALAR utilise un raisonnement latent compact pour les tâches de routine et passe à un raisonnement explicite en chaîne de pensée lorsque une délibération plus approfondie est nécessaire, atteignant une précision de tâche comparable ou supérieure avec des gains d'efficacité substantiels.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.AI·il y a 14j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

LLMs Social Reasoning benchmarking AI evaluation

RESEARCHarXiv CS.AI·il y a 14j

Can LLMs Introspect? A Reality Check

Une nouvelle étude se demande si les grands modèles de langage (LLM) peuvent réellement s'introspectionner, arguant que les conclusions actuelles pourraient être prématurées. Elle suggère que le succès apparent pourrait provenir de la détection générale d'anomalies plutôt que d'une introspection authentique, s'inspirant des recherches sur la métacognition humaine.

LLMs cognitive science Metacognition Introspection

RESEARCHarXiv CS.AI·il y a 13j

Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

Cette recherche propose une architecture multi-agents pour la découverte autonome d'insights dans les flux de données en temps réel, palliant les limites des systèmes d'analyse réactifs. Le système met en œuvre une boucle de découverte continue, générant des hypothèses, compilant des analyses, validant des artefacts et produisant des visualisations, en utilisant Kafka, Flink et les grands modèles de langage.

LLMs stream processing data analysis real-time analytics

RESEARCHarXiv CS.CL·il y a 14j

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Cet article propose un nouveau cadre pour évaluer et intervenir sur l'alignement des valeurs culturelles dans les Grands Modèles Linguistiques (LLM), abordant l'homogénéisation culturelle. La méthode utilise un sondage comportemental basé sur des scénarios et l'extraction de probabilités de jetons implicites pour cartographier les valeurs latentes, introduisant également le pilotage d'activation pour ajuster ces alignements sans réentraînement.

LLMs Cultural Alignment AI ethics Value Systems

ARTICLEDEV.to AI·25/04/2026

DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Model Guide

Ce guide analyse les dernières versions majeures de modèles d'IA, y compris GPT-5.5, DeepSeek V4 et Claude Opus 4.7, en soulignant leurs capacités dans un paysage concurrentiel en rapide évolution. Il vise à fournir aux développeurs des données et un cadre de décision pour choisir le meilleur modèle pour des tâches spécifiques.

AI models LLMs benchmarking developer guide

CASEDEV.to AI·25/04/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Un passionné d'IA a construit un système d'agent autonome 24h/24 et 7j/7 sur un VPS à 6 $/mois, utilisant OpenClaw, DeepSeek V4 Pro et Docker. Ce système automatise la publication de contenu, d'articles et la gestion de boutique, offrant une alternative économique aux LLM plus coûteux comme Claude.

LLMs infrastructure Cost Optimization automation

ARTICLEDEV.to AI·24/04/2026

I Built a Multi-LLM Debate Engine That Fact-Checks Itself in Real Time

L'article décrit la création d'un moteur de débat multi-LLM qui se vérifie lui-même en temps réel pour combattre la tendance des LLM à la flagornerie et à l'hallucination. Il propose un débat structuré entre agents aux rôles distincts, incluant un agent de vérification des faits dédié en plein débat.

AI models LLMs hallucination multi-agent systems

ARTICLEDEV.to AI·16/04/2026

"The Hidden Cost of AI Agent Hype: Why Most Fail and What Actually Works" — a br

La plupart des startups d'agents IA de 2023 ont échoué ou sont en difficulté car les développeurs s'attaquent au mauvais problème et optimisent pour la démonstration plutôt que la fiabilité. Les tâches réelles sont complexes et nécessitent un jugement de niveau humain que les LLM actuels échouent souvent à reproduire.

LLMs hype cycle startups AI failure

RESEARCHDEV.to AI·18/04/2026

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

LlamaFactory est présenté comme un framework unifié et efficace conçu pour le fine-tuning de plus de 100 modèles de langage. Il vise à optimiser et simplifier le processus d'adaptation d'une vaste gamme de LLM.

LLMs AI frameworks machine learning large language models

CASEDEV.to AI·25/04/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Ce contenu décrit la création d'un système d'agent IA autonome 24/7 sur un VPS à faible coût (6 $/mois), utilisant le framework OpenClaw et DeepSeek V4 Pro. Le système gère diverses tâches en ligne, comme la publication de contenu et la vente de produits numériques, soulignant son efficacité et sa rentabilité.

LLMs VPS Cost Optimization automation

DOCDEV.to AI·21/04/2026

How to Install Ollama on Linux and Windows: Complete Setup Guide

Ce guide explique comment installer et configurer Ollama sur les systèmes Linux et Windows, un outil qui simplifie l'exécution et la gestion des grands modèles de langage (LLMs) localement. Il couvre les exigences système, le processus d'installation étape par étape et comment exécuter votre premier modèle, tel que Llama3.

installation LLMs tutorials Ollama