large language models

262 items

RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

reinforcement learning Multi-objective Optimization AI alignment machine learning

RESEARCHarXiv CS.AI·21/04/2026

Agentic Risk-Aware Set-Based Engineering Design

Cet article introduit un cadre multi-agents guidé par des LLM pour la conception en ingénierie aux premiers stades, intégrant une approche "human-in-the-loop" et une gestion formelle des risques. Il utilise des agents spécialisés pour explorer et affiner les candidats de conception, démontré sur la conception de profils aérodynamiques.

Engineering Design multi-agent systems large language models risk management

ARTICLEDEV.to AI·13/04/2026

Everyone thinks ChatGPT is an AI agent. It's not.

Cet article approfondit la distinction cruciale entre un chatbot avec des outils et un véritable agent IA, affirmant que la confusion entre les deux est la raison de l'échec de nombreuses startups d'"agents IA". Il explore ce qui fait réellement d'un modèle linguistique un agent, capable d'entreprendre des actions réelles et de les enchaîner de manière autonome.

AI architecture chatbots large language models AI development

RESEARCHDEV.to AI·18/04/2026

ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using LargeLanguage Models

ChatCAD est un système interactif de diagnostic assisté par ordinateur qui utilise de grands modèles de langage pour analyser des images médicales. Il vise à améliorer la précision et l'efficacité du diagnostic médical grâce à l'intelligence artificielle.

computer-aided diagnosis Healthcare large language models Medical Imaging

RESEARCHarXiv CS.CL·14/04/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Cet article présente la tâche d'« anticipation d'insights », où les modèles de langage prédisent l'idée centrale d'un futur article scientifique à partir de ses prédécesseurs. Pour ce faire, les auteurs ont développé GiantsBench, un benchmark de 17 000 exemples, et présentent GIANTS-4B, un LM entraîné par apprentissage par renforcement.

Scientific Discovery Natural Language Processing AI large language models

ARTICLEDEV.to AI·il y a 3j

<think>

Ce contenu compare les coûts de divers modèles d'IA, en soulignant des alternatives moins chères à GPT-4o. Il explore des économies significatives en utilisant des modèles tels que GPT-4o-mini, DeepSeek V4 Flash et Qwen3-32B, qui peuvent être jusqu'à 40 fois plus rentables.

AI models GPT-4o large language models Cost Efficiency

ARTICLEDEV.to AI·il y a 4j

<think>

Cet article détaille la découverte d'un développeur indépendant concernant des économies substantielles en utilisant des modèles d'IA alternatifs via l'API Global, comparant leurs prix à ceux de GPT-4o. Il explique comment les développeurs peuvent réduire les coûts d'inférence des grands modèles de langage en utilisant une vaste gamme d'options disponibles.

AI models Cost Optimization large language models developer tools

RESEARCHarXiv CS.AI·il y a 14j

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

Cet article propose POLAR, un cadre multimodal augmenté de mémoire pour les agents incarnés personnalisés sur des interactions utilisateur à long terme. POLAR organise les interactions antérieures dans un graphe de connaissances multimodal, capturant la mémoire sémantique et épisodique pour guider l'exécution des tâches incarnées.

personalization multimodal AI memory large language models

ARTICLEDEV.to AI·il y a 5j

Context Window Management: Tactics That Survive Real Sessions

Les grands modèles linguistiques ont souvent une fenêtre de contexte pratique nettement plus petite que leur limite nominale annoncée en raison des frais généraux et de la dégradation de l'attention. Cette divergence affecte la conception des prompts et entraîne des baisses de qualité et un tronquage bien avant que la limite stricte de jetons ne soit atteinte.

prompt-engineering Technical limitations AI performance large language models

ARTICLEDEV.to AI·11/04/2026

Why Your pip Install Output Doesn't Belong in Claude's Context

Este artigo discute como o output detalhado do comando `pip install` é desnecessário e prejudicial para o contexto de modelos de IA como o Claude, que precisam apenas saber se a instalação de pacotes Python foi bem-sucedida ou falhou. Detalhes verbosos como barras de progresso e logs de compilação são considerados ruído que não auxilia a IA na depuração.

prompt-engineering AI Context pip Python

RESEARCHarXiv CS.CL·il y a 6j

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Cette étude examine la généralisation inter-prompts dans la détection des fausses nouvelles générées par l'IA en utilisant des caractéristiques linguistiques interprétables, telles que la diversité lexicale et la lisibilité. Les performances de détection restent constamment élevées, même lorsque les modèles sont entraînés et testés avec différentes stratégies de prompt.

Generalization AI detection fake news large language models

RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHarXiv CS.LG·07/05/2026

Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

Cet article présente le Structured Progressive Knowledge Activation (SPARK) pour relever le défi d'intégrer les connaissances architecturales dans la recherche d'architecture neurale (NAS) pilotée par les LLM. SPARK atténue l'"enchevêtrement fonctionnel" en permettant une édition conditionnée par facteur, ce qui conduit à des modifications d'architecture plus ciblées et fiables.

Neural Architecture Search machine learning Knowledge Integration large language models

RESEARCHarXiv CS.CL·22/04/2026

Mango: Multi-Agent Web Navigation via Global-View Optimization

Mango est une méthode de navigation web multi-agents qui optimise l'exploration de sites complexes en utilisant une vue globale. Il détermine dynamiquement les points de départ optimaux et alloue le budget de navigation de manière adaptative, atteignant un taux de succès de 63,6% avec GPT-5-mini.

Optimization web navigation large language models AI agents

RESEARCHarXiv CS.LG·22/04/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Ce travail aborde le défi des modalités manquantes dans les données cliniques multimodales pour le diagnostic, le reformulant comme une tâche de modélisation de séquence autorégressive. Il utilise des décodeurs causaux de LLMs et un pré-entraînement contrastif tenant compte des données manquantes pour surpasser les bases de référence sur des benchmarks comme MIMIC-IV et eICU.

multimodal AI machine learning large language models healthcare AI

RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.CL·13/04/2026

Drift and selection in LLM text ecosystems

Cet article propose un cadre mathématique pour analyser le processus récursif où le texte généré par l'IA remodèle le registre public à partir duquel les LLM apprennent. Il distingue la "dérive", qui élimine les formes rares, et la "sélection", qui filtre le contenu, montrant que la sélection normative préserve des structures linguistiques plus profondes.

Text Ecosystems data drift model collapse large language models

RESEARCHarXiv CS.LG·il y a 20j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

multimodal AI Reasoning Benchmarks large language models