← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

31
ARTICLEDEV.to AI·13/04/2026

Everyone thinks ChatGPT is an AI agent. It's not.

Cet article approfondit la distinction cruciale entre un chatbot avec des outils et un véritable agent IA, affirmant que la confusion entre les deux est la raison de l'échec de nombreuses startups d'"agents IA". Il explore ce qui fait réellement d'un modèle linguistique un agent, capable d'entreprendre des actions réelles et de les enchaîner de manière autonome.

30
RESEARCHarXiv CS.CL·14/04/2026

GIANTS: Generative Insight Anticipation from Scientific Literature

Cet article présente la tâche d'« anticipation d'insights », où les modèles de langage prédisent l'idée centrale d'un futur article scientifique à partir de ses prédécesseurs. Pour ce faire, les auteurs ont développé GiantsBench, un benchmark de 17 000 exemples, et présentent GIANTS-4B, un LM entraîné par apprentissage par renforcement.

30
ARTICLEDEV.to AI·il y a 3j

<think>

Ce contenu compare les coûts de divers modèles d'IA, en soulignant des alternatives moins chères à GPT-4o. Il explore des économies significatives en utilisant des modèles tels que GPT-4o-mini, DeepSeek V4 Flash et Qwen3-32B, qui peuvent être jusqu'à 40 fois plus rentables.

29
ARTICLEDEV.to AI·il y a 4j

<think>

Cet article détaille la découverte d'un développeur indépendant concernant des économies substantielles en utilisant des modèles d'IA alternatifs via l'API Global, comparant leurs prix à ceux de GPT-4o. Il explique comment les développeurs peuvent réduire les coûts d'inférence des grands modèles de langage en utilisant une vaste gamme d'options disponibles.

29
RESEARCHarXiv CS.AI·il y a 14j

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

Cet article propose POLAR, un cadre multimodal augmenté de mémoire pour les agents incarnés personnalisés sur des interactions utilisateur à long terme. POLAR organise les interactions antérieures dans un graphe de connaissances multimodal, capturant la mémoire sémantique et épisodique pour guider l'exécution des tâches incarnées.

29
ARTICLEDEV.to AI·il y a 5j

Context Window Management: Tactics That Survive Real Sessions

Les grands modèles linguistiques ont souvent une fenêtre de contexte pratique nettement plus petite que leur limite nominale annoncée en raison des frais généraux et de la dégradation de l'attention. Cette divergence affecte la conception des prompts et entraîne des baisses de qualité et un tronquage bien avant que la limite stricte de jetons ne soit atteinte.

29
ARTICLEDEV.to AI·11/04/2026

Why Your pip Install Output Doesn't Belong in Claude's Context

Este artigo discute como o output detalhado do comando `pip install` é desnecessário e prejudicial para o contexto de modelos de IA como o Claude, que precisam apenas saber se a instalação de pacotes Python foi bem-sucedida ou falhou. Detalhes verbosos como barras de progresso e logs de compilação são considerados ruído que não auxilia a IA na depuração.

29
RESEARCHarXiv CS.CL·il y a 6j

Cross-Prompt Generalization in Detecting AI-Generated Fake News Using Interpretable Linguistic Features

Cette étude examine la généralisation inter-prompts dans la détection des fausses nouvelles générées par l'IA en utilisant des caractéristiques linguistiques interprétables, telles que la diversité lexicale et la lisibilité. Les performances de détection restent constamment élevées, même lorsque les modèles sont entraînés et testés avec différentes stratégies de prompt.

29
RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Cette recherche présente un cadre de réglage fin (fine-tuning) économe en données pour enseigner aux modèles de raisonnement à effectuer un "code-switching" efficace pour les tâches de raisonnement. Elle identifie les comportements de "code-switching" bénéfiques, s'éloignant de la vision de l'erreur, grâce à une analyse systématique de traces de raisonnement diverses.

29
RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

29
RESEARCHarXiv CS.LG·07/05/2026

Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

Cet article présente le Structured Progressive Knowledge Activation (SPARK) pour relever le défi d'intégrer les connaissances architecturales dans la recherche d'architecture neurale (NAS) pilotée par les LLM. SPARK atténue l'"enchevêtrement fonctionnel" en permettant une édition conditionnée par facteur, ce qui conduit à des modifications d'architecture plus ciblées et fiables.

29
RESEARCHarXiv CS.LG·22/04/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Ce travail aborde le défi des modalités manquantes dans les données cliniques multimodales pour le diagnostic, le reformulant comme une tâche de modélisation de séquence autorégressive. Il utilise des décodeurs causaux de LLMs et un pré-entraînement contrastif tenant compte des données manquantes pour surpasser les bases de référence sur des benchmarks comme MIMIC-IV et eICU.

29
RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

29
RESEARCHarXiv CS.CL·13/04/2026

Drift and selection in LLM text ecosystems

Cet article propose un cadre mathématique pour analyser le processus récursif où le texte généré par l'IA remodèle le registre public à partir duquel les LLM apprennent. Il distingue la "dérive", qui élimine les formes rares, et la "sélection", qui filtre le contenu, montrant que la sélection normative préserve des structures linguistiques plus profondes.

29
RESEARCHarXiv CS.LG·il y a 20j

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite est une nouvelle sonde au niveau du prompt conçue pour interpréter comment les preuves de sécurité se développent à travers les couches des grands modèles de langage. Elle analyse la géométrie des marges couche par couche en utilisant diverses lectures pour comprendre la formation des frontières, améliorant la détection de sécurité par rapport aux sondes à couche unique.

29
RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP est introduit comme un grand modèle linguistique multimodal conçu pour l'attribution de la responsabilité des accidents de la circulation, améliorant le raisonnement via Multimodal Chain-of-Thought et intégrant les connaissances juridiques par RAG. La recherche présente également DecaTARA, un benchmark complet de style décathlon avec 67 941 vidéos annotées et 195 821 paires question-réponse.

29