← heapsort-ai

large language models

265 items

RESEARCHarXiv CS.CL·04/05/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo est un nouveau modèle ModernBERT entraîné sur un corpus de 331 milliards de tokens en portugais brésilien (Aurora-PT), conçu pour le support de contexte long et des mécanismes d'attention efficaces. Il obtient les meilleurs résultats parmi les modèles d'encodeur évalués sur des tâches de similarité sémantique, d'inférence textuelle et de classification en utilisant des ensembles de données tels qu'ASSIN 2 et PLUE.

28
RESEARCHarXiv CS.AI·11/05/2026

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Cet article présente SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge appliqué aux problèmes de physique théorique. Il étudie comment l'interaction entre les chercheurs et les agents IA affecte les résultats des tâches de raisonnement en physique, démontrant que le dialogue multi-tour améliore considérablement les tentatives en un seul coup.

28
RESEARCHarXiv CS.LG·23/04/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Cet article évalue le décodage spéculatif avec EAGLE3 pour optimiser l'agent commercial de PayPal, utilisant des modèles Nemotron affinés. L'étude démontre des améliorations de performance significatives, notamment une augmentation de 22-49% du débit et une réduction de 18-33% de la latence sans coût matériel supplémentaire.

28
RESEARCHarXiv CS.LG·23/04/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.

28
RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

28
RESEARCHarXiv CS.CL·il y a 26j

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Cette étude de réplication complète évalue l'efficacité de DExperts, une technique d'atténuation au moment de l'inférence, pour réduire la toxicité dans les grands modèles de langage. La recherche établit des mesures de toxicité de base, met en œuvre DExperts pour atténuer la toxicité explicite et teste la méthode contre les discours de haine implicites.

28
RESEARCHarXiv CS.CL·il y a 20j

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Malgré la prise en charge d'entrées étendues, les grands modèles linguistiques ont des performances médiocres sur les tâches de raisonnement à contexte long. ProxyCoT est un nouveau cadre d'entraînement qui transfère les capacités de raisonnement des contextes proxy courts aux contextes longs complets, surpassant les références solides.

28
RESEARCHarXiv CS.CL·il y a 13j

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID est un nouveau framework qui adapte efficacement les modèles autorégressifs (AR) au paradigme de diffusion pour la génération de texte parallèle. Il permet l'initialisation à partir de modèles de style GPT et introduit un mécanisme de dénoising dynamique, atteignant des performances de pointe avec des coûts d'entraînement considérablement réduits.

28
NEWSDEV.to AI·17/04/2026

GPT‑Rosalind for life sciences research

GPT-Rosalind, un nouvel outil d'OpenAI basé sur GPT-4 et entraîné sur des données scientifiques, a été lancé pour accélérer la recherche en sciences de la vie. Il s'attaque au goulot d'étranglement des données en optimisant la génération d'hypothèses, l'analyse de la littérature et la conception expérimentale, avec le potentiel de réduire les coûts et les délais de développement de médicaments.

28
RESEARCHarXiv CS.CL·16/04/2026

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Dental-TriageBench introduit le premier benchmark annoté par des experts pour le raisonnement multimodal en triage dentaire hiérarchique, comprenant 246 cas authentiques et anonymisés. La recherche met en évidence un écart de performance substantiel entre 19 MLLMs et les dentistes juniors, particulièrement dans les tâches de triage au niveau du traitement nécessitant plusieurs domaines de référence.

28
RESEARCHarXiv CS.AI·01/05/2026

End-to-end autonomous scientific discovery on a real optical platform

Le texte présente le Qiushi Discovery Engine, un système basé sur des LLM pour la découverte scientifique autonome sur une plateforme optique réelle. Il démontre une découverte de bout en bout en combinant des phases de recherche non linéaires, une mémoire Meta-Trace et une architecture à double couche, reproduisant avec succès une expérience publiée.

28
RESEARCHarXiv CS.CL·il y a 23j

Greedy or not, here I come: Language production under vocabulary constraints in humans and resource-rational models

Cette recherche explore comment les humains communiquent avec des vocabulaires limités, comparant leurs stratégies à des algorithmes d'échantillonnage computationnel alimentés par de grands modèles linguistiques. L'étude révèle que la production linguistique humaine sous contrainte reflète souvent l'échantillonnage glouton, bien que les individus plus compétents présentent des comportements de révision non gloutons.

28
RESEARCHarXiv CS.CL·il y a 23j

Fluency and Faithfulness in Human and Machine Literary Translation

Cette étude analyse l'équilibre entre fluidité et fidélité dans la traduction littéraire, comparant les traductions humaines, Google Translate et TranslateGemma de 106 romans dans 16 langues. Elle révèle une corrélation négative constante entre fluidité et fidélité, notée pour les traductions humaines et Google Translate, et indique que la longueur des segments influence l'évaluation automatique.

28
RESEARCHarXiv CS.CL·il y a 6j

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Une étude à grande échelle réévalue la Génération Augmentée par Récupération (RAG) dans la réponse aux questions médicales, ne trouvant que des améliorations faibles et inconsistantes par rapport aux bases de référence sans récupération. Elle suggère que le choix du modèle de base est plus critique que les méthodes de récupération, et le principal goulot d'étranglement est la capacité du modèle à utiliser efficacement les preuves récupérées.

28
RESEARCHarXiv CS.LG·il y a 6j

Unlocking Feature Learning in Gated Delta Networks at Scale

Cet article dérive des règles de mise à l'échelle pour les réseaux Delta à portes (Gated Delta Networks) afin d'optimiser l'entraînement des grands modèles linguistiques (Large Language Models). Les expériences confirment que les configurations proposées permettent un transfert stable du taux d'apprentissage sur différentes largeurs de modèle.

28