large language models

265 items

ARTICLEDEV.to AI·il y a 21j

Mastering the Art of Conversation: Expert ChatGPT Tips and Tricks

Cet article explore des astuces et des conseils d'experts pour maîtriser ChatGPT, le chatbot IA révolutionnaire d'OpenAI. Il discute de la compréhension de ses capacités et limitations pour exploiter pleinement son potentiel dans les conversations et diverses applications.

learning ChatGPT NLP AI

ARTICLEDEV.to AI·il y a 6j

MiniMax M3: An Open-Weight Frontier Model You Can Self-Host

Le MiniMax M3 est présenté comme le premier modèle de pointe à poids ouvert combinant un codage frontalier, une fenêtre contextuelle de 1M de jetons et une multimodalité native. Il domine le classement SWE-Bench Pro des modèles à poids ouvert, offrant les avantages de l'auto-hébergement comme l'absence de frais d'API par jeton.

multimodal AI self-hosting Open-weight AI AI benchmarking

RESEARCHarXiv CS.AI·20/04/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Ce document de position soutient que le raisonnement des LLM doit être étudié comme une formation de trajectoire d'état latent plutôt que comme une chaîne de pensée (CoT) superficielle et fidèle. Il formalise trois hypothèses concurrentes sur l'objet primaire du raisonnement, impactant la fidélité, l'interprétabilité et les benchmarks.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.CL·04/05/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo est un nouveau modèle ModernBERT entraîné sur un corpus de 331 milliards de tokens en portugais brésilien (Aurora-PT), conçu pour le support de contexte long et des mécanismes d'attention efficaces. Il obtient les meilleurs résultats parmi les modèles d'encodeur évalués sur des tâches de similarité sémantique, d'inférence textuelle et de classification en utilisant des ensembles de données tels qu'ASSIN 2 et PLUE.

AI models BERT Portuguese NLP

RESEARCHarXiv CS.AI·11/05/2026

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Cet article présente SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge appliqué aux problèmes de physique théorique. Il étudie comment l'interaction entre les chercheurs et les agents IA affecte les résultats des tâches de raisonnement en physique, démontrant que le dialogue multi-tour améliore considérablement les tentatives en un seul coup.

theoretical physics AI Reasoning Agentic AI large language models

RESEARCHarXiv CS.LG·23/04/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Cet article évalue le décodage spéculatif avec EAGLE3 pour optimiser l'agent commercial de PayPal, utilisant des modèles Nemotron affinés. L'étude démontre des améliorations de performance significatives, notamment une augmentation de 22-49% du débit et une réduction de 18-33% de la latence sans coût matériel supplémentaire.

Performance benchmarking LLM optimization Inference acceleration large language models

RESEARCHarXiv CS.CL·23/04/2026

CoAuthorAI: A Human in the Loop System For Scientific Book Writing

CoAuthorAI est un système d'écriture "human-in-the-loop" pour les livres scientifiques, résolvant les problèmes des LLM comme l'incohérence et les citations non fiables. Il combine la génération augmentée par récupération, des plans experts et la liaison automatique de références, avec un livre déjà publié.

human-in-the-loop Content Generation AI tools Scientific Writing

RESEARCHarXiv CS.LG·23/04/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.

Theoretical AI reinforcement learning vision models large language models

RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

neural network architecture Performance optimization Attention Mechanisms large language models

RESEARCHarXiv CS.CL·il y a 26j

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Cette étude de réplication complète évalue l'efficacité de DExperts, une technique d'atténuation au moment de l'inférence, pour réduire la toxicité dans les grands modèles de langage. La recherche établit des mesures de toxicité de base, met en œuvre DExperts pour atténuer la toxicité explicite et teste la méthode contre les discours de haine implicites.

DExperts security Toxicity large language models

RESEARCHarXiv CS.CL·il y a 20j

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Malgré la prise en charge d'entrées étendues, les grands modèles linguistiques ont des performances médiocres sur les tâches de raisonnement à contexte long. ProxyCoT est un nouveau cadre d'entraînement qui transfère les capacités de raisonnement des contextes proxy courts aux contextes longs complets, surpassant les références solides.

machine learning Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·il y a 13j

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID est un nouveau framework qui adapte efficacement les modèles autorégressifs (AR) au paradigme de diffusion pour la génération de texte parallèle. Il permet l'initialisation à partir de modèles de style GPT et introduit un mécanisme de dénoising dynamique, atteignant des performances de pointe avec des coûts d'entraînement considérablement réduits.

Diffusion Models text generation large language models Autoregressive Models

ARTICLEDEV.to AI·14/04/2026

Best Qwen Models in 2026 — Alibaba's Open-Source AI Powerhouse

Cet article décrit la famille de modèles Qwen d'Alibaba comme la plus vaste et la plus complète en open-source en 2026, en détaillant la série Qwen3 et la version Qwen3.5 de 397 milliards de paramètres. Il souligne la performance compétitive du modèle phare Qwen3-235B-A22B face à Gemini 2.5 Pro et la stratégie d'IA d'Alibaba.

AI models Alibaba open-source AI large language models

NEWSDEV.to AI·17/04/2026

GPT‑Rosalind for life sciences research

GPT-Rosalind, un nouvel outil d'OpenAI basé sur GPT-4 et entraîné sur des données scientifiques, a été lancé pour accélérer la recherche en sciences de la vie. Il s'attaque au goulot d'étranglement des données en optimisant la génération d'hypothèses, l'analyse de la littérature et la conception expérimentale, avec le potentiel de réduire les coûts et les délais de développement de médicaments.

Scientific Discovery Life Sciences AI large language models

RESEARCHarXiv CS.CL·16/04/2026

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Dental-TriageBench introduit le premier benchmark annoté par des experts pour le raisonnement multimodal en triage dentaire hiérarchique, comprenant 246 cas authentiques et anonymisés. La recherche met en évidence un écart de performance substantiel entre 19 MLLMs et les dentistes juniors, particulièrement dans les tâches de triage au niveau du traitement nécessitant plusieurs domaines de référence.

multimodal AI Healthcare benchmarking large language models

RESEARCHarXiv CS.AI·01/05/2026

End-to-end autonomous scientific discovery on a real optical platform

Le texte présente le Qiushi Discovery Engine, un système basé sur des LLM pour la découverte scientifique autonome sur une plateforme optique réelle. Il démontre une découverte de bout en bout en combinant des phases de recherche non linéaires, une mémoire Meta-Trace et une architecture à double couche, reproduisant avec succès une expérience publiée.

Autonomous systems Scientific Automation large language models robotics

RESEARCHarXiv CS.CL·il y a 23j

Greedy or not, here I come: Language production under vocabulary constraints in humans and resource-rational models

Cette recherche explore comment les humains communiquent avec des vocabulaires limités, comparant leurs stratégies à des algorithmes d'échantillonnage computationnel alimentés par de grands modèles linguistiques. L'étude révèle que la production linguistique humaine sous contrainte reflète souvent l'échantillonnage glouton, bien que les individus plus compétents présentent des comportements de révision non gloutons.

cognitive science human behavior language production Natural Language Processing

RESEARCHarXiv CS.CL·il y a 23j

Fluency and Faithfulness in Human and Machine Literary Translation

Cette étude analyse l'équilibre entre fluidité et fidélité dans la traduction littéraire, comparant les traductions humaines, Google Translate et TranslateGemma de 106 romans dans 16 langues. Elle révèle une corrélation négative constante entre fluidité et fidélité, notée pour les traductions humaines et Google Translate, et indique que la longueur des segments influence l'évaluation automatique.

Literary Translation Translation Evaluation Natural Language Processing machine translation

RESEARCHarXiv CS.CL·il y a 6j

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Une étude à grande échelle réévalue la Génération Augmentée par Récupération (RAG) dans la réponse aux questions médicales, ne trouvant que des améliorations faibles et inconsistantes par rapport aux bases de référence sans récupération. Elle suggère que le choix du modèle de base est plus critique que les méthodes de récupération, et le principal goulot d'étranglement est la capacité du modèle à utiliser efficacement les preuves récupérées.

RAG Medical Question Answering Biomedical AI large language models

RESEARCHarXiv CS.LG·il y a 6j

Unlocking Feature Learning in Gated Delta Networks at Scale

Cet article dérive des règles de mise à l'échelle pour les réseaux Delta à portes (Gated Delta Networks) afin d'optimiser l'entraînement des grands modèles linguistiques (Large Language Models). Les expériences confirment que les configurations proposées permettent un transfert stable du taux d'apprentissage sur différentes largeurs de modèle.

neural networks learning Hyperparameter Tuning machine learning