← heapsort-ai

Large Language Models

263 items

RESEARCHarXiv CS.LG·il y a 18j

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un nouveau cadre d'optimisation qui améliore le désapprentissage automatique dans les grands modèles de langage, en reliant les états partagés et découplés de l'optimiseur. Il utilise des états de base pour les représentations communes et des états delta pour les résidus spécifiques aux objectifs, proposant également une variante quantifiée de 8 bits pour réduire la mémoire sans compromettre les performances.

27
RESEARCHarXiv CS.AI·il y a 23j

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propose un nouveau cadre pour entraîner les agents de grands modèles linguistiques à internaliser l'auto-critique, transformant le feedback en capacité de résolution de problèmes sans assistance. Il entraîne conjointement un solveur et un critique à partir d'un noyau partagé, récompensant le critique pour un feedback exploitable afin de favoriser l'auto-amélioration itérative.

27
RESEARCHarXiv CS.LG·il y a 27j

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

L'article introduit la Distillation On-Policy Multi-Rollout (MOPD), un cadre qui utilise le groupe de déploiements locaux d'un étudiant pour construire des signaux d'enseignant plus informatifs pour le post-apprentissage des LLM. La MOPD conditionne l'enseignant sur les déploiements réussis et échoués, exploitant les réussites pour les schémas de raisonnement valides et les échecs pour éviter les erreurs plausibles.

27
RESEARCHarXiv CS.CL·il y a 27j

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner est un nouveau cadre qui exploite les Grands Modèles de Raisonnement (LRMs) pour faire progresser la synthèse chronologique, allant au-delà de la génération passive des Grands Modèles de Langage (LLMs). Il utilise un processus actif en deux étapes, Cognition Globale et Exploration Détaillée, pour extraire et affiner activement les chronologies structurées à partir de contenus de presse en ligne non structurés.

27
RESEARCHarXiv CS.CL·il y a 28j

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Cet article décompose un système évolutif Mixture-of-LoRA, en examinant des facteurs tels que la réécriture du routeur, l'évaluation par domaine et un cycle de vie d'adaptation. Les résultats montrent que la réécriture du routeur est entièrement responsable de l'amélioration du log-PPL équilibré.

27
RESEARCHarXiv CS.LG·il y a 28j

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Les Modèles de Langage de Diffusion (dLLMs) rencontrent des limites de scalabilité dans le parallélisme en raison de seuils de confiance excessivement conservateurs qui entravent leur potentiel de traitement hautement parallèle. Cet article présente LEAP, une méthode plug-and-play sans entraînement qui améliore le parallélisme des dLLMs en détectant les jetons à convergence précoce, accélérant ainsi le décodage.

27
RESEARCHarXiv CS.AI·il y a 28j

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Cet article de recherche propose une pile LLMOps spécialisée pour la détection de fraude et la conformité AML, reconnaissant leurs exigences de service distinctes par rapport aux charges de travail de chat génériques. La pile intègre diverses techniques avancées pour gérer efficacement les invites riches en preuves et contraintes par un schéma, assurant une performance de qualité conformité avec les LLM open-source auto-hébergés.

27
ARTICLEDEV.to AI·15/04/2026

GPT-6 just merged ChatGPT, Codex, and a browser into one agent.

Le nouveau GPT-6 d'OpenAI unifie les fonctionnalités de chat, de génération de code et de navigation web en un seul agent, grâce à un modèle de base puissant et une architecture de raisonnement à deux niveaux. Ce modèle offre une fenêtre de contexte réelle et utilisable de 2M tokens, améliorant considérablement son application pour des tâches complexes comme la télémétrie IoT.

27
RESEARCHarXiv CS.LG·il y a 12j

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Cet article présente COM (Continuity and Ordinality Matter), une stratégie qui intègre des contraintes géométriques dans les phases d'initialisation et d'entraînement des grands modèles linguistiques basés sur des jetons (TS-LLMs) pour l'analyse des séries temporelles. La recherche démontre que la préservation de la continuité et de l'ordinalité dans les embeddings de jetons des séries temporelles améliore considérablement les performances et la généralisabilité du modèle.

27
RESEARCHarXiv CS.CL·il y a 15j

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Cette étude développe un cadre basé sur de grands modèles linguistiques pour extraire et préserver les informations segmentaires, y compris les divulgations imbriquées, directement des dépôts du Formulaire 10-K. Un système amélioré de récupération est également conçu pour soutenir la comparabilité entre plusieurs dépôts.

27
RESEARCHarXiv CS.CL·il y a 15j

TriVAL: A Tri-Validation Framework for Faithful Automatic Optimization Modeling

TriVAL est un nouveau cadre de tri-validation conçu pour améliorer la précision de la modélisation d'optimisation automatique en comblant le manque de validation explicite dans les méthodes actuelles. Il met en œuvre une boucle de construction-validation-révision à travers les étapes de spécification sémantique, de formulation mathématique et de génération de code pour atténuer les erreurs et améliorer la fidélité globale de la modélisation.

27
RESEARCHarXiv CS.AI·il y a 15j

Confidence Calibration in Large Language Models

Cette étude examine la calibration de la confiance des Grands Modèles de Langage (LLMs) sur diverses tâches, révélant que les LLMs actuels sont trop sûrs d'eux sur les tests difficiles et sous-confiants sur les tests faciles. Les chercheurs ont développé LifeEval, un nouveau test pour évaluer la calibration des modèles à travers différents niveaux de difficulté.

27
RESEARCHarXiv CS.CL·il y a 15j

Raon-Speech Technical Report

Raon-Speech est un modèle de langage vocal (SpeechLM) de 9 milliards de paramètres très performant pour la compréhension, la réponse et la génération de la parole en anglais et en coréen, obtenant d'excellents résultats sur 42 benchmarks. Il transforme avec succès un LLM pré-entraîné en un SpeechLM tout en préservant de solides capacités textuelles grâce à des étapes d'entraînement spécifiques.

27
RESEARCHarXiv CS.AI·il y a 7j

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI propose un cadre multimodal pour aligner les représentations structurées des dossiers de santé électroniques (DSE) avec les grands modèles linguistiques (LLM). Cette intégration permet un raisonnement clinique fondé sur le langage naturel et une prédiction précise des patients, comblant le fossé entre les modèles prédictifs DSE et le raisonnement interprétable des LLM.

27
RESEARCHarXiv CS.AI·il y a 16j

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Cet article de recherche présente 'PathCal', qui étudie les rôles fonctionnels distincts et le moment d'apparition des marqueurs de réflexion dans les trajectoires de Chain-of-Thought des Large Reasoning Language Models. Il révèle que des marqueurs comme 'wait' ou 'but' diffèrent significativement dans leur impact sur la précision et la longueur de la génération, remettant en question les approches précédentes.

27
RESEARCHarXiv CS.CL·il y a 9j

Configurable Reward Model for Balanced Safety Alignment

Cet article introduit le Modèle de Récompense de Sécurité Configurable (CSRM) pour relever le défi d'aligner les LLM avec des exigences de sécurité hétérogènes et évolutives. Le CSRM améliore considérablement la généralisation aux configurations de sécurité inédites en étant optimisé conjointement pour la conformité de sécurité calibrée et la modélisation des récompenses, atteignant des performances de pointe sur les benchmarks.

27
RESEARCHarXiv CS.AI·il y a 9j

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen est un pipeline neuro-symbolique générant des diagrammes physiques précis à partir de texte, surpassant les modèles existants en matière de respect des lois physiques. Il utilise un grand modèle linguistique pour l'extraction de graphes de scène et un solveur déterministe pour satisfaire les contraintes physiques et géométriques.

27
RESEARCHarXiv CS.CL·il y a 9j

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Cet article de recherche examine la dominance narrative globale dans les Grands Modèles Linguistiques (LLMs), où les connaissances culturelles locales sont souvent éclipsées par les récits mondiaux. Il introduit l'ensemble de données CulturalNB pour les contextes culturels bengalis et démontre que les questions posées en anglais augmentent la substitution globale et le cadrage institutionnel, réduisant la couverture des perspectives locales.

27
RESEARCHarXiv CS.CL·il y a 16j

Evaluating Large Language Models in a Complex Hidden Role Game

Cette recherche quantifie le potentiel de tromperie des grands modèles de langage (LLM) dans le jeu de déduction sociale Secret Hitler, en introduisant de nouvelles métriques et un cadre open source. L'étude compare les LLM à des algorithmes basés sur des règles et à des jeux humains, révélant un écart entre la capacité conversationnelle et la profondeur stratégique, et montrant que les techniques d'amélioration du raisonnement peuvent aggraver les performances pour les rôles fascistes.

27