← heapsort-ai

language models

103 items

RESEARCHarXiv CS.LG·05/05/2026

StyleShield: Exposing the Fragility of AIGC Detectors through Continuous Controllable Style Transfer

L'article présente StyleShield, un nouveau cadre de correspondance de flux pour le transfert de style de texte conditionnel qui expose la fragilité des détecteurs de contenu généré par l'IA (AIGC). Il opère dans l'espace d'intégration de jetons continu pour estomper la frontière statistique entre l'écriture humaine et celle de l'IA, remettant en question la fiabilité des services de détection actuels.

27
RESEARCHarXiv CS.CL·05/05/2026

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Cet article introduit les H-probes, des sondes linéaires conçues pour extraire la structure hiérarchique, notamment la profondeur et la distance par paire, des représentations latentes des grands modèles de langage. La recherche montre que ces sondes identifient de manière robuste des sous-espaces de faible dimension essentiels à la performance dans les tâches de parcours d'arbres synthétiques, avec une bonne généralisation intra et inter-domaines.

27
RESEARCHarXiv CS.LG·09/04/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

27
RESEARCHarXiv CS.CL·13/04/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Cette recherche explore les traces de moyenne mobile exponentielle (EMA) comme un contexte récurrent minimal pour délimiter les capacités et les limites de l'accumulation à coefficient fixe dans les modèles de séquence. Elle démontre que les traces EMA excellent dans l'encodage de la structure temporelle, égalant les modèles avancés sur les tâches structurelles, mais échouent fondamentalement à capturer l'identité du jeton, entraînant une performance significativement réduite pour la modélisation linguistique.

27
RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

27
RESEARCHarXiv CS.CL·16/04/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU est un nouveau benchmark coréen natif pour évaluer la compréhension multimodale dans des contextes culturels et institutionnels coréens, comprenant 3 466 questions d'examens natifs. L'étude montre que les modèles d'IA actuels n'atteignent que 42,05 % de précision sur l'ensemble complet, avec des échecs importants sur des problèmes culturels et disciplinaires spécifiques.

27
RESEARCHarXiv CS.AI·27/04/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Cet article propose Math Takes Two, un nouveau benchmark pour évaluer l'émergence du raisonnement mathématique chez les modèles linguistiques par la communication. Il teste la capacité de deux agents, sans connaissances mathématiques préalables, à développer un protocole symbolique partagé pour résoudre une tâche visuelle facilitant l'extrapolation numérique.

27
RESEARCHarXiv CS.CL·08/04/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.CL·08/05/2026

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

Cette étude examine les attaques de réécriture multi-étapes sur les filigranes des modèles de langage à diffusion, qui servent à vérifier l'origine des textes générés par l'IA. Les résultats indiquent que les textes filigranés peuvent voir leur détection compromise après plusieurs réécritures par d'autres modèles de langage, même ceux qui ignorent la clé du filigrane.

27
RESEARCHarXiv CS.CL·il y a 19j

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM introduit un nouveau modèle de langage de correspondance de flux, adapté des modèles de diffusion pré-entraînés via un réglage fin efficace. Cette méthode permet une génération de texte de haute qualité en quelques étapes, surpassant significativement l'échantillonnage par diffusion traditionnel avec moins d'époques d'entraînement.

27
RESEARCHarXiv CS.LG·il y a 25j

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Cet article présente TraFL, une nouvelle approche de post-entraînement pour les modèles de langage de diffusion qui s'attaque au "blocage de trajectoire" observé dans les méthodes de maximisation de récompense. TraFL, un objectif d'équilibre de trajectoire, surpasse les autres méthodes sur les benchmarks de raisonnement mathématique et de génération de code.

27
RESEARCHarXiv CS.AI·il y a 7j

Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs

Grokers est une architecture innovante pour construire une compréhension persistante et structurée des graphes de connaissances typés via une traversée inductive ascendante. Contrairement au RAG, il déplace l'intelligence au moment de l'écriture, où des agents Groker autonomes analysent et enrichissent les attributs via des modèles de langage pour toutes les futures requêtes sans coût supplémentaire.

27
RESEARCHarXiv CS.LG·il y a 17j

Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation

Cet article explore la formation de modèles linguistiques pour prévoir le succès empirique des idées de recherche en évaluant des paires d'idées par rapport à des résultats objectifs. Le SFT améliore considérablement les performances par rapport à GPT-5, et le RLVR permet d'entraîner des modèles à découvrir des chemins de raisonnement interprétables pour cette tâche de prévision.

27
RESEARCHarXiv CS.AI·il y a 28j

CoCoDA: Co-evolving Compositional DAG for Tool-Augmented Agents

CoCoDA propose un cadre pour les modèles de langage augmentés par outils, utilisant un DAG de code compositionnel co-évolutif pour gérer et récupérer les outils efficacement. Cette approche résout les défis de mise à l'échelle des bibliothèques d'outils en encodant des structures typées et en élaguant les candidats via l'unification de signatures symboliques.

27
RESEARCHarXiv CS.CL·il y a 22j

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Cette recherche présente OP-Mix, un nouvel algorithme pour le mélange efficace de données tout au long du cycle de vie de l'entraînement des modèles de langage. Il aborde le défi de combiner diverses sources de données pour le pré-entraînement, l'apprentissage continu et l'adaptation, proposant une solution unifiée de prise de décision en ligne.

27
RESEARCHarXiv CS.AI·il y a 26j

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench présente un cadre d'évaluation participatif pour évaluer les préjudices liés au handicap dans les grands modèles linguistiques, comblant les lacunes des benchmarks de sécurité généraux. Il comprend une taxonomie de douze catégories de préjudices cocréée, une méthodologie associant des invites bénignes et adverses, et un ensemble de données avec des étiquettes annotées par des humains, révélant des préjudices subtils souvent manqués par les évaluations standards.

27
RESEARCHarXiv CS.CL·il y a 27j

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron est un grand modèle linguistique open-source spécialisé dans l'hébreu, basé sur l'architecture Mixture-of-Experts (MoE) Nemotron-3 de NVIDIA. Il atteint une moyenne de raisonnement en hébreu de 73,8%, surpassant ses concurrents et offrant un débit d'inférence nettement supérieur en activant moins de paramètres par passe.

27
RESEARCHarXiv CS.AI·il y a 7j

Emergent Collaborative Deliberation in Multi-Model AI Systems: A BFT-Derived Protocol for Epistemic Synthesis

Le protocole Consilium, dérivé de la Tolérance aux Pannes Byzantines, est présenté pour la délibération structurée d'IA multi-modèles, traitant le désaccord inter-modèles comme un signal épistémique. L'étude démontre que les personas cognitives déterminent le comportement épistémique et que la formation d'alignement RLHF crée des angles morts épistémiques mesurables.

27