← heapsort-ai

language models

103 items

RESEARCHarXiv CS.LG·5/5/2026

StyleShield: Exposing the Fragility of AIGC Detectors through Continuous Controllable Style Transfer

El artículo introduce StyleShield, un nuevo marco de coincidencia de flujo para la transferencia condicional de estilo de texto que expone la fragilidad de los detectores de contenido generado por IA (AIGC). Opera en el espacio continuo de incrustación de tokens para difuminar el límite estadístico entre la escritura humana y la de IA, desafiando la fiabilidad de los servicios de detección actuales.

27
RESEARCHarXiv CS.CL·5/5/2026

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Este artículo presenta las H-probes, sondas lineales diseñadas para extraer la estructura jerárquica, como la profundidad y la distancia, de las representaciones latentes de los grandes modelos de lenguaje. La investigación demuestra que estas sondas encuentran de manera robusta subespacios de baja dimensión cruciales para el rendimiento en tareas sintéticas de recorrido de árboles, generalizando bien dentro y fuera del dominio.

27
RESEARCHarXiv CS.LG·9/4/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

27
RESEARCHarXiv CS.CL·13/4/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Esta investigación explora los rastros de Promedio Móvil Exponencial (EMA) como un contexto recurrente mínimo para delinear las capacidades y limitaciones de la acumulación de coeficiente fijo en modelos de secuencia. Demuestra que los rastros de EMA sobresalen en la codificación de la estructura temporal, igualando a modelos avanzados en tareas estructurales, pero fundamentalmente fallan en capturar la identidad del token, lo que resulta en un rendimiento significativamente reducido para el modelado de lenguaje.

27
RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

27
RESEARCHarXiv CS.CL·16/4/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU es un nuevo benchmark coreano nativo para evaluar la comprensión multimodal en contextos culturales e institucionales coreanos, con 3.466 preguntas de exámenes nativos. El estudio revela que los modelos de IA actuales alcanzan solo un 42,05% de precisión en el conjunto completo, con fallos significativos en problemas cultural y disciplinariamente específicos.

27
RESEARCHarXiv CS.AI·27/4/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artículo propone Math Takes Two, un nuevo benchmark diseñado para evaluar el razonamiento matemático emergente en modelos de lenguaje a través de la comunicación. Prueba si dos agentes, sin conocimiento matemático previo, pueden desarrollar un protocolo simbólico compartido para resolver una tarea visualmente fundamentada que facilita la extrapolación numérica.

27
RESEARCHarXiv CS.CL·8/4/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.CL·8/5/2026

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

Este estudio investiga ataques de reescritura de varios pasos contra marcas de agua en modelos de lenguaje de difusión, utilizados para verificar la autoría de texto por IA. Los hallazgos demuestran que los textos con marcas de agua pueden ver su detección comprometida después de múltiples reescrituras por otros modelos de lenguaje, incluso sin conocer la clave de la marca de agua.

27
RESEARCHarXiv CS.LG·hace 25d

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Este artículo presenta TraFL, un nuevo enfoque de post-entrenamiento para modelos de lenguaje de difusión que aborda el "bloqueo de trayectoria" encontrado en métodos de maximización de recompensa. TraFL, un objetivo de equilibrio de trayectoria, supera a otros métodos en benchmarks de razonamiento matemático y generación de código.

27
RESEARCHarXiv CS.AI·hace 7d

Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs

Grokers es una arquitectura innovadora que construye una comprensión persistente y estructurada de grafos de conocimiento tipados mediante el recorrido inductivo de abajo hacia arriba. A diferencia de RAG, traslada la inteligencia al tiempo de escritura, donde agentes Groker autónomos analizan y enriquecen atributos a través de modelos de lenguaje para todas las consultas futuras con coste cero.

27
RESEARCHarXiv CS.LG·hace 17d

Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation

Este artículo explora el entrenamiento de modelos de lenguaje para pronosticar el éxito empírico de ideas de investigación mediante la evaluación comparativa de pares de ideas. El SFT mejora significativamente el rendimiento en comparación con GPT-5, y el RLVR entrena modelos para descubrir rutas de razonamiento interpretables para esta tarea de pronóstico.

27
RESEARCHarXiv CS.AI·hace 28d

CoCoDA: Co-evolving Compositional DAG for Tool-Augmented Agents

CoCoDA propone un marco para modelos de lenguaje aumentados con herramientas, utilizando un DAG de código composicional coevolutivo para gestionar y recuperar herramientas de manera eficiente. Este enfoque aborda los desafíos de escalar bibliotecas de herramientas codificando estructuras tipadas y podando candidatos mediante la unificación de firmas simbólicas.

27
RESEARCHarXiv CS.CL·hace 22d

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Esta investigación presenta OP-Mix, un nuevo algoritmo para la mezcla eficiente de datos a lo largo de todo el ciclo de vida del entrenamiento de modelos de lenguaje. Aborda el desafío de combinar diversas fuentes de datos para el preentrenamiento, el aprendizaje continuo y la adaptación, proponiendo una solución unificada de toma de decisiones en línea.

27
RESEARCHarXiv CS.AI·hace 26d

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench introduce un marco de evaluación participativo para evaluar los daños relacionados con la discapacidad en grandes modelos de lenguaje, abordando la insuficiencia de los puntos de referencia de seguridad de propósito general. Presenta una taxonomía de doce categorías de daño cocreada, una metodología que empareja indicaciones benignas y adversas, y un conjunto de datos con etiquetas anotadas por humanos, revelando daños sutiles que a menudo pasan desapercibidos en las evaluaciones estándar.

27
RESEARCHarXiv CS.CL·hace 27d

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Hebatron es un modelo de lenguaje grande de código abierto especializado en hebreo, construido sobre la arquitectura Mixture-of-Experts (MoE) Nemotron-3 de NVIDIA. Logra un promedio de razonamiento en hebreo del 73,8%, superando a sus competidores y ofreciendo un rendimiento de inferencia significativamente mayor al activar menos parámetros por pasada.

27
RESEARCHarXiv CS.AI·hace 7d

Emergent Collaborative Deliberation in Multi-Model AI Systems: A BFT-Derived Protocol for Epistemic Synthesis

Se presenta el Protocolo Consilium, una arquitectura derivada de la Tolerancia a Fallas Bizantinas para la deliberación estructurada de IA multi-modelo, que trata el desacuerdo entre modelos como una señal epistémica. El estudio demuestra que las personas cognitivas determinan el comportamiento epistémico y que el entrenamiento de alineación RLHF crea puntos ciegos epistémicos medibles.

27