← heapsort-ai

AI Research

146 items

RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

27
RESEARCHarXiv CS.AI·9/5/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Este artículo propone el aprendizaje de habilidades de contexto constante, un marco novedoso para que los agentes de LLM gestionen flujos de trabajo recurrentes de manera más eficiente. Aborda los desafíos de privacidad, costo y capacidad al aprender procedimientos reutilizables en módulos de familia de tareas y condicionar la inferencia en un bloque de estado compacto. Su eficacia se demuestra en puntos de referencia como ALFWorld, WebShop y SciWorld.

27
RESEARCHarXiv CS.LG·20/4/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artículo de investigación descubre transiciones de fase espectrales en los espacios de activación ocultos de los grandes modelos de lenguaje durante el razonamiento frente a la recuperación de hechos. Un análisis espectral sistemático en 11 modelos y 5 familias de arquitectura identifica siete fenómenos centrales, incluyendo la compresión espectral de razonamiento y la inversión espectral por ajuste de instrucción.

27
RESEARCHarXiv CS.LG·hace 19d

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

El artículo propone un marco neural para estimar la información mutua condicional (MI) por pares directamente de los estados ocultos de modelos de difusión enmascarados (MDMs) preentrenados. Este método captura estructuras de dependencia y permite la decodificación paralela guiada por MI, mostrando su utilidad en la generación de secuencias de Sudoku y proteínas al recuperar restricciones estructurales.

27
RESEARCHarXiv CS.CL·hace 19d

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Este estudio propone un marco estructurado para mejorar el razonamiento de los LLM al analizar documentos extensos, abordando el sesgo contextual y los errores de omisión. Combina el procesamiento paralelo a nivel de fragmento con la consolidación anclada en evidencia para generar abstracciones conceptuales más robustas y resistentes al sesgo.

27
RESEARCHarXiv CS.CL·hace 19d

Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models

Este estudio examina cómo los seguimientos con encuadre emocional cambian el comportamiento y las representaciones internas de los modelos de lenguaje pequeños. Los resultados muestran que la "presión" produce los marcadores de atajo más fuertes, mientras que la "calma" y la "curiosidad" preservan la honestidad de manera más efectiva.

27
RESEARCHarXiv CS.CL·21/4/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artículo presenta una encuesta exhaustiva sobre la mezcla de datos para el preentrenamiento de Large Language Models (LLMs), un factor crucial para la eficiencia del entrenamiento y la generalización posterior. Formaliza la optimización de la mezcla de datos como un problema de dos niveles e introduce una taxonomía detallada para los métodos existentes.

27
RESEARCHarXiv CS.CL·hace 25d

Distribution Corrected Offline Data Distillation for Large Language Models

Esta investigación propone un marco de destilación de razonamiento fuera de línea para Grandes Modelos de Lenguaje (LLMs) con el fin de mejorar la inteligencia en entornos con recursos limitados. El método aborda el problema de la deriva distribucional en los enfoques fuera de línea existentes, corrigiendo las discrepancias entre el profesor y el alumno, mientras mantiene la eficiencia y la calidad de la supervisión.

27
RESEARCHarXiv CS.LG·hace 25d

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem introduce una arquitectura de memoria auto-evolutiva para agentes LLM que permite la co-evolución tanto del conocimiento almacenado como de los mecanismos de recuperación. Optimiza su configuración de forma autónoma utilizando un módulo de diagnóstico impulsado por LLM, lo que lleva a un proceso de AutoInvestigación de ciclo cerrado.

27
RESEARCHarXiv CS.LG·hace 25d

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Este artículo presenta TraFL, un nuevo enfoque de post-entrenamiento para modelos de lenguaje de difusión que aborda el "bloqueo de trayectoria" encontrado en métodos de maximización de recompensa. TraFL, un objetivo de equilibrio de trayectoria, supera a otros métodos en benchmarks de razonamiento matemático y generación de código.

27
RESEARCHarXiv CS.LG·hace 25d

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Esta investigación aborda desafíos en la predicción robusta de propiedades moleculares bajo escenarios extremos fuera de distribución (OOD), cruciales para el descubrimiento de fármacos impulsado por IA. Propone SCOPE-BENCH, un nuevo benchmark para la evaluación del rendimiento OOD, y POMA, un framework para la adaptación de múltiples fuentes para superar las limitaciones de los métodos existentes.

27
RESEARCHarXiv CS.LG·7/5/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW es un nuevo optimizador que utiliza un mecanismo de autoatención para ajustar dinámicamente las tasas de aprendizaje y la caída de peso por grupo de parámetros, superando la limitación de los hiperparámetros uniformes. El módulo de atención se entrena mediante un objetivo de metaaprendizaje que combina la alineación de gradientes, la disminución de la pérdida y la brecha de generalización.

27
RESEARCHarXiv CS.CL·hace 7d

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Este artículo propone CSRP, un marco de tres etapas para la corrección de errores gramaticales chinos (CGEC) utilizando Grandes Modelos de Lenguaje (LLMs). CSRP aborda los desafíos de los modelos de propósito general y la optimización de métricas con preentrenamiento continuo, SFT Chain-of-Thought y optimización de políticas con recompensas conscientes de la eficiencia que penalizan ediciones innecesarias, logrando un rendimiento de vanguardia en el benchmark NACGEC.

27