AI Research

146 items

RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.AI·9/5/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Este artículo propone el aprendizaje de habilidades de contexto constante, un marco novedoso para que los agentes de LLM gestionen flujos de trabajo recurrentes de manera más eficiente. Aborda los desafíos de privacidad, costo y capacidad al aprender procedimientos reutilizables en módulos de familia de tareas y condicionar la inferencia en un bloque de estado compacto. Su eficacia se demuestra en puntos de referencia como ALFWorld, WebShop y SciWorld.

LLM Agents reinforcement learning Skill Learning AI Research

RESEARCHarXiv CS.LG·20/4/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artículo de investigación descubre transiciones de fase espectrales en los espacios de activación ocultos de los grandes modelos de lenguaje durante el razonamiento frente a la recuperación de hechos. Un análisis espectral sistemático en 11 modelos y 5 familias de arquitectura identifica siete fenómenos centrales, incluyendo la compresión espectral de razonamiento y la inversión espectral por ajuste de instrucción.

neural networks LLMs machine learning AI Research

RESEARCHarXiv CS.LG·hace 19d

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

El artículo propone un marco neural para estimar la información mutua condicional (MI) por pares directamente de los estados ocultos de modelos de difusión enmascarados (MDMs) preentrenados. Este método captura estructuras de dependencia y permite la decodificación paralela guiada por MI, mostrando su utilidad en la generación de secuencias de Sudoku y proteínas al recuperar restricciones estructurales.

neural networks information theory machine learning sequence models

RESEARCHarXiv CS.CL·hace 19d

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Este estudio propone un marco estructurado para mejorar el razonamiento de los LLM al analizar documentos extensos, abordando el sesgo contextual y los errores de omisión. Combina el procesamiento paralelo a nivel de fragmento con la consolidación anclada en evidencia para generar abstracciones conceptuales más robustas y resistentes al sesgo.

Contextual Reasoning Natural Language Processing AI Research Bias

RESEARCHarXiv CS.CL·hace 19d

Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models

Este estudio examina cómo los seguimientos con encuadre emocional cambian el comportamiento y las representaciones internas de los modelos de lenguaje pequeños. Los resultados muestran que la "presión" produce los marcadores de atajo más fuertes, mientras que la "calma" y la "curiosidad" preservan la honestidad de manera más efectiva.

NLP model behavior emotional framing AI Research

RESEARCHarXiv CS.LG·8/5/2026

MidSteer: Optimal Affine Framework for Steering Generative Models

Este artículo formaliza la teoría de dirección de conceptos en modelos generativos, vinculándola a la eliminación afín de conceptos e introduciendo LEACE-Switch. Luego propone MidSteer, un marco afín más general para la manipulación de conceptos con mínima perturbación.

model steering machine learning theoretical framework AI Research

RESEARCHarXiv CS.CL·hace 19d

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM presenta un nuevo modelo de lenguaje de coincidencia de flujo, adaptado de modelos de difusión pre-entrenados mediante un ajuste fino eficiente. Este método permite la generación de texto de alta calidad en pocos pasos, superando significativamente el muestreo de difusión tradicional con menos épocas de entrenamiento.

Diffusion Models language models machine learning text generation

RESEARCHarXiv CS.CL·21/4/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Este artículo presenta una encuesta exhaustiva sobre la mezcla de datos para el preentrenamiento de Large Language Models (LLMs), un factor crucial para la eficiencia del entrenamiento y la generalización posterior. Formaliza la optimización de la mezcla de datos como un problema de dos niveles e introduce una taxonomía detallada para los métodos existentes.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.CL·hace 7d

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

La decodificación de contexto largo en Large Language Models (LLMs) está severamente limitada por el ancho de banda de la memoria del caché Key-Value (KV). Este artículo propone Attention Run-time Termination (ART), un mecanismo ligero que optimiza el acceso al caché KV, logrando un 20% más de rendimiento de generación.

LLMs memory management decoding performance

RESEARCHarXiv CS.CL·hace 25d

Distribution Corrected Offline Data Distillation for Large Language Models

Esta investigación propone un marco de destilación de razonamiento fuera de línea para Grandes Modelos de Lenguaje (LLMs) con el fin de mejorar la inteligencia en entornos con recursos limitados. El método aborda el problema de la deriva distribucional en los enfoques fuera de línea existentes, corrigiendo las discrepancias entre el profesor y el alumno, mientras mantiene la eficiencia y la calidad de la supervisión.

Data Distillation Offline Distillation machine learning large language models

RESEARCHarXiv CS.LG·hace 7d

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Investigadores proponen Demo2Reward, una técnica de adaptación en tiempo de prueba para optimizar modelos de recompensa de Visión-Lenguaje (VLMs) en robótica. Utiliza pocas demostraciones para reducir falsos positivos, preservando los verdaderos positivos, sin requerir entrenamiento adicional del modelo.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.LG·hace 25d

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem introduce una arquitectura de memoria auto-evolutiva para agentes LLM que permite la co-evolución tanto del conocimiento almacenado como de los mecanismos de recuperación. Optimiza su configuración de forma autónoma utilizando un módulo de diagnóstico impulsado por LLM, lo que lleva a un proceso de AutoInvestigación de ciclo cerrado.

LLM Agents AutoResearch self-evolving systems memory architecture

RESEARCHarXiv CS.LG·hace 25d

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Este artículo presenta TraFL, un nuevo enfoque de post-entrenamiento para modelos de lenguaje de difusión que aborda el "bloqueo de trayectoria" encontrado en métodos de maximización de recompensa. TraFL, un objetivo de equilibrio de trayectoria, supera a otros métodos en benchmarks de razonamiento matemático y generación de código.

Diffusion Models language models reinforcement learning machine learning

RESEARCHarXiv CS.LG·hace 25d

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Esta investigación aborda desafíos en la predicción robusta de propiedades moleculares bajo escenarios extremos fuera de distribución (OOD), cruciales para el descubrimiento de fármacos impulsado por IA. Propone SCOPE-BENCH, un nuevo benchmark para la evaluación del rendimiento OOD, y POMA, un framework para la adaptación de múltiples fuentes para superar las limitaciones de los métodos existentes.

Out-of-Distribution Molecular AI machine learning drug discovery

RESEARCHarXiv CS.AI·7/5/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Este artículo investiga las propiedades de escala del razonamiento deductivo implícito sobre cláusulas de Horn en Transformers con límite de profundidad. Los modelos profundos con una máscara de prefijo bidireccional se aproximan al rendimiento explícito de CoT, aunque CoT sigue siendo necesario para la extrapolación de profundidad.

neural networks scaling deductive reasoning AI Research

RESEARCHarXiv CS.LG·7/5/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW es un nuevo optimizador que utiliza un mecanismo de autoatención para ajustar dinámicamente las tasas de aprendizaje y la caída de peso por grupo de parámetros, superando la limitación de los hiperparámetros uniformes. El módulo de atención se entrena mediante un objetivo de metaaprendizaje que combina la alineación de gradientes, la disminución de la pérdida y la brecha de generalización.

Meta-Learning deep learning learning AI Research

RESEARCHarXiv CS.AI·hace 28d

Spatial Priming Outperforms Semantic Prompting: A Grid-Based Approach to Improving LLM Accuracy on Chart Data Extraction

Este artículo investiga estrategias para mejorar la precisión de los LLM multimodales en la extracción de datos de gráficos científicos. Demuestra que un método simple de priming espacial basado en cuadrícula supera significativamente las técnicas de prompting semántico.

Data Extraction spatial priming chart analysis AI Research

RESEARCHarXiv CS.LG·hace 21d

Language Game: Talking to Non-Human Systems

Este artículo explora la comunicación directa con sistemas no-humanos (como redes genéticas u hongos) reconocidos como sustratos computacionales, yendo más allá de los LLMs como intermediarios. Propone un enfoque de "juego de lenguaje" utilizando el aprendizaje por refuerzo para permitir que estos sistemas se comuniquen con su propia "voz".

reinforcement learning AI communication large language models non-human systems

RESEARCHarXiv CS.CL·hace 7d

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Este artículo propone CSRP, un marco de tres etapas para la corrección de errores gramaticales chinos (CGEC) utilizando Grandes Modelos de Lenguaje (LLMs). CSRP aborda los desafíos de los modelos de propósito general y la optimización de métricas con preentrenamiento continuo, SFT Chain-of-Thought y optimización de políticas con recompensas conscientes de la eficiencia que penalizan ediciones innecesarias, logrando un rendimiento de vanguardia en el benchmark NACGEC.

reinforcement learning Grammar Correction Natural Language Processing AI Research