← heapsort-ai

language models

103 items

NEWS↑ trendingReddit r/LocalLLaMA·17/4/2026

Ternary Bonsai: Top intelligence at 1.58 bits

Prism ML ha anunciado Ternary Bonsai, una nueva familia de modelos de lenguaje de 1.58 bits diseñada para equilibrar estrictas restricciones de memoria con alta precisión. Estos modelos, disponibles en tamaños de 8B, 4B y 1.7B, logran una huella de memoria 9 veces menor que los modelos de 16 bits, superando a la mayoría de sus pares.

Ternary Bonsai: Top intelligence at 1.58 bits
50
RESEARCHarXiv CS.CL·hace 1d

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Las fallas en el razonamiento de los modelos de lenguaje surgen a través de procesos distintos que dejan firmas identificables a nivel de token. Estas fallas se caracterizan como "falla comprometida" o "incertidumbre persistente", y comprender estas firmas ayuda a distinguir los resultados fallidos de los exitosos en varias configuraciones.

40
RESEARCHarXiv CS.CL·22/4/2026

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Este artículo propone una nueva técnica, Token-to-Mask (T2M) remasking, para refinar modelos de lenguaje de difusión enmascarados como LLaDA2.1. El método aborda las deficiencias de la edición Token-to-Token (T2T) al restablecer los tokens sospechosos a un estado de máscara, permitiendo una predicción más precisa.

32
RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

31
RESEARCHarXiv CS.CL·hace 4d

Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning

Este artículo presenta un objetivo de pre-entrenamiento híbrido para codificadores de texto, que combina una pérdida de predicción de espacio latente al estilo JEPA con un objetivo estándar de modelado de lenguaje enmascarado (MLM). Este nuevo enfoque busca fomentar representaciones ancladas en estructuras semánticas más profundas en lugar de solo la identidad superficial de los tokens, mostrando incrustaciones significativamente más uniformes.

30
RESEARCHarXiv CS.CL·hace 4d

Generic Triple-Latent Compression with Gated Associative Retrieval

Esta investigación introduce modelos de secuencia genéricos triplemente latentes, que utilizan un estado de token en ejecución y memoria de par comprimida para capturar interacciones de tokens de orden superior. Estos modelos muestran mejoras sobre una línea base de Transformer en benchmarks de modelos de lenguaje, aunque una extensión de recuperación mejora la recuperación pero es más lenta.

30
RESEARCHDEV.to AI·13/4/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) se enfoca en la integración de herramientas externas con grandes modelos de lenguaje para aumentar sus capacidades. Este enfoque permite a los LLMs realizar tareas complejas de manera más efectiva, aprovechando funciones especializadas e interacciones del mundo real.

30
RESEARCHarXiv CS.CL·hace 19d

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Esta investigación explora si las leyes de escalamiento de datos reales están gobernadas por una cobertura progresiva de un espectro latente de contribución predictiva, en lugar de solo por la frecuencia de tokens. Utilizando un autómata de sufijos y un espectro de contribución predictiva global-KL, el estudio encuentra una fuerte correlación entre la pendiente de la cola del espectro y el exponente de escalamiento de datos de los aprendices GPT, demostrando que el rango de truncamiento efectivo escala logarítmicamente.

29
RESEARCHarXiv CS.CL·13/4/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

El artículo revela una vulnerabilidad crítica en los modelos de lenguaje basados en difusión (dLLMs) donde su alineación de seguridad, basada en programas de denoising monotónicos, puede ser fácilmente eludida. Al volver a enmascarar tokens de rechazo e inyectar un prefijo afirmativo, los investigadores lograron altas tasas de éxito de ataque contra dLLMs destacados, exponiendo una falla estructural.

29
RESEARCHarXiv CS.CL·24/4/2026

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

GRISP es un novedoso método de respuesta a preguntas basado en SPARQL sobre grafos de conocimiento, que utiliza un pequeño modelo de lenguaje (SLM) ajustado. Genera esqueletos de consultas SPARQL a partir de preguntas en lenguaje natural y los refina seleccionando elementos del grafo, logrando resultados de vanguardia en benchmarks como Wikidata y Freebase.

29
RESEARCHarXiv CS.AI·hace 29d

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment

Esta investigación propone una teoría de "estabilización de preferencia de respuesta finita" para identificar el momento en que la preferencia de respuesta de un modelo de lenguaje se vuelve estable. Muestra que esta estabilización ocurre a menudo antes de que la respuesta sea verbalizada, con un tiempo de anticipación notable.

29
RESEARCHarXiv CS.CL·hace 22d

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Este artículo presenta un análisis exhaustivo de los patrones de activación neural en seis arquitecturas distintas de modelos de lenguaje grandes (LLM), examinando su rendimiento en doce categorías de tareas cognitivas. Los hallazgos revelan diferencias fundamentales en cómo las arquitecturas de codificador y decodificador procesan diversas tareas cognitivas, con el razonamiento matemático produciendo la mayor entropía de atención y los modelos decodificadores mostrando una esparsidad significativamente mayor.

29
RESEARCHarXiv CS.LG·hace 15d

The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

Este estudio de investigación revela que los modelos de lenguaje pequeños (LMs) ajustados por instrucción que utilizan Chain-of-Thought (CoT) para la aritmética a menudo emplean un atajo posicional, copiando el número que ocupa la última posición antes del delimitador de la respuesta. Este atajo domina, incluso si el razonamiento intermedio es correcto, afectando significativamente la precisión de la respuesta.

29
RESEARCHarXiv CS.CL·hace 5d

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

Este estudio investiga el efecto de las etiquetas de rol de discurso, como "Referencia" o "Instrucción", en el comportamiento de los modelos de lenguaje. Revela que la tasa de adopción de información engañosa puede cambiar significativamente (56-84 puntos porcentuales) según la etiqueta, con etiquetas como "Instrucción" aumentando la adopción y "Ejemplo" suprimiéndola constantemente.

28