← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·4/5/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo es un nuevo modelo ModernBERT entrenado con un corpus de 331 mil millones de tokens en portugués brasileño (Aurora-PT), diseñado para soporte de contexto largo y mecanismos de atención eficientes. Logra los mejores resultados entre los modelos codificadores evaluados en tareas de similitud semántica, inferencia textual y clasificación utilizando conjuntos de datos como ASSIN 2 y PLUE.

28
RESEARCHarXiv CS.AI·11/5/2026

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Este artículo presenta SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge aplicado a problemas de física teórica. Investiga cómo la interacción entre investigadores y agentes de IA afecta los resultados en tareas de razonamiento físico, demostrando que el diálogo de múltiples turnos mejora significativamente los intentos de un solo disparo.

28
RESEARCHarXiv CS.LG·23/4/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Este estudio evalúa la decodificación especulativa con EAGLE3 para optimizar el Agente de Comercio de PayPal, impulsado por modelos Nemotron ajustados. El análisis revela mejoras de rendimiento notables, como un aumento del 22-49% en el rendimiento y una reducción del 18-33% en la latencia sin costos de hardware adicionales.

28
RESEARCHarXiv CS.LG·23/4/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Esta investigación introduce el Proceso de Decisión de Markov Aumentado por Herramientas (TA-MDP) para modelar formalmente la toma de decisiones agénticas multimodales, abordando las lagunas teóricas en el ajuste fino por refuerzo para Grandes Modelos de Visión-Lenguaje (LVLMs). Examina cómo las recompensas verificables compuestas afectan la convergencia de GRPO y por qué el entrenamiento en pequeños conjuntos de datos se generaliza a dominios fuera de distribución para LVLMs agénticos.

28
RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

28
RESEARCHarXiv CS.CL·hace 26d

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Este estudio de replicación integral evalúa la eficacia de DExperts, una técnica de mitigación en tiempo de inferencia para reducir la toxicidad en Grandes Modelos de Lenguaje. La investigación establece mediciones de toxicidad de referencia, implementa DExperts para mitigar la toxicidad explícita y prueba el método contra el discurso de odio implícito.

28
RESEARCHarXiv CS.CL·hace 20d

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Los grandes modelos de lenguaje tienen un rendimiento deficiente en tareas de razonamiento de contexto largo a pesar de admitir entradas extensas. ProxyCoT propone una nueva estructura de entrenamiento que transfiere las capacidades de razonamiento de contextos proxy cortos a contextos largos completos, superando a los modelos base.

28
RESEARCHarXiv CS.CL·hace 13d

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID es un nuevo framework que adapta eficientemente modelos autorregresivos (AR) al paradigma de difusión para la generación paralela de texto. Permite la inicialización desde modelos tipo GPT e introduce un mecanismo de denoising dinámico, logrando un rendimiento de vanguardia con costos de entrenamiento significativamente menores.

28
NEWSDEV.to AI·17/4/2026

GPT‑Rosalind for life sciences research

GPT-Rosalind, una nueva herramienta de OpenAI basada en GPT-4 y entrenada con datos científicos, ha sido lanzada para acelerar la investigación en ciencias de la vida. Aborda el cuello de botella de datos, optimizando la generación de hipótesis, el análisis de la literatura y el diseño experimental, con el potencial de reducir costos y plazos en el desarrollo de fármacos.

28
RESEARCHarXiv CS.CL·16/4/2026

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Dental-TriageBench presenta el primer benchmark anotado por expertos para el razonamiento multimodal en la clasificación dental jerárquica, que comprende 246 casos auténticos y desidentificados. La investigación revela una brecha de rendimiento sustancial entre 19 MLLMs y dentistas junior, especialmente en tareas de clasificación a nivel de tratamiento que requieren múltiples dominios de derivación.

28
RESEARCHarXiv CS.AI·1/5/2026

End-to-end autonomous scientific discovery on a real optical platform

El texto introduce el Qiushi Discovery Engine, un sistema basado en LLM para el descubrimiento científico autónomo en una plataforma óptica real. Demuestra el descubrimiento de principio a fin combinando fases de investigación no lineales, memoria Meta-Trace y una arquitectura de doble capa, reproduciendo con éxito un experimento publicado.

28
RESEARCHarXiv CS.CL·hace 23d

Greedy or not, here I come: Language production under vocabulary constraints in humans and resource-rational models

Esta investigación explora cómo los humanos se comunican con vocabularios limitados, comparando sus estrategias con algoritmos de muestreo computacional impulsados por grandes modelos de lenguaje. El estudio revela que la producción del lenguaje humano bajo restricciones a menudo refleja el muestreo codicioso, aunque los individuos más hábiles muestran comportamientos de revisión no codiciosos.

28
RESEARCHarXiv CS.CL·hace 23d

Fluency and Faithfulness in Human and Machine Literary Translation

Esta investigación examina el equilibrio entre fluidez y fidelidad en la traducción literaria, comparando traducciones humanas, de Google Translate y TranslateGemma de 106 novelas en 16 idiomas. Los hallazgos muestran una correlación negativa constante entre fluidez y fidelidad, y sugieren que la longitud del segmento es importante para la evaluación automática.

28
RESEARCHarXiv CS.CL·hace 6d

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Un estudio a gran escala reevalúa la Generación Aumentada por Recuperación (RAG) en la respuesta a preguntas médicas, encontrando solo mejoras pequeñas e inconsistentes en comparación con las líneas de base sin recuperación. Sugiere que la elección del modelo base es más crítica que los métodos de recuperación, y el principal cuello de botella es la capacidad del modelo para usar eficazmente la evidencia recuperada.

28
RESEARCHarXiv CS.AI·hace 6d

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Este comentario presenta PEEL, un andamiaje de trabajo que combina la lectura distante determinista con la interpretación de LLM, basado en la semiótica peirceana y el razonamiento abductivo. Aplicado a condensaciones generadas por IA, PEEL revela distorsiones sistemáticas invisibles sin medición no-IA, sugiriendo que los instrumentos deterministas deben acompañar a las herramientas de IA para asegurar la fidelidad y la autoridad epistémica.

28
DOCDEV.to AI·hace 8d

The Developer's Guide to Slashing Your AI API Bill by 95%

Esta guía muestra a los desarrolladores cómo reducir drásticamente los costos de la API de IA hasta en un 95%, abogando por alternativas más económicas como DeepSeek V4 Flash en lugar de GPT-4o. Destaca una diferencia de precio de 40 veces para una calidad de salida similar, ayudando a los desarrolladores a gestionar eficazmente los presupuestos de los proyectos.

27