large language models

262 items

RESEARCHarXiv CS.CL·4/5/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo es un nuevo modelo ModernBERT entrenado con un corpus de 331 mil millones de tokens en portugués brasileño (Aurora-PT), diseñado para soporte de contexto largo y mecanismos de atención eficientes. Logra los mejores resultados entre los modelos codificadores evaluados en tareas de similitud semántica, inferencia textual y clasificación utilizando conjuntos de datos como ASSIN 2 y PLUE.

AI models BERT Portuguese NLP

RESEARCHarXiv CS.AI·11/5/2026

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Este artículo presenta SCALAR (Structured Critic--Actor Loop for AI Reasoning), un pipeline Actor--Critic--Judge aplicado a problemas de física teórica. Investiga cómo la interacción entre investigadores y agentes de IA afecta los resultados en tareas de razonamiento físico, demostrando que el diálogo de múltiples turnos mejora significativamente los intentos de un solo disparo.

theoretical physics AI Reasoning Agentic AI large language models

RESEARCHarXiv CS.LG·23/4/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Este estudio evalúa la decodificación especulativa con EAGLE3 para optimizar el Agente de Comercio de PayPal, impulsado por modelos Nemotron ajustados. El análisis revela mejoras de rendimiento notables, como un aumento del 22-49% en el rendimiento y una reducción del 18-33% en la latencia sin costos de hardware adicionales.

Performance benchmarking LLM optimization Inference acceleration large language models

RESEARCHarXiv CS.CL·23/4/2026

CoAuthorAI: A Human in the Loop System For Scientific Book Writing

CoAuthorAI es un sistema de escritura "human-in-the-loop" para libros científicos que aborda problemas de LLM como inconsistencia y citas poco fiables. Combina generación aumentada por recuperación, esquemas expertos y vinculación automática de referencias, demostrando alta satisfacción y un libro publicado.

human-in-the-loop Content Generation AI tools Scientific Writing

RESEARCHarXiv CS.LG·23/4/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Esta investigación introduce el Proceso de Decisión de Markov Aumentado por Herramientas (TA-MDP) para modelar formalmente la toma de decisiones agénticas multimodales, abordando las lagunas teóricas en el ajuste fino por refuerzo para Grandes Modelos de Visión-Lenguaje (LVLMs). Examina cómo las recompensas verificables compuestas afectan la convergencia de GRPO y por qué el entrenamiento en pequeños conjuntos de datos se generaliza a dominios fuera de distribución para LVLMs agénticos.

Theoretical AI reinforcement learning vision models large language models

RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHarXiv CS.CL·hace 26d

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Este estudio de replicación integral evalúa la eficacia de DExperts, una técnica de mitigación en tiempo de inferencia para reducir la toxicidad en Grandes Modelos de Lenguaje. La investigación establece mediciones de toxicidad de referencia, implementa DExperts para mitigar la toxicidad explícita y prueba el método contra el discurso de odio implícito.

DExperts security Toxicity large language models

RESEARCHarXiv CS.CL·hace 20d

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Los grandes modelos de lenguaje tienen un rendimiento deficiente en tareas de razonamiento de contexto largo a pesar de admitir entradas extensas. ProxyCoT propone una nueva estructura de entrenamiento que transfiere las capacidades de razonamiento de contextos proxy cortos a contextos largos completos, superando a los modelos base.

machine learning Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·hace 13d

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID es un nuevo framework que adapta eficientemente modelos autorregresivos (AR) al paradigma de difusión para la generación paralela de texto. Permite la inicialización desde modelos tipo GPT e introduce un mecanismo de denoising dinámico, logrando un rendimiento de vanguardia con costos de entrenamiento significativamente menores.

Diffusion Models text generation large language models Autoregressive Models

ARTICLEDEV.to AI·14/4/2026

Best Qwen Models in 2026 — Alibaba's Open-Source AI Powerhouse

El artículo analiza la familia de modelos Qwen de Alibaba, presentándola como la más grande y completa de código abierto en 2026, incluyendo la serie Qwen3 y la versión Qwen3.5 con 397 mil millones de parámetros. Destaca el rendimiento del modelo insignia Qwen3-235B-A22B, que compite con Gemini 2.5 Pro, y la estrategia de IA de Alibaba.

AI models Alibaba open-source AI large language models

NEWSDEV.to AI·17/4/2026

GPT‑Rosalind for life sciences research

GPT-Rosalind, una nueva herramienta de OpenAI basada en GPT-4 y entrenada con datos científicos, ha sido lanzada para acelerar la investigación en ciencias de la vida. Aborda el cuello de botella de datos, optimizando la generación de hipótesis, el análisis de la literatura y el diseño experimental, con el potencial de reducir costos y plazos en el desarrollo de fármacos.

Scientific Discovery Life Sciences AI large language models

RESEARCHarXiv CS.CL·16/4/2026

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Dental-TriageBench presenta el primer benchmark anotado por expertos para el razonamiento multimodal en la clasificación dental jerárquica, que comprende 246 casos auténticos y desidentificados. La investigación revela una brecha de rendimiento sustancial entre 19 MLLMs y dentistas junior, especialmente en tareas de clasificación a nivel de tratamiento que requieren múltiples dominios de derivación.

multimodal AI Healthcare Benchmarking large language models

RESEARCHarXiv CS.AI·1/5/2026

End-to-end autonomous scientific discovery on a real optical platform

El texto introduce el Qiushi Discovery Engine, un sistema basado en LLM para el descubrimiento científico autónomo en una plataforma óptica real. Demuestra el descubrimiento de principio a fin combinando fases de investigación no lineales, memoria Meta-Trace y una arquitectura de doble capa, reproduciendo con éxito un experimento publicado.

Autonomous systems Scientific Automation large language models robotics

RESEARCHarXiv CS.CL·hace 23d

Greedy or not, here I come: Language production under vocabulary constraints in humans and resource-rational models

Esta investigación explora cómo los humanos se comunican con vocabularios limitados, comparando sus estrategias con algoritmos de muestreo computacional impulsados por grandes modelos de lenguaje. El estudio revela que la producción del lenguaje humano bajo restricciones a menudo refleja el muestreo codicioso, aunque los individuos más hábiles muestran comportamientos de revisión no codiciosos.

cognitive science human behavior language production Natural Language Processing

RESEARCHarXiv CS.CL·hace 23d

Fluency and Faithfulness in Human and Machine Literary Translation

Esta investigación examina el equilibrio entre fluidez y fidelidad en la traducción literaria, comparando traducciones humanas, de Google Translate y TranslateGemma de 106 novelas en 16 idiomas. Los hallazgos muestran una correlación negativa constante entre fluidez y fidelidad, y sugieren que la longitud del segmento es importante para la evaluación automática.

Literary Translation Translation Evaluation Natural Language Processing machine translation

RESEARCHarXiv CS.CL·hace 6d

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Un estudio a gran escala reevalúa la Generación Aumentada por Recuperación (RAG) en la respuesta a preguntas médicas, encontrando solo mejoras pequeñas e inconsistentes en comparación con las líneas de base sin recuperación. Sugiere que la elección del modelo base es más crítica que los métodos de recuperación, y el principal cuello de botella es la capacidad del modelo para usar eficazmente la evidencia recuperada.

RAG Medical Question Answering Biomedical AI large language models

RESEARCHarXiv CS.LG·hace 6d

Unlocking Feature Learning in Gated Delta Networks at Scale

Este artículo deriva reglas de escalado para Redes Delta Gated para optimizar el entrenamiento de Large Language Models. Los experimentos confirman que las configuraciones propuestas permiten una transferencia estable de la tasa de aprendizaje en diferentes anchos de modelo.

neural networks learning Hyperparameter Tuning machine learning

RESEARCHarXiv CS.AI·hace 6d

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Este comentario presenta PEEL, un andamiaje de trabajo que combina la lectura distante determinista con la interpretación de LLM, basado en la semiótica peirceana y el razonamiento abductivo. Aplicado a condensaciones generadas por IA, PEEL revela distorsiones sistemáticas invisibles sin medición no-IA, sugiriendo que los instrumentos deterministas deben acompañar a las herramientas de IA para asegurar la fidelidad y la autoridad epistémica.

Research methodology AI in research Epistemic accountability large language models

DOCDEV.to AI·hace 8d

The Developer's Guide to Slashing Your AI API Bill by 95%

Esta guía muestra a los desarrolladores cómo reducir drásticamente los costos de la API de IA hasta en un 95%, abogando por alternativas más económicas como DeepSeek V4 Flash en lugar de GPT-4o. Destaca una diferencia de precio de 40 veces para una calidad de salida similar, ayudando a los desarrolladores a gestionar eficazmente los presupuestos de los proyectos.

DeepSeek-V4-Flash AI API costs Cost Optimization developer guide

NEWSDEV.to AI·hace 20d

Google Sparks AI Race with Gemini 3.5 Flash’s Breakthrough Speed

Gemini 3.5 Flash de Google revoluciona la velocidad de la IA, ofreciendo inteligencia instantánea y de primer nivel para codificación y tareas de razonamiento complejas. Este nuevo modelo establece un nuevo estándar de rendimiento, superando versiones anteriores y desafiando a sus rivales.

Google AI AI Speed Gemini large language models