large language models

262 items

RESEARCHarXiv CS.CL·20/4/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Los grandes modelos de lenguaje a menudo alucinan hechos, un problema exacerbado por el ajuste fino supervisado (SFT) que degrada el conocimiento preentrenado. Esta investigación propone un método SFT basado en autodestilación, inspirado en el aprendizaje continuo, para mitigar las alucinaciones regulando la deriva de la distribución de salida, mientras adquiere efectivamente nueva información fáctica.

hallucinations large language models Fine-tuning Continual Learning

RESEARCHarXiv CS.AI·16/4/2026

ReSS: Learning Reasoning Models for Tabular Data Prediction via Symbolic Scaffold

ReSS es un marco que une modelos de razonamiento simbólicos y neuronales para la predicción de datos tabulares, buscando alta precisión y razonamiento comprensible. Utiliza árboles de decisión para extraer andamios simbólicos que guían a un LLM a generar razonamiento en lenguaje natural, que se utiliza para el ajuste fino de LLMs en tareas de razonamiento tabular.

machine learning Explainable AI tabular data large language models

ARTICLEDEV.to AI·21/4/2026

The Physics Wall in 2026: 3 Papers That Show Why Node Shrinks Won't Save Us

Este artículo sostiene que la simple reducción de los nodos de semiconductores ya no garantiza mejoras significativas de rendimiento o eficiencia energética, desafiando las afirmaciones de la industria. Analiza el actual "muro de la física" utilizando benchmarks de inferencia de LLM y ofrece predicciones hasta 2030.

technology limitations AI hardware semiconductors Performance optimization

NEWSDEV.to AI·hace 18d

Google: Recaps Dialogues Stage at I/O 2026

Google publicó un resumen de las sesiones del escenario Dialogues de su conferencia I/O 2026, destacando conversaciones con Sundar Pichai y otros líderes de IA. El evento se centró en los avances de la compañía en inteligencia artificial, su integración en productos y el desarrollo responsable, incluyendo LLMs y personalización de experiencias.

AI applications Google AI large language models AI development

RESEARCHarXiv CS.CL·13/4/2026

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Este artículo presenta una revisión exhaustiva del razonamiento médico con Grandes Modelos de Lenguaje (LLMs), conceptualizándolo como un proceso iterativo de abducción, deducción e inducción. Organiza los métodos existentes en siete rutas técnicas y realiza una evaluación unificada de modelos representativos en diferentes benchmarks.

Medical Reasoning LLMs in Medicine large language models healthcare AI

ARTICLEDEV.to AI·hace 20d

Airflow to the Rescue: How AI Powers Better DAG Failures

Este artículo presenta un enfoque implementado en producción para mejorar la detección y el diagnóstico de fallas en Apache Airflow. Aprovecha los grandes modelos de lenguaje, métodos estadísticos y el aprendizaje automático tradicional para analizar registros extensos y clasificar mensajes.

data engineering machine learning AI large language models

RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.CL·hace 29d

MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

MELD es un nuevo detector de texto generado por IA desplegable que enriquece la detección binaria con supervisión auxiliar multitaréa. Busca robustez frente a ataques, transferencia a generadores no vistos y bajas tasas de falsos positivos.

security large language models AI-generated text detection

RESEARCHarXiv CS.AI·hace 29d

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Una nueva investigación revela que el sesgo de posición en modelos de razonamiento, como Chain-of-thought, escala con la longitud de la trayectoria de razonamiento. Este efecto se observó en múltiples configuraciones de modelos y benchmarks, sugiriendo que "pensar más" puede exacerbar ciertos sesgos.

AI bias Natural Language Processing reasoning models Machine learning research

RESEARCHarXiv CS.CL·7/4/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

RESEARCHarXiv CS.AI·1/5/2026

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

Este artículo propone una arquitectura unificada de IA multiagente para automatizar la generación de pipelines de aprendizaje automático (ML) de principio a fin a partir de conjuntos de datos y objetivos en lenguaje natural. El sistema de cinco agentes integra RAG, un recomendador híbrido explicable y un mecanismo de auto-curación basado en LLM, logrando una tasa de éxito del 84,7% y una mayor robustez.

Retrieval Augmented Generation multi-agent AI large language models ML Automation

RESEARCHarXiv CS.AI·hace 6d

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Este artículo evalúa el "exceso de pensamiento perjudicial" en Modelos de Razonamiento Grandes, donde el razonamiento continuo después de una respuesta correcta puede desestabilizar la trayectoria. Introduce un protocolo para diferenciar el exceso de pensamiento redundante del perjudicial, identificando problemas en benchmarks multimodales.

multimodal AI Overthinking Model Evaluation AI Reasoning

RESEARCHarXiv CS.CL·hace 20d

MMoA: An AI-Agent framework with recurrence for Memoried Mixure-of-Agent

MMoA es una arquitectura recurrente de Mezcla de Agentes (MoA) que integra enrutamiento basado en LSTM para una selección adaptativa de agentes. Mejora el rendimiento de los LLM al activar dinámicamente menos agentes, manteniendo una precisión comparable en benchmarks como AlpacaEval 2.0.

Benchmarking Recurrence Mixture-of-Agents large language models

RESEARCHarXiv CS.CL·hace 21d

Language Acquisition Device in Large Language Models

Este artículo propone un preentrenamiento inspirado en el Dispositivo de Adquisición del Lenguaje (LAD) utilizando MP-STRUCT, un lenguaje formal que refleja estructuras del lenguaje natural, para mejorar la eficiencia de datos de los Grandes Modelos de Lenguaje. Un breve preentrenamiento con MP-STRUCT iguala la eficiencia de tokens de sólidas bases de lenguajes formales y confiere una resistencia similar a la humana a lenguajes estructuralmente implausibles.

Formal Languages Pre-pretraining Language Acquisition MP-STRUCT

DOCDEV.to AI·hace 6d

One API Key to Rule All AI Models: A Developer's Guide to TokenEase

TokenEase es una pasarela de agregación de API de IA que ofrece una única clave API compatible con OpenAI para acceder a múltiples modelos de lenguaje líderes. Simplifica el desarrollo de aplicaciones de IA al eliminar la necesidad de gestionar diferentes claves, puntos finales y límites de tasa para cada modelo.

AI integration API Management large language models developer tools

NEWSDEV.to AI·hace 18d

Qwen3-Coder-Next: 80B total, 3B active, 70.6 on SWE-Bench

Qwen3-Coder-Next es un modelo MoE disperso de 80B en total (3B activo) que obtiene una puntuación de 70.6 en SWE-Bench Verified. Incorpora un mecanismo de atención híbrida y pesos Apache 2.0, siendo una variante optimizada para codificación.

Benchmarking code generation Mixture of Experts large language models

ARTICLEDEV.to AI·26/4/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 ofrece un contexto de 1 millón de tokens que es realmente utilizable, resolviendo el problema de memoria de la GPU con una arquitectura de atención híbrida que comprime el caché KV en casi 9x. Esto lo convierte en una solución práctica para la inferencia de contexto largo, a diferencia de muchos otros modelos.

DeepSeek AI models Model Architecture large language models

RESEARCHDEV.to AI·hace 26d

Large Language Models are Few-Shot Health Learners

Este contenido explora la capacidad de los Grandes Modelos de Lenguaje (LLMs) para aprender tareas relacionadas con la salud con pocos ejemplos. Aborda cómo el aprendizaje "few-shot" puede aplicarse eficazmente en el ámbito de la salud utilizando LLMs.

learning AI Few-Shot Learning large language models

ARTICLEDEV.to AI·28/4/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, lanzado el 24 de abril de 2026, es un modelo de 1.6T (MoE) con 1M de tokens de contexto y modos Think/Non-Think para agentes de IA. Ofrece una planificación de múltiples pasos mejorada y llamadas de función más confiables a precios competitivos, posicionándose como una opción ideal para cargas de trabajo de agentes.

DeepSeek model performance large language models AI agents

NEWSMIT Tech Review AI·27/4/2026

The Download: DeepSeek’s latest AI breakthrough, and the race to build world models

DeepSeek, una firma china de IA, lanzó una vista previa de su nuevo modelo insignia, V4, que destaca por procesar prompts mucho más largos. Este desarrollo forma parte de la carrera continua para construir modelos mundiales avanzados en la industria de la IA.

AI models large language models AI development