← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.AI·hace 23d

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propone un nuevo framework para entrenar agentes de modelos de lenguaje grandes para internalizar la autocrítica, convirtiendo la retroalimentación en capacidad de resolución de problemas sin asistencia. Entrena conjuntamente un solucionador y un crítico desde un backbone compartido, recompensando al crítico por una retroalimentación accionable para fomentar la auto-mejora iterativa.

27
RESEARCHarXiv CS.LG·hace 27d

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

27
RESEARCHarXiv CS.CL·hace 27d

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner es un nuevo marco que utiliza Grandes Modelos de Razonamiento (LRMs) para mejorar la creación de resúmenes de líneas de tiempo, yendo más allá de la generación pasiva de Modelos de Lenguaje Grande (LLMs). Propone un proceso activo de dos etapas, Cognición Global y Exploración Detallada, para extraer y refinar líneas de tiempo estructuradas de noticias online.

27
RESEARCHarXiv CS.CL·hace 28d

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Este artículo descompone un sistema evolutivo Mixture-of-LoRA, investigando factores como la reescritura del enrutador, la evaluación por dominio y un ciclo de vida de adaptación. Los resultados atribuyen la mejora en el log-PPL equilibrado enteramente a la reescritura del enrutador.

27
RESEARCHarXiv CS.LG·hace 28d

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Los Modelos de Lenguaje de Difusión (dLLMs) encuentran límites de escalabilidad en el paralelismo debido a umbrales de confianza excesivamente conservadores que restringen su potencial de procesamiento altamente paralelo. Este artículo introduce LEAP, un método plug-and-play sin entrenamiento que mejora el paralelismo de los dLLMs al detectar tokens de convergencia temprana, acelerando así la decodificación.

27
RESEARCHarXiv CS.AI·hace 28d

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Este artículo de investigación propone una pila LLMOps especializada para la detección de fraude y el cumplimiento de las normas contra el blanqueo de capitales (AML), reconociendo sus requisitos de servicio distintos en comparación con las cargas de trabajo de chat genéricas. La pila integra varias técnicas avanzadas para manejar eficientemente indicaciones ricas en evidencia y con restricciones de esquema, asegurando un rendimiento de grado de cumplimiento con LLMs de código abierto autohospedados.

27
ARTICLEDEV.to AI·15/4/2026

GPT-6 just merged ChatGPT, Codex, and a browser into one agent.

El nuevo GPT-6 de OpenAI unifica funciones de chat, generación de código y navegación web en un solo agente, aprovechando un modelo base potente y una arquitectura de razonamiento de dos niveles. Este modelo cuenta con una ventana de contexto real y utilizable de 2M tokens, mejorando significativamente su utilidad para tareas complejas como la telemetría de IoT.

27
RESEARCHarXiv CS.CL·hace 19d

Probabilistic Attribution For Large Language Models

Este trabajo utiliza las probabilidades condicionales de los LLM para situarlos dentro de la teoría matemática de los procesos estocásticos. Se presenta una medida de atribución de tokens probabilística e independiente del modelo, que utiliza la regla de Bayes para capturar la representación interna de la distribución de secuencias de tokens.

27
RESEARCHarXiv CS.LG·hace 12d

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Este artículo presenta COM (Continuity and Ordinality Matter), una estrategia que integra restricciones geométricas en las etapas de inicialización y entrenamiento de los grandes modelos de lenguaje basados en tokens (TS-LLMs) para el análisis de series temporales. La investigación demuestra que preservar la continuidad y la ordinalidad en los embeddings de tokens de series temporales mejora significativamente el rendimiento y la generalizabilidad del modelo.

27
RESEARCHarXiv CS.CL·hace 15d

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Este estudio presenta un marco basado en grandes modelos de lenguaje para extraer y preservar las divulgaciones de segmentos, incluyendo información anidada, directamente de los formularios 10-K. Se incorpora además un sistema de recuperación aumentado para mejorar la comparabilidad entre múltiples presentaciones.

27
RESEARCHarXiv CS.CL·hace 15d

TriVAL: A Tri-Validation Framework for Faithful Automatic Optimization Modeling

TriVAL es un novedoso marco de tri-validación diseñado para mejorar la precisión del modelado de optimización automática, abordando la falta de validación explícita en los métodos actuales. Implementa un bucle de construir-validar-revisar en las etapas de especificación semántica, formulación matemática y generación de código para mitigar errores y mejorar la fidelidad general del modelado.

27
RESEARCHarXiv CS.AI·hace 15d

Confidence Calibration in Large Language Models

Este estudio examina la calibración de la confianza en Grandes Modelos de Lenguaje (LLMs) en diversas tareas, mostrando que los LLMs actuales son demasiado confiados en pruebas difíciles y subconfiados en las fáciles. Los investigadores desarrollaron LifeEval, una nueva prueba para evaluar la calibración del modelo en diferentes niveles de dificultad.

27
RESEARCHarXiv CS.CL·hace 15d

Raon-Speech Technical Report

Raon-Speech es un modelo de lenguaje de voz de 9 mil millones de parámetros de alto rendimiento para la comprensión, respuesta y generación de voz en inglés y coreano, logrando excelentes resultados en 42 benchmarks. Transforma con éxito un LLM pre-entrenado en un SpeechLM, manteniendo sólidas capacidades de texto a través de etapas de entrenamiento específicas.

27
RESEARCHarXiv CS.AI·hace 7d

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI propone un marco multimodal para alinear representaciones estructuradas de registros de salud electrónicos (EHR) con grandes modelos de lenguaje (LLMs). Esta integración permite un razonamiento clínico basado en lenguaje natural y una predicción precisa del paciente, cerrando la brecha entre los modelos predictivos de EHR y el razonamiento interpretable de LLM.

27
RESEARCHarXiv CS.AI·hace 16d

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artículo de investigación presenta 'PathCal', que investiga los distintos roles funcionales y el momento de los marcadores de reflexión en las trayectorias de Chain-of-Thought de los Large Reasoning Language Models. Revela que marcadores como 'wait' o 'but' difieren significativamente en su impacto en la precisión y la longitud de la generación, desafiando enfoques anteriores.

27
RESEARCHarXiv CS.CL·hace 9d

Configurable Reward Model for Balanced Safety Alignment

Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.

27
RESEARCHarXiv CS.CL·hace 9d

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Este artículo de investigación explora la dominancia narrativa global en Modelos de Lenguaje Grandes (LLMs), donde el conocimiento cultural local a menudo es eclipsado por narrativas globales. Introduce el conjunto de datos CulturalNB para contextos culturales bengalíes y demuestra que las preguntas formuladas en inglés tienden a aumentar la sustitución global y el encuadre institucional, reduciendo la cobertura de la perspectiva local.

27
RESEARCHarXiv CS.CL·hace 16d

Evaluating Large Language Models in a Complex Hidden Role Game

Esta investigación cuantifica el potencial engañoso de los Grandes Modelos de Lenguaje (LLMs) en el juego de deducción social Secret Hitler, introduciendo métricas novedosas y un marco de código abierto. El estudio compara los LLMs con algoritmos basados en reglas y juegos humanos, revelando una brecha entre la capacidad conversacional y la profundidad estratégica, y mostrando que las técnicas de mejora del razonamiento pueden empeorar el rendimiento para los roles fascistas.

27
RESEARCHarXiv CS.CL·hace 13d

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec introduce un marco para la evolución en tiempo real de modelos preliminares en la decodificación especulativa para Grandes Modelos de Lenguaje, abordando el cuello de botella de los vocabularios grandes. Utiliza adaptación dinámica de vocabulario y parámetros, empleando un mecanismo sensible al contexto y una estrategia ligera de alineación en línea para mejorar las tasas de aceptación y minimizar las brechas distribucionales.

27