← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.LG·hace 9d

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval es un nuevo y completo conjunto de datos diseñado para entrenar y evaluar Grandes Modelos de Lenguaje (LLMs) en programas OpenQASM-3 que involucran características avanzadas orientadas al hardware. Aborda una brecha en la capacidad de los LLMs para manejar la programación de computación cuántica más allá de la especificación de circuitos de secuencia de puertas.

27
RESEARCHarXiv CS.LG·hace 15d

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propone un marco de ciclo cerrado para el descubrimiento científico, superando la inferencia estática al acoplar activamente la generación de hipótesis con la selección de experimentos y el refinamiento de mecanismos. Sugiere iterativamente hipótesis, elige experimentos informativos para distinguirlas o refinarlas y actualiza su estado basándose en la evidencia resultante.

27
RESEARCHarXiv CS.CL·hace 15d

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

Esta investigación introduce SLAP, un novedoso marco de selección de datos consciente de lotes diseñado para mejorar la eficiencia de datos en el ajuste de instrucciones para LLMs. SLAP optimiza el aprendizaje evaluando composiciones de lotes completas, asegurando una cobertura integral de la distribución de datos y maximizando la diversidad dentro del lote para lograr un rendimiento sin pérdidas con costos de entrenamiento reducidos.

27
RESEARCHarXiv CS.CL·hace 7d

Adaptive Latent Agentic Reasoning

Esta investigación presenta el Razonamiento Latente Agente Adaptativo (ALAR), un marco de modo dual diseñado para mejorar la eficiencia de los agentes LLM. ALAR utiliza el razonamiento latente compacto para tareas rutinarias y escala a un razonamiento explícito de cadena de pensamiento cuando se necesita una deliberación más profunda, manteniendo o mejorando la precisión de la tarea con ganancias sustanciales de eficiencia.

27
RESEARCHarXiv CS.AI·hace 14d

Can LLMs Introspect? A Reality Check

Un nuevo estudio cuestiona si los grandes modelos de lenguaje (LLMs) pueden realmente introspectar, argumentando que las conclusiones actuales pueden ser prematuras. Sugiere que el éxito aparente podría deberse a la detección general de anomalías en lugar de una introspección genuina, basándose en lecciones de la investigación sobre metacognición humana.

27
RESEARCHarXiv CS.AI·hace 13d

Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

Esta investigación presenta una arquitectura multiagente para el descubrimiento autónomo de insights en flujos de datos en tiempo real, abordando las deficiencias de los sistemas analíticos reactivos. El sistema implementa un ciclo continuo de generación de hipótesis, compilación de análisis, validación y producción de visualizaciones, aprovechando tecnologías como Kafka, Flink y grandes modelos de lenguaje.

27
RESEARCHarXiv CS.CL·hace 14d

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Este artículo propone un nuevo marco para evaluar e intervenir en la alineación de valores culturales en Grandes Modelos de Lenguaje (LLM), abordando la homogeneización cultural. El método utiliza sondeo conductual basado en escenarios y extracción de probabilidades implícitas de tokens para mapear valores culturales latentes, introduciendo también la dirección de activación para ajustar estas alineaciones sin reentrenamiento.

27
ARTICLEDEV.to AI·9/4/2026

Choosing Between GPT-5.4 and Claude Sonnet 4.6 in Real Workflows

O artigo compara o desempenho dos modelos GPT-5.4 e Claude Sonnet 4.6 em fluxos de trabalho reais, destacando que, embora 80% das tarefas sejam semelhantes, o GPT-5.4 se sobressai em 20% das situações que exigem raciocínio multi-passos, uso de ferramentas e saídas estruturadas. A análise enfatiza que critérios como consistência, velocidade, custo e adequação ao fluxo de trabalho são mais importantes do que apenas a correção em ambientes de produção.

27