ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling
Cuando los modelos de lenguaje usan muestreo en tiempo de prueba y voto mayoritario, las trayectorias de razonamiento se concentran en
Cuando los modelos de lenguaje usan muestreo en tiempo de prueba y voto mayoritario, las trayectorias de razonamiento se concentran en
Esta investigación aborda la Brecha de Estabilidad-Expresividad en los Modelos de Lenguaje Hablado (SLM) para idiomas de bajos recursos, causada por el uso extensivo de datos sintéticos. Aunque los datos sintéticos mejoran la precisión fonética, degradan la expresividad prosódica, un fenómeno denominado Erosión Sintética. El artículo presenta marcos de autoalineación para recuperar la expresividad.
Esta investigación se centra en desarrollar métodos más eficientes para el muestreo de Modelos Probabilísticos de Difusión, con el objetivo de reducir el costo computacional y el tiempo asociados a la generación de muestras de alta calidad. Explora nuevos algoritmos para acelerar el proceso de muestreo manteniendo la fidelidad de los datos generados.
Este contenido explora la analogía de Andrej Karpathy sobre
Tian AI presenta un motor de autoevolución que analiza y modifica su propio código Python basándose en la experiencia operativa. Este innovador sistema busca alcanzar el "santo grial" de la investigación en IA, permitiendo que la inteligencia artificial se mejore continuamente.
Este trabajo explora métodos para que los modelos neuronales aprendan relaciones de causa y efecto, incluso en escenarios donde las intervenciones que generan datos son desconocidas. La investigación busca mejorar la capacidad de la inteligencia artificial para inferir causalidad a partir de datos complejos.
Este estudo argumenta, com base na Desigualdade de Processamento de Dados, que LLMs de agente único são mais eficientes em termos de informação do que sistemas multiagente sob orçamentos de token de raciocínio iguais. A pesquisa testa empiricamente esta previsão, que sugere que sistemas multiagente se tornam competitivos quando a utilização de contexto de um único agente é degradada ou mais poder computacional é despendido.
Esta encuesta proporciona una visión independiente del optimizador de las estrategias de rollout para el post-entrenamiento de LLM de razonamiento basados en RL. Formaliza los pipelines de rollout con una notación unificada e introduce la taxonomía del ciclo de vida Generate-Filter-Control-Replay (GFCR), descomponiendo los pipelines en cuatro etapas modulares.
Ingenieros y investigadores de NVIDIA utilizan Codex con GPT-5.5 para construir sistemas de producción. También emplean estas herramientas para transformar ideas de investigación en experimentos ejecutables.
Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.
Este trabajo presenta GELATO, un enfoque novedoso para modelos de embedding multimodales que extiende las arquitecturas de estilo VLM. Da como resultado la suite jina-embeddings-v5-omni, que codifica eficientemente texto, imagen, audio y video en un único espacio de embedding semántico al congelar los modelos de texto base y entrenar solo los componentes de conexión.
Este artículo presenta OSCToM, un enfoque para modelar conflictos de creencias anidados en tareas de Teoría de la Mente basadas en LLM. Combina el aprendizaje por refuerzo y modelos sustitutos composicionales para generar estos conflictos, y OSCToM-8B mostró los mejores resultados en los experimentos.
El artículo introduce enfoques novedosos para crear embeddings de alta calidad para sentencias lógicas, fundamentales para entrenar redes neuronales en la clasificación eficiente de elecciones hechas por razonadores lógicos. Estos métodos implican generar anclas con términos repetidos, equilibrar ejemplos fáciles, medianos y difíciles para el entrenamiento de triplet loss, y enfatizar periódicamente los ejemplos más difíciles.
Esta investigación propone un marco modular para abordar el razonamiento de incertidumbre escalable en Grafos de Conocimiento, donde los datos del mundo real a menudo contienen incertidumbre. Aborda tres niveles de incertidumbre —valores de atributos imprecisos, existencia de triples probabilísticas y conocimiento de esquema incompleto— mediante técnicas adaptadas como literales probabilísticos, circuitos probabilísticos y embeddings geométricos.
AgentCo-op es un marco de síntesis basado en recuperación que compone flujos de trabajo multiagente interoperables a partir de habilidades, herramientas y agentes externos. Aplica reparación local autoguiada a componentes implicados en fallos de ejecución y se ha demostrado en estudios de caso de genómica para coordinar agentes especializados.
Este contenido explora la evolución de las metodologías de IA, discutiendo el declive de los enfoques tradicionales de escalado y el surgimiento de nuevas estrategias, ejemplificado por el nacimiento de Adaption Labs. Presentado por Sara Hooker, el episodio del HF ML Club India profundiza en cambios significativos dentro del campo de la inteligencia artificial.

LangChain Labs es una nueva iniciativa de investigación aplicada centrada en el aprendizaje continuo para agentes. Con socios, busca avanzar en la investigación abierta sobre sistemas de IA auto-mejorables.

Este artículo describe los hallazgos de 500 experimentos con la memoria de agentes de IA, indicando que el desafío principal no es la recuperación, sino el problema de unión (binding). La investigación sugiere que mejorar cómo los agentes de IA conectan piezas de información dispares es crucial para avanzar en sus capacidades cognitivas.
Este contenido explora el concepto de investigación automática multiagente, detallando cómo múltiples agentes de IA pueden colaborar para llevar a cabo tareas de investigación. Se centra específicamente en el aprovechamiento de modelos de código abierto para facilitar y mejorar estos procesos de investigación automatizados.

Este contenido del Hugging Face Journal Club explora un método de auto-destilación "vergonzosamente simple" que mejora notablemente la generación de código. Destaca avances en el aprovechamiento de modelos de lenguaje grandes para tareas de programación.
