← heapsort-ai

LLM reasoning

2 items

RESEARCHDEV.to AI·13/4/2026

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive EffectiveReinforcement Learning for LLM Reasoning

Este contenido explora un enfoque novedoso para mejorar el Aprendizaje por Refuerzo para el razonamiento de Modelos de Lenguaje Grandes (LLM) al centrarse en "tokens minoritarios de alta entropía". Propone que estos tokens menos frecuentes pero muy informativos son los impulsores clave para un aprendizaje eficaz, desafiando la regla convencional 80/20.

29
RESEARCHDEV.to AI·hace 9d

I read a multi-agent reasoning paper, built the Claude-native version, and measured everything

Un artículo subraya la superioridad de los agentes de IA que comparten estados de razonamiento internos, lo que resulta en una ganancia de precisión promedio de 8.3 puntos. El autor creó una versión nativa para Claude utilizando la API de pensamiento extendido de Anthropic, adaptando el concepto de intercambio de estado interno a la retransmisión de bloques de pensamiento, y discute los desafíos de implementación.

28