← heapsort-ai

LLM reasoning

2 items

RESEARCHDEV.to AI·13/04/2026

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive EffectiveReinforcement Learning for LLM Reasoning

Este conteúdo explora uma nova abordagem para aprimorar o Aprendizado por Reforço para o raciocínio de Modelos de Linguagem Grandes (LLM), focando em "tokens minoritários de alta entropia". Sugere que esses tokens menos frequentes, mas altamente informativos, são os principais impulsionadores para uma aprendizagem eficaz, desafiando a regra convencional 80/20.

29
RESEARCHDEV.to AI·9d atrás

I read a multi-agent reasoning paper, built the Claude-native version, and measured everything

Um artigo destaca a superioridade de agentes de IA que partilham estados de raciocínio internos, resultando num ganho médio de precisão de 8,3 pontos. O autor criou uma versão para Claude usando a API de pensamento estendido da Anthropic, adaptando o conceito de partilha de estado interno para retransmissão de blocos de pensamento e enfrentando desafios de implementação.

28