← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA é um novo algoritmo de aprendizado por reforço que aprimora LLMs para raciocínio não supervisionado, abordando a falta de adaptação em métodos existentes. Ele utiliza Recompensa Impulsionada por Energia Livre (FER) para equilibrar consenso e exploração, e Modelagem Adaptativa de Vantagem (AAS) para ajustar sinais de aprendizado. FREIA supera as linhas de base não supervisionadas em tarefas de raciocínio, especialmente em matemática.

27
RESEARCHarXiv CS.CL·26d atrás

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner é uma nova estrutura que propõe usar Modelos de Raciocínio Grandes (LRMs) para a sumarização de linhas do tempo, superando abordagens passivas de Geração de Linguagem Grande (LLMs). Ele adota um processo ativo e guiado por raciocínio em duas etapas, Cognição Global e Exploração Detalhada, para extrair e refinar linhas do tempo de notícias online.

27
RESEARCHarXiv CS.CL·20d atrás

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artigo apresenta o Stepwise Confidence Attribution (SCA), uma estrutura para LLMs de caixa preta que diagnostica falhas de raciocínio multi-etapa atribuindo confiança a cada passo. O SCA aplica o princípio do Information Bottleneck, identificando desvios de estruturas de consenso como potenciais erros, e propõe os métodos NIBS e GIBS.

27
RESEARCHarXiv CS.AI·15d atrás

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artigo de pesquisa apresenta 'PathCal', investigando os distintos papéis funcionais e o momento dos marcadores de reflexão nas trajetórias de Chain-of-Thought de Large Reasoning Language Models. Ele revela que marcadores como 'wait' ou 'but' diferem significativamente em seu impacto na precisão e no comprimento da geração, desafiando abordagens anteriores.

27
RESEARCHarXiv CS.CL·8d atrás

Can LLM Teams Play What? Where? When?

Esta pesquisa investiga como interações baseadas em equipe melhoram o desempenho de Grandes Modelos de Linguagem (LLMs) em tarefas complexas de raciocínio, especificamente no jogo de perguntas O Quê? Onde? Quando?. Demonstra que as estratégias de equipe resultam em ganhos significativos de precisão, com as melhores equipes se aproximando do desempenho humano.

27
RESEARCHarXiv CS.AI·09/04/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

27
RESEARCHarXiv CS.AI·30/04/2026

Auto-Relational Reasoning

Pesquisadores propõem uma nova estrutura teórica para raciocínio relacional automatizado, combinando Machine Learning e raciocínio rígido para superar os limites dos grandes modelos atuais. O sistema resultante demonstra alta performance em problemas de QI, alcançando uma taxa de resolução de 98,03% sem conhecimento prévio.

27
RESEARCHarXiv CS.AI·23/04/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artigo revela o fenômeno generalizado do "uso excessivo de ferramentas" em LLMs, onde os modelos empregam ferramentas externas desnecessariamente. Ele identifica uma "ilusão epistêmica de conhecimento" e propõe uma estratégia baseada em otimização de preferência direta que reduz o uso de ferramentas em 82,8% e melhora a precisão.

27
ARTICLEDEV.to AI·12/04/2026

We Hit 99.1% on the LOCOMO Benchmark. Here's How.

O texto descreve como uma equipe alcançou 99,1% de precisão no benchmark LOCOMO, que avalia a capacidade de agentes de IA em realizar raciocínio multi-hop usando memórias armazenadas. Esse avanço significativo, superando outros sistemas, foi atribuído à remoção de uma única premissa, e não a um novo modelo complexo.

24