Reasoning

57 items

RESEARCHarXiv CS.CL·07/05/2026

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

FREIA é um novo algoritmo de aprendizado por reforço que aprimora LLMs para raciocínio não supervisionado, abordando a falta de adaptação em métodos existentes. Ele utiliza Recompensa Impulsionada por Energia Livre (FER) para equilibrar consenso e exploração, e Modelagem Adaptativa de Vantagem (AAS) para ajustar sinais de aprendizado. FREIA supera as linhas de base não supervisionadas em tarefas de raciocínio, especialmente em matemática.

LLMs reinforcement learning AI algorithms Reasoning

RESEARCHarXiv CS.CL·26d atrás

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner é uma nova estrutura que propõe usar Modelos de Raciocínio Grandes (LRMs) para a sumarização de linhas do tempo, superando abordagens passivas de Geração de Linguagem Grande (LLMs). Ele adota um processo ativo e guiado por raciocínio em duas etapas, Cognição Global e Exploração Detalhada, para extrair e refinar linhas do tempo de notícias online.

timeline-summarization Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·20d atrás

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artigo apresenta o Stepwise Confidence Attribution (SCA), uma estrutura para LLMs de caixa preta que diagnostica falhas de raciocínio multi-etapa atribuindo confiança a cada passo. O SCA aplica o princípio do Information Bottleneck, identificando desvios de estruturas de consenso como potenciais erros, e propõe os métodos NIBS e GIBS.

LLMs information bottleneck Reasoning confidence estimation

RESEARCHarXiv CS.AI·15d atrás

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Este artigo de pesquisa apresenta 'PathCal', investigando os distintos papéis funcionais e o momento dos marcadores de reflexão nas trajetórias de Chain-of-Thought de Large Reasoning Language Models. Ele revela que marcadores como 'wait' ou 'but' diferem significativamente em seu impacto na precisão e no comprimento da geração, desafiando abordagens anteriores.

Natural Language Processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·8d atrás

Can LLM Teams Play What? Where? When?

Esta pesquisa investiga como interações baseadas em equipe melhoram o desempenho de Grandes Modelos de Linguagem (LLMs) em tarefas complexas de raciocínio, especificamente no jogo de perguntas O Quê? Onde? Quando?. Demonstra que as estratégias de equipe resultam em ganhos significativos de precisão, com as melhores equipes se aproximando do desempenho humano.

LLMs team strategies Benchmarking Reasoning

RESEARCHarXiv CS.AI·14d atrás

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

Este artigo quantifica e explica a redundância no raciocínio de grandes modelos de linguagem (LLMs), formalizando o conceito e medindo-o em larga escala. A pesquisa revela que entre 61% e 93% dos passos de pensamento dos LLMs são desnecessários, impactando latência, uso de GPU e energia.

efficiency Benchmarking Reasoning redundancy

RESEARCHarXiv CS.LG·13d atrás

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Quando modelos de linguagem usam amostragem em tempo de teste e voto majoritário, as trajetórias de raciocínio se concentram em

language models Model Evaluation Reasoning AI Research

RESEARCHHugging Face Blog·15/04/2026

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

Este conteúdo explora o VAKRA, um sistema de agentes de IA, analisando seus processos de raciocínio, o uso de ferramentas e os modos de falha. Ele oferece insights sobre as características operacionais e limitações de agentes de IA avançados.

failure modes VAKRA Reasoning tool use

RESEARCHarXiv CS.AI·09/04/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation Uncertainty Quantification Reasoning

RESEARCHarXiv CS.AI·30/04/2026

Auto-Relational Reasoning

Pesquisadores propõem uma nova estrutura teórica para raciocínio relacional automatizado, combinando Machine Learning e raciocínio rígido para superar os limites dos grandes modelos atuais. O sistema resultante demonstra alta performance em problemas de QI, alcançando uma taxa de resolução de 98,03% sem conhecimento prévio.

neural networks machine learning Reasoning problem-solving

RESEARCHarXiv CS.AI·23/04/2026

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

Este artigo revela o fenômeno generalizado do "uso excessivo de ferramentas" em LLMs, onde os modelos empregam ferramentas externas desnecessariamente. Ele identifica uma "ilusão epistêmica de conhecimento" e propõe uma estratégia baseada em otimização de preferência direta que reduz o uso de ferramentas em 82,8% e melhora a precisão.

LLMs Knowledge Representation Reasoning model behavior

RESEARCHarXiv CS.CL·06/05/2026

Evaluating Reasoning Models for Queries with Presuppositions

Esta pesquisa avalia como modelos de raciocínio avançados lidam com perguntas de usuários que contêm pressuposições factualmente imprecisas. Embora esses modelos mostrem uma leve melhora em relação aos modelos não-racionais, eles ainda falham em questionar uma fração significativa de premissas falsas.

presuppositions AI models LLMs evaluation

RESEARCHarXiv CS.CL·15/04/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Esta pesquisa apresenta o "Filtered Reasoning Score", uma métrica inovadora projetada para avaliar a qualidade do raciocínio em modelos de IA. Ela foca especificamente na avaliação do raciocínio evidente nas saídas ou "traces" mais confiantes de um modelo.

AI metrics machine learning Reasoning AI evaluation

RESEARCHarXiv CS.LG·24/04/2026

The Path Not Taken: Duality in Reasoning about Program Execution

O título sugere uma exploração da dualidade no raciocínio sobre a execução de programas, indicando uma análise profunda de abordagens alternativas. Provavelmente aborda métodos formais e lógicos para entender como os programas operam.

formal methods Reasoning Program execution Duality

ARTICLEDEV.to AI·12/04/2026

We Hit 99.1% on the LOCOMO Benchmark. Here's How.

O texto descreve como uma equipe alcançou 99,1% de precisão no benchmark LOCOMO, que avalia a capacidade de agentes de IA em realizar raciocínio multi-hop usando memórias armazenadas. Esse avanço significativo, superando outros sistemas, foi atribuído à remoção de uma única premissa, e não a um novo modelo complexo.

Memory Systems Benchmarking Reasoning AI

NEWSTogether AI Blog·18/03/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

A Together AI expandiu seu serviço de fine-tuning com suporte nativo para tool calling, raciocínio e modelos de visão-linguagem. As melhorias também incluem treinamento de modelos com mais de 100 bilhões de parâmetros, até 6x mais throughput e estimativas de custo e ETA para os trabalhos.

Vision-Language Models tool-calling Reasoning Together AI

NEWSDEV.to AI·24/04/2026

DeepSeek V4 Rivoluziona l'IA con un Contesto da 1 Milione di Token e Ragionamento di Classe Mondiale

DeepSeek V4 está revolucionando a IA ao introduzir um contexto de 1 milhão de tokens e capacidades de raciocínio de classe mundial. O anúncio detalha os pontos-chave, com uma análise mais profunda disponível no artigo completo.

DeepSeek AI models Context window Reasoning