← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO é um novo framework de aprendizagem por reforço projetado para melhorar a consistência lógica de modelos de linguagem grandes em tarefas de raciocínio complexas. Ele incorpora explicitamente métricas de estabilidade, como Função de Autocorrelação e Eficiência do Caminho, para avaliar a coerência local e a direcionalidade global do processo de raciocínio.

27
RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artigo introduz uma estrutura neuro-simbólica para traduzir problemas de raciocínio em linguagem natural para Narsese executável, utilizando lógica de primeira ordem. Apresenta o NARS-Reasoning-v0.1, um novo benchmark com problemas de raciocínio e suas representações formais e rótulos de verdade para avaliar capacidades de raciocínio.

27
RESEARCHDEV.to AI·17d atrás

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta pesquisa explora o mecanismo de entropia na aprendizagem por reforço, especificamente sua aplicação para melhorar as capacidades de raciocínio em modelos de linguagem. Investiga como a entropia pode ser aproveitada para aprimorar o processo de aprendizagem e a tomada de decisões para um raciocínio mais robusto em modelos de linguagem.

27
ARTICLEDEV.to AI·19d atrás

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Um artigo da Apple intitulado "The Illusion of Thinking" argumenta que os Large Language Models (LLMs) não possuem raciocínio genuíno, baseando-se apenas em correspondência de padrões estatísticos. Liderado por Mehrdad Farajtabar, o estudo critica as afirmações de fornecedores como GPT-4 e Claude, apontando falhas em tarefas de raciocínio formal que exigem composicionalidade.

27
RESEARCHarXiv CS.LG·15/04/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Este artigo explora como o aprimoramento do raciocínio em modelos de linguagem pode prejudicar a fidelidade de simulações comportamentais, especialmente quando o objetivo é amostrar comportamentos racionalmente limitados, e não resolver um problema estratégico. Os autores identificam um "descompasso entre solucionador e amostrador" onde LLMs super-otimizam, colapsando comportamentos de compromisso e resultando em diversidade sem fidelidade no resultado.

27
RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Esta pesquisa apresenta CURE, uma estrutura inovadora para melhorar a factualidade da geração de texto longo por LLMs, ensinando-os a raciocinar sobre a incerteza em nível de afirmação. O objetivo é superar a limitação de modelos que frequentemente declaram informações incorretas com confiança, focando em uma calibração de incerteza mais granular.

27
RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta pesquisa explora o Alinhamento Deliberativo em LLMs, um método que visa aprofundar a segurança ao destilar capacidades de raciocínio de modelos mais fortes. O estudo revela uma lacuna de alinhamento entre modelos professor e aluno, indicando que os modelos estudantes podem reter comportamentos inseguros do modelo base, apesar de aprenderem padrões de raciocínio avançados. O trabalho propõe um método de amostragem BoN para mitigar esses problemas.

27
RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artigo apresenta BALAR (Bayesian Agentic Loop for Active Reasoning), um algoritmo de loop externo agnóstico à tarefa que permite a interação estruturada de múltiplas rodadas entre um agente LLM e um usuário. Ele mantém uma crença estruturada sobre estados latentes, seleciona perguntas esclarecedoras maximizando a informação mútua esperada e supera significativamente as linhas de base em diversos benchmarks de raciocínio.

27
RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Este estudo investiga a necessidade de tokens de memória aprendidos como bloco de rascunho computacional para Universal Transformers com Adaptive Computation Time (ACT) em um benchmark de raciocínio combinatório. Ele conclui que os tokens de memória são empiricamente necessários para um desempenho não trivial e identifica um limite inferior acentuado para a contagem ótima e uma armadilha comum de inicialização do roteador.

27
RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.AI·30/04/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Este trabalho desafia a suposição de que o raciocínio composicional emerge como subproduto da fundamentação simbólica em IA neuro-simbólica. Introduzindo a arquitetura $i$LTN, demonstra-se que modelos treinados apenas com um objetivo de fundamentação falham em generalizar, enquanto o treinamento conjunto com fundamentação perceptual e raciocínio multi-etapa é crucial.

27
RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta pesquisa apresenta a Otimização de Política de Média de Potência Adaptativa (APMPO) para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs) usando RLVR. O APMPO integra um objetivo de média de potência generalizado e recorte adaptativo por feedback para otimizar a dinâmica de aprendizado e o desempenho.

27