Reasoning

57 items

RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO é um novo framework de aprendizagem por reforço projetado para melhorar a consistência lógica de modelos de linguagem grandes em tarefas de raciocínio complexas. Ele incorpora explicitamente métricas de estabilidade, como Função de Autocorrelação e Eficiência do Caminho, para avaliar a coerência local e a direcionalidade global do processo de raciocínio.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artigo introduz uma estrutura neuro-simbólica para traduzir problemas de raciocínio em linguagem natural para Narsese executável, utilizando lógica de primeira ordem. Apresenta o NARS-Reasoning-v0.1, um novo benchmark com problemas de raciocínio e suas representações formais e rótulos de verdade para avaliar capacidades de raciocínio.

LLMs Reasoning Benchmarks Neuro-symbolic AI

ARTICLEDEV.to AI·27d atrás

DeepMind’s CEO Says AGI May Be ~4 Years Away. The Last Three Missing Pieces Are Not What Most People Think.

Demis Hassabis, CEO da Google DeepMind, prevê que a AGI pode surgir por volta de 2030, destacando três lacunas críticas na IA atual: aprendizagem contínua, raciocínio de longo prazo e memória real. Ele descreve a inteligência da IA de hoje como "irregular", com picos de desempenho ao lado de falhas elementares.

DeepMind AGI Reasoning AI development

DOCDEV.to AI·25/04/2026

Tian AI Thinker: Building a Three-Layer LLM Reasoning Engine

O Tian AI Thinker é o núcleo cognitivo do Tian AI, orquestrando um modelo Qwen2.5-1.5B local através de um ThinkerRouter. Este roteador direciona as consultas para três modos de raciocínio distintos (Fast, CoT e Deep), otimizados para diferentes tipos de solicitação.

AI architecture Qwen2.5 Reasoning LLM

RESEARCHDEV.to AI·17d atrás

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Esta pesquisa explora o mecanismo de entropia na aprendizagem por reforço, especificamente sua aplicação para melhorar as capacidades de raciocínio em modelos de linguagem. Investiga como a entropia pode ser aproveitada para aprimorar o processo de aprendizagem e a tomada de decisões para um raciocínio mais robusto em modelos de linguagem.

language models reinforcement learning learning Reasoning

ARTICLEDEV.to AI·19d atrás

Apple Paper Argues LLMs Show 'Illusion of Thinking'

Um artigo da Apple intitulado "The Illusion of Thinking" argumenta que os Large Language Models (LLMs) não possuem raciocínio genuíno, baseando-se apenas em correspondência de padrões estatísticos. Liderado por Mehrdad Farajtabar, o estudo critica as afirmações de fornecedores como GPT-4 e Claude, apontando falhas em tarefas de raciocínio formal que exigem composicionalidade.

Apple machine learning Reasoning AI

RESEARCHarXiv CS.LG·15/04/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Este artigo explora como o aprimoramento do raciocínio em modelos de linguagem pode prejudicar a fidelidade de simulações comportamentais, especialmente quando o objetivo é amostrar comportamentos racionalmente limitados, e não resolver um problema estratégico. Os autores identificam um "descompasso entre solucionador e amostrador" onde LLMs super-otimizam, colapsando comportamentos de compromisso e resultando em diversidade sem fidelidade no resultado.

LLMs Strategic Negotiation Behavioral Simulation Reasoning

RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Esta pesquisa apresenta CURE, uma estrutura inovadora para melhorar a factualidade da geração de texto longo por LLMs, ensinando-os a raciocinar sobre a incerteza em nível de afirmação. O objetivo é superar a limitação de modelos que frequentemente declaram informações incorretas com confiança, focando em uma calibração de incerteza mais granular.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta pesquisa explora o Alinhamento Deliberativo em LLMs, um método que visa aprofundar a segurança ao destilar capacidades de raciocínio de modelos mais fortes. O estudo revela uma lacuna de alinhamento entre modelos professor e aluno, indicando que os modelos estudantes podem reter comportamentos inseguros do modelo base, apesar de aprenderem padrões de raciocínio avançados. O trabalho propõe um método de amostragem BoN para mitigar esses problemas.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.CL·05/05/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS é um framework de revisão para atribuição de nível de raciocínio em perguntas e respostas sobre diagramas (Diagram QA). Ele desvincula a lógica da interface de formatos de dados específicos através de um meta-esquema e adaptadores, facilitando a seleção e geração de evidências.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artigo apresenta BALAR (Bayesian Agentic Loop for Active Reasoning), um algoritmo de loop externo agnóstico à tarefa que permite a interação estruturada de múltiplas rodadas entre um agente LLM e um usuário. Ele mantém uma crença estruturada sobre estados latentes, seleciona perguntas esclarecedoras maximizando a informação mútua esperada e supera significativamente as linhas de base em diversos benchmarks de raciocínio.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Este estudo investiga a necessidade de tokens de memória aprendidos como bloco de rascunho computacional para Universal Transformers com Adaptive Computation Time (ACT) em um benchmark de raciocínio combinatório. Ele conclui que os tokens de memória são empiricamente necessários para um desempenho não trivial e identifica um limite inferior acentuado para a contagem ótima e uma armadilha comum de inicialização do roteador.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.AI·30/04/2026

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Este trabalho desafia a suposição de que o raciocínio composicional emerge como subproduto da fundamentação simbólica em IA neuro-simbólica. Introduzindo a arquitetura $i$LTN, demonstra-se que modelos treinados apenas com um objetivo de fundamentação falham em generalizar, enquanto o treinamento conjunto com fundamentação perceptual e raciocínio multi-etapa é crucial.

Compositional Generalization Reasoning AI Architectures Symbol Grounding

RESEARCHarXiv CS.CL·27/04/2026

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabalho explora o raciocínio em linguagem neuro-simbólica em VLMs, utilizando Aprendizado por Reforço para aprimorar habilidades analíticas e eficiência. Conseguiu um aumento de 3,33% na precisão em um dataset de visão-linguagem e uma redução de 75% nos tokens de raciocínio.

Vision-Language Models reinforcement learning Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.CL·08/04/2026

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Este artigo propõe um método baseado em topologia para otimizar cadeias de raciocínio em LLMs, visando superar lacunas lógicas e custos elevados. Ele quantifica características estruturais de CoT, ToT e GoT usando homologia persistente para aprimorar o paradigma CoT.

LLMs Chain-of-Thought Reasoning Tree-of-Thoughts

RESEARCHarXiv CS.AI·24d atrás

Enhanced and Efficient Reasoning in Large Learning Models

Este artigo propõe um método eficiente e baseado em princípios para aprimorar o raciocínio em Grandes Modelos de Linguagem, abordando a falta atual de confiança no conteúdo gerado. O método inclui uma fase de pré-processamento com um Integracode Relacional Unário, seguida por um processo de aprendizado de máquina otimizado.

model efficiency machine learning Reasoning data preprocessing

RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

O artigo introduz o TRACES, um framework leve para otimizar modelos de raciocínio de linguagem (LRMs) ao marcar etapas de raciocínio em tempo real. Isso permite a interrupção adaptativa e eficiente em termos de custo das inferências, abordando a ineficiência atual e a supergeração de etapas de verificação por LRMs.

LLMs early stopping Reasoning Inference Optimization

RESEARCHarXiv CS.AI·17d atrás

MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis

MindLoom é uma estrutura para sintetizar dados de raciocínio de nível avançado, superando a diversidade limitada e o controle instável de dificuldade de métodos existentes. Ele decompõe soluções de problemas em "cadeias de modos de pensamento" e treina um modelo de recuperação para guiar o processo de raciocínio.

data synthesis Thought Modes LLMs AI frameworks

RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta pesquisa apresenta a Otimização de Política de Média de Potência Adaptativa (APMPO) para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs) usando RLVR. O APMPO integra um objetivo de média de potência generalizado e recorte adaptativo por feedback para otimizar a dinâmica de aprendizado e o desempenho.

Policy optimization LLMs reinforcement learning machine learning