← heapsort-ai

Reasoning

57 items

RESEARCHarXiv CS.AI·19h atrás

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Modelos de linguagem grandes (LLMs) enfrentam uma limitação chamada 'gargalo de conceito', onde perdem fatos críticos em raciocínios latentes profundos. O artigo propõe o AGCLR (Adaptive Gated Continuous Latent Reasoning) para resolver isso, adicionando um fluxo de conceito com portão para memória persistente.

57
RESEARCHarXiv CS.CL·1d atrás

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Falhas no raciocínio de modelos de linguagem emergem através de processos distintos que deixam assinaturas identificáveis ao nível do token. Estas falhas são caracterizadas como "falha comprometida" ou "incerteza persistente", e a compreensão destas assinaturas ajuda a distinguir resultados falhos de bem-sucedidos em diversas configurações.

40
RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Este estudo propõe um novo benchmark para avaliar a robustez do raciocínio de LLMs frente a perturbações textuais, aplicando-o ao conjunto de dados AIME 2024. Os resultados indicam que, enquanto modelos de ponta são resilientes, modelos de código aberto sofrem quedas catastróficas de precisão, expondo fragilidades estruturais no seu raciocínio.

30
RESEARCHarXiv CS.CL·6d atrás

Adaptive Latent Agentic Reasoning

Esta pesquisa apresenta o Adaptive Latent Agentic Reasoning (ALAR), uma estrutura de modo duplo desenvolvida para aumentar a eficiência de agentes LLM. O ALAR emprega raciocínio latente compacto para tarefas rotineiras e escala para o raciocínio explícito em cadeia de pensamento quando uma deliberação mais profunda é necessária, resultando em precisão de tarefa comparável ou superior com ganhos substanciais de eficiência.

29
RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta pesquisa introduz uma estrutura de ajuste fino (fine-tuning) eficiente em dados para ensinar modelos de raciocínio a realizar code-switching de forma eficaz em tarefas de raciocínio. O objetivo é identificar comportamentos de code-switching benéficos, analisando sistematicamente dados de modelos e tarefas diversas.

29
RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP é um modelo de linguagem grande multimodal introduzido para a alocação de responsabilidade em acidentes de trânsito, aprimorando o raciocínio via Multimodal Chain-of-Thought e integrando conhecimento legal através de RAG. A pesquisa também apresenta DecaTARA, um benchmark abrangente em estilo decatlo com 67.941 vídeos e 195.821 pares de perguntas e respostas.

29
RESEARCHarXiv CS.AI·5d atrás

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Este artigo argumenta que o objetivo de reduzir o desacordo em sistemas multiagentes é insuficiente para tarefas com valores, propondo uma camada de representação de conhecimento. Esta camada abstrai rastros de raciocínio e decisões em estados simbólicos de desacordo, distinguindo quatro tipos, com aplicação na moderação de conteúdo.

28
RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

28
RESEARCHarXiv CS.AI·6d atrás

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Esta pesquisa explora o uso de estruturas visuais de grafos para organizar o raciocínio em Grandes Modelos de Linguagem (LLMs), inspirando-se nos mapas mentais humanos. Experimentos em tarefas de resposta a perguntas de múltiplos passos revelam que a orientação visual por grafos melhora significativamente a eficiência do raciocínio e a qualidade das respostas em comparação com representações textuais.

28
RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

28
RESEARCHarXiv CS.LG·15d atrás

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta pesquisa propõe que o raciocínio de LLMs é um estado de decodificação dinâmico, não uma propriedade estática, observável através da dinâmica de entropia em estágios iniciais durante a geração. Tarefas que se beneficiam do Chain-of-Thought exibem uma redução consistente da entropia, interpretada como uma transição de fase para um regime de raciocínio estruturado.

28