Reasoning

57 items

RESEARCHarXiv CS.AI·19h atrás

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Modelos de linguagem grandes (LLMs) enfrentam uma limitação chamada 'gargalo de conceito', onde perdem fatos críticos em raciocínios latentes profundos. O artigo propõe o AGCLR (Adaptive Gated Continuous Latent Reasoning) para resolver isso, adicionando um fluxo de conceito com portão para memória persistente.

machine learning Latent Reasoning Reasoning AI Research

NEWS↑ trendingReddit r/LocalLLaMA·08/04/2026

Meta new reasoning model Muse Spark

O conteúdo anuncia o lançamento do Muse Spark, um novo modelo de raciocínio de IA desenvolvido pela Meta. Este modelo promete avançar as capacidades de raciocínio em inteligência artificial.

Muse Spark Reasoning AI model Meta

RESEARCHarXiv CS.CL·1d atrás

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Falhas no raciocínio de modelos de linguagem emergem através de processos distintos que deixam assinaturas identificáveis ao nível do token. Estas falhas são caracterizadas como "falha comprometida" ou "incerteza persistente", e a compreensão destas assinaturas ajuda a distinguir resultados falhos de bem-sucedidos em diversas configurações.

language models research Reasoning AI failures

RESEARCHDEV.to AI·14d atrás

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Uma pesquisa da Meta, Stanford e Illinois sugere que agentes de IA funcionam melhor quando o código serve como sua principal camada de trabalho, um conceito chamado "agent harness". Essa abordagem muda o foco da IA de mera previsão de texto para raciocínio executável, melhorando sua capacidade de lidar com tarefas complexas e minimizar erros.

agent harness LLMs code Reasoning

RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Este estudo propõe um novo benchmark para avaliar a robustez do raciocínio de LLMs frente a perturbações textuais, aplicando-o ao conjunto de dados AIME 2024. Os resultados indicam que, enquanto modelos de ponta são resilientes, modelos de código aberto sofrem quedas catastróficas de precisão, expondo fragilidades estruturais no seu raciocínio.

robustness LLMs Model Evaluation Reasoning

RESEARCHarXiv CS.CL·6d atrás

Adaptive Latent Agentic Reasoning

Esta pesquisa apresenta o Adaptive Latent Agentic Reasoning (ALAR), uma estrutura de modo duplo desenvolvida para aumentar a eficiência de agentes LLM. O ALAR emprega raciocínio latente compacto para tarefas rotineiras e escala para o raciocínio explícito em cadeia de pensamento quando uma deliberação mais profunda é necessária, resultando em precisão de tarefa comparável ou superior com ganhos substanciais de eficiência.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.CL·20/04/2026

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Esta pesquisa introduz uma estrutura de ajuste fino (fine-tuning) eficiente em dados para ensinar modelos de raciocínio a realizar code-switching de forma eficaz em tarefas de raciocínio. O objetivo é identificar comportamentos de code-switching benéficos, analisando sistematicamente dados de modelos e tarefas diversas.

Multilingual AI Code-Switching Reasoning large language models

RESEARCHDEV.to AI·22/04/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, um novo benchmark da IBM Research, revela que agentes de IA falham de maneiras previsíveis e estruturais, mapeando pontos de falha entre raciocínio, seleção de ferramentas e execução. Ele decompõe a falha do agente em seis categorias específicas, indo além das avaliações binárias tradicionais para descobrir fraquezas comuns.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.CL·24/04/2026

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

AITP é um modelo de linguagem grande multimodal introduzido para a alocação de responsabilidade em acidentes de trânsito, aprimorando o raciocínio via Multimodal Chain-of-Thought e integrando conhecimento legal através de RAG. A pesquisa também apresenta DecaTARA, um benchmark abrangente em estilo decatlo com 67.941 vídeos e 195.821 pares de perguntas e respostas.

multimodal AI Reasoning Benchmarks large language models

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O O1-Pruner introduz um método de ajuste fino (fine-tuning) que harmoniza o comprimento para aprimorar a capacidade de raciocínio através da poda de modelos. Essa técnica visa otimizar modelos para tarefas de raciocínio específicas do tipo O1.

Pruning Reasoning Fine-tuning model optimization

RESEARCHarXiv CS.AI·5d atrás

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Este artigo argumenta que o objetivo de reduzir o desacordo em sistemas multiagentes é insuficiente para tarefas com valores, propondo uma camada de representação de conhecimento. Esta camada abstrai rastros de raciocínio e decisões em estados simbólicos de desacordo, distinguindo quatro tipos, com aplicação na moderação de conteúdo.

Disagreement Knowledge Representation Reasoning content moderation

RESEARCHarXiv CS.CL·09/04/2026

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theory LLMs machine learning Reasoning

RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta pesquisa contesta a suposição de que o raciocínio com ferramentas sempre melhora o desempenho dos LLMs, revelando uma "taxa de uso de ferramenta" onde o protocolo de chamada de ferramenta pode degradar o desempenho. Um novo framework é proposto para analisar essa lacuna, e G-STEP é introduzido para mitigar erros induzidos pelo protocolo.

LLM Agents Reasoning AI performance tool use

RESEARCHarXiv CS.CL·19d atrás

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Modelos de linguagem grandes enfrentam dificuldades em tarefas de raciocínio de contexto longo, apesar de suportarem muitas entradas. ProxyCoT é uma nova estrutura de treinamento que transfere as capacidades de raciocínio de contextos proxy curtos para contextos longos completos, superando as linhas de base existentes.

machine learning natural language processing Reasoning large language models

RESEARCHarXiv CS.AI·6d atrás

Visual Graph Scaffolds for Structural Reasoning in Large Language Models

Esta pesquisa explora o uso de estruturas visuais de grafos para organizar o raciocínio em Grandes Modelos de Linguagem (LLMs), inspirando-se nos mapas mentais humanos. Experimentos em tarefas de resposta a perguntas de múltiplos passos revelam que a orientação visual por grafos melhora significativamente a eficiência do raciocínio e a qualidade das respostas em comparação com representações textuais.

LLMs Graph Structures Reasoning artificial intelligence

RESEARCHarXiv CS.CL·10/04/2026

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Este artigo propõe uma estrutura de refinamento baseada em raciocínio que utiliza LLMs como juízes semânticos para validar e reestruturar os resultados de algoritmos de agrupamento de texto não supervisionados. A estrutura inclui verificação de coerência, adjudicação de redundância e fundamentação de rótulos, visando melhorar a qualidade dos clusters sem dados rotulados.

LLMs Text Clustering Reasoning semantic analysis

RESEARCHarXiv CS.LG·15d atrás

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Esta pesquisa propõe que o raciocínio de LLMs é um estado de decodificação dinâmico, não uma propriedade estática, observável através da dinâmica de entropia em estágios iniciais durante a geração. Tarefas que se beneficiam do Chain-of-Thought exibem uma redução consistente da entropia, interpretada como uma transição de fase para um regime de raciocínio estruturado.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.AI·06/04/2026

Compositional Neuro-Symbolic Reasoning

O título refere-se à pesquisa sobre raciocínio neuro-simbólico composicional, uma área avançada da inteligência artificial. Este campo explora a integração de redes neurais com sistemas simbólicos para permitir raciocínio mais robusto e estruturado.

Compositionality Reasoning Neuro-symbolic AI

RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Este artigo investiga como a Previsão Multi-Token (MTP) permite que os Transformers aprendam a planejar, superando a Previsão de Próximo Token (NTP). Empiricamente, a MTP melhora o desempenho em tarefas de raciocínio e, teoricamente, induz um processo de raciocínio reverso de duas etapas através do desacoplamento de gradientes.

Next-token prediction Planning Multi-Token Prediction Reasoning

ARTICLEGoogle for Developers (YouTube)·19d atrás

Building agents with real-world reasoning

Este conteúdo explora as metodologias e desafios envolvidos no desenvolvimento de agentes de IA capazes de raciocínio robusto no mundo real. Ele investiga as técnicas necessárias para permitir que os agentes interajam eficazmente com ambientes complexos e dinâmicos.

agent development Reasoning real-world AI AI agents

Building agents with real-world reasoning