← heapsort-ai

Large Language Models (LLMs)

3 items

RESEARCHarXiv CS.CL·15/04/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Esta pesquisa propõe uma estrutura unificada de avaliação de robustez de caixa-preta para explicações em nível de token, visando aumentar a confiança do usuário em sistemas NLP empresariais, especialmente com a migração para LLMs. O estudo operacionaliza a robustez usando a taxa de inversão de tokens principais sob perturbações realistas e compara arquiteturas de codificador e decodificador como BERT, RoBERTa, Qwen e Llama.

28
RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artigo investiga se as recompensas de resultado no aprendizado por reforço para cadeias de raciocínio garantem raciocínio verificável ou causalmente importante em LLMs. Os autores introduzem as métricas Causal Importance of Reasoning (CIR) e Sufficiency of Reasoning (SR), descobrindo que, embora o RLVR melhore a precisão, ele não melhora consistentemente o CIR ou SR, e um pequeno ajuste de SFT pode ser um remédio.

27