← heapsort-ai

Large Language Models (LLMs)

3 items

RESEARCHarXiv CS.CL·15/4/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Esta investigación propone un marco unificado de evaluación de la robustez de caja negra para explicaciones a nivel de token, con el fin de mejorar la confianza del usuario en los sistemas NLP empresariales, especialmente al migrar a LLMs. El estudio operacionaliza la robustez mediante la tasa de cambio de tokens principales bajo perturbaciones realistas, comparando arquitecturas de codificador y decodificador como BERT, RoBERTa, Qwen y Llama.

28
RESEARCHarXiv CS.CL·27/4/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.

27