← heapsort-ai

model robustness

7 items

ARTICLE↑ trendingReddit r/MachineLearning·hace 18d

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

El autor expresa frustración porque el rendimiento de los benchmarks a menudo no predice si un flujo de trabajo de IA sobrevivirá al uso en producción. Esto se debe a factores como la intención ambigua del usuario y contextos desordenados, lo que sugiere que la evaluación aún prioriza la optimización de tareas limpias en lugar de la robustez conductual.

41
RESEARCHarXiv CS.CL·15/4/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Esta investigación propone un marco unificado de evaluación de la robustez de caja negra para explicaciones a nivel de token, con el fin de mejorar la confianza del usuario en los sistemas NLP empresariales, especialmente al migrar a LLMs. El estudio operacionaliza la robustez mediante la tasa de cambio de tokens principales bajo perturbaciones realistas, comparando arquitecturas de codificador y decodificador como BERT, RoBERTa, Qwen y Llama.

28
RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

27
RESEARCHarXiv CS.CL·27/4/2026

Source-Modality Monitoring in Vision-Language Models

Esta investigación define y explora el monitoreo de modalidad de origen en modelos de visión-lenguaje (VLMs), que es la capacidad de rastrear la fuente de la información. El estudio revela que los VLMs usan señales sintácticas y semánticas para vincular información a su origen, siendo las señales semánticas a menudo más influyentes, lo que tiene implicaciones para la robustez del modelo.

27
RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

27