model robustness

7 items

RESEARCH↑ trendingReddit r/MachineLearning·14/4/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Esta investigación presenta la HALO-Loss, un método novedoso para entrenar redes neuronales para abstenerse de hacer predicciones cuando no están seguras. Permite que los modelos expresen "No lo sé" en lugar de dar respuestas potencialmente incorrectas, mejorando la fiabilidad.

neural networks model robustness deep learning machine learning

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

ARTICLE↑ trendingReddit r/MachineLearning·hace 18d

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

El autor expresa frustración porque el rendimiento de los benchmarks a menudo no predice si un flujo de trabajo de IA sobrevivirá al uso en producción. Esto se debe a factores como la intención ambigua del usuario y contextos desordenados, lo que sugiere que la evaluación aún prioriza la optimización de tareas limpias en lugar de la robustez conductual.

model robustness Benchmarking production readiness AI evaluation

RESEARCHarXiv CS.CL·15/4/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Esta investigación propone un marco unificado de evaluación de la robustez de caja negra para explicaciones a nivel de token, con el fin de mejorar la confianza del usuario en los sistemas NLP empresariales, especialmente al migrar a LLMs. El estudio operacionaliza la robustez mediante la tasa de cambio de tokens principales bajo perturbaciones realistas, comparando arquitecturas de codificador y decodificador como BERT, RoBERTa, Qwen y Llama.

model robustness Explainable AI (XAI)User Trust Large Language Models (LLMs)

RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·27/4/2026

Source-Modality Monitoring in Vision-Language Models

Esta investigación define y explora el monitoreo de modalidad de origen en modelos de visión-lenguaje (VLMs), que es la capacidad de rastrear la fuente de la información. El estudio revela que los VLMs usan señales sintácticas y semánticas para vincular información a su origen, siendo las señales semánticas a menudo más influyentes, lo que tiene implicaciones para la robustez del modelo.

model robustness multimodal AI Vision-Language Models

RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

language models model robustness Fine-tuning Adversarial Training

ARTICLEDEV.to AI·hace 7d

How a Scanned PDF Broke My Invoice Agent in Production

Un agente de extracción de facturas con IA falló en producción, interpretando erróneamente montos y fechas de PDFs escaneados. El agente mostró alta confianza a pesar de la entrada degradada, revelando un problema crítico de robustez en un escenario del mundo real.

model robustness invoice automation OCR Data Quality