← heapsort-ai

robustness

14 items

RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

30
RESEARCHarXiv CS.AI·hace 4d

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Este estudio investiga la estabilidad y la manipulabilidad de los jueces LLM en los procesos de evaluación, descubriendo que, aunque son estables en reevaluaciones neutrales, se vuelven reversibles bajo desafíos específicos post-decisión. La investigación demuestra que los juicios estables pueden ser anulados mediante interacción motivada.

28
ARTICLEDEV.to AI·8/4/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.CL·hace 5d

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Un estudio empírico a gran escala evalúa la robustez de las señales lingüísticas para caracterizar el texto generado por IA. El análisis muestra que los clasificadores basados únicamente en características lingüísticas distinguen de forma fiable el texto generado por IA del texto humano, destacando la riqueza léxica como un indicador robusto.

28
RESEARCHarXiv CS.LG·22/4/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Esta investigación evalúa la divergencia en el peor de los casos entre las redes neuronales originales y sus relajaciones convexas, utilizadas en sistemas de verificación para mejorar el rendimiento a costa de la solidez. El estudio proporciona límites analíticos superiores e inferiores para el error, demostrando que crece exponencialmente con la profundidad de la red y linealmente con el radio de entrada.

27
RESEARCHarXiv CS.LG·hace 29d

Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices

Este artículo demuestra la estabilidad de los resultados de la evaluación de impacto contrafactual en el contexto de la asignación de refugiados en Estados Unidos, utilizando una variedad de métodos de evaluación fuera de política. Las estimaciones de impacto se mantienen consistentes en magnitud y estadísticamente significativas, confirmando los hallazgos originales.

27
RESEARCHarXiv CS.LG·hace 17d

Double descent for least-squares interpolation on contaminated data: A simulation study

Esta investigación explora el fenómeno del "doble descenso" en modelos sobreparametrizados, que permite una mejor generalización a pesar de las preocupaciones clásicas de sobreajuste. El estudio examina específicamente este efecto en la regresión lineal con datos de entrenamiento contaminados, encontrando que una sobreparametrización significativa permite el doble descenso incluso en entornos robustos.

27
RESEARCHarXiv CS.CL·hace 7d

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Se desarrolló un nuevo marco de red teaming multidominio para evaluar la seguridad, robustez y equidad de los Grandes Modelos de Lenguaje (LLMs) médicos en 690 escenarios clínicos. La investigación reveló una varianza de rendimiento sustancial y fallas críticas en escenarios de seguridad, incluso en sistemas de alto rendimiento.

27
RESEARCHarXiv CS.AI·hace 7d

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Este artículo introduce una capa faltante en las tuberías de optimización para abordar la brecha de robustez post-solución en los motores de decisión de Programación Lineal Entera Mixta (MILP). Formaliza un vecindario factible casi óptimo de épsilon y la suavidad de la solución para evaluar la confianza en una solución hallada bajo perturbaciones de los parámetros.

27
RESEARCHarXiv CS.CL·hace 14d

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill es un marco de autodestilación basado en alineación diseñado para hacer que los Modelos de Lenguaje Grandes de Audio (ALLMs) sean robustos al ruido del mundo real. Utiliza un profesor de audio limpio para guiar a un estudiante de audio ruidoso en tiempo de inferencia, optimizando las respuestas mediante la optimización de políticas relativas a grupos y la consistencia a nivel de token.

27
RESEARCHarXiv CS.LG·8/4/2026

Learning Stable Predictors from Weak Supervision under Distribution Shift

Este artigo de pesquisa formaliza o 'supervision drift' em experimentos CRISPR-Cas13d, analisando a robustez de modelos sob shift de distribuição, inclusive quando o mecanismo de supervisão muda. Utilizando um benchmark não-IID, demonstra bom desempenho in-domain, mas falha na transferência temporal e apenas sucesso parcial na transferência entre linhagens celulares.

27
RESEARCHarXiv CS.AI·6/5/2026

Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense

El artículo introduce una arquitectura LLM mediada por herramientas para la defensa cibernética autónoma, diseñada para proporcionar garantías formales en la toma de decisiones de alto riesgo bajo presión adversaria. Certifica la controlabilidad, la observabilidad y la robustez de Estabilidad Entrada-Estado (ISS) mediante una función de Lyapunov verificada por máquina, demostrando su eficacia en gráficos de ataque empresariales reales.

27