← heapsort-ai

robustness

14 items

RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

30
RESEARCHarXiv CS.AI·il y a 4j

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Cette étude examine la stabilité et la manipulabilité des juges LLM dans les pipelines d'évaluation, révélant que bien qu'ils soient stables lors de réévaluations neutres, ils deviennent réversibles sous un défi post-décision ciblé. La recherche démontre que les jugements stables peuvent être annulés par une interaction motivée.

28
ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.CL·il y a 5j

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Une étude empirique à grande échelle évalue la robustesse des signaux linguistiques pour caractériser le texte généré par l'IA. L'analyse montre que les classificateurs basés uniquement sur des caractéristiques linguistiques distinguent de manière fiable le texte généré par l'IA du texte humain, soulignant la richesse lexicale comme un indicateur robuste.

28
RESEARCHarXiv CS.LG·22/04/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Cette recherche évalue la divergence dans le pire des cas entre les réseaux neuronaux originaux et leurs relaxations convexes, utilisées dans les systèmes de vérification pour améliorer les performances au détriment de la complétude. L'étude fournit des bornes analytiques supérieures et inférieures pour l'erreur, montrant qu'elle croît exponentiellement avec la profondeur du réseau et linéairement avec le rayon de l'entrée.

27
RESEARCHarXiv CS.LG·il y a 29j

Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices

Cet article démontre la stabilité des résultats d'évaluation d'impact contrefactuel dans le contexte de l'appariement des réfugiés aux États-Unis, en utilisant une gamme de méthodes d'évaluation hors politique. Les estimations d'impact restent cohérentes en ampleur et statistiquement significatives, confirmant les résultats originaux.

27
RESEARCHarXiv CS.LG·il y a 17j

Double descent for least-squares interpolation on contaminated data: A simulation study

Cette recherche examine le phénomène de la "double descente" dans les modèles surparamétrés, ce qui permet une meilleure généralisation malgré les préoccupations classiques de surapprentissage. L'étude explore spécifiquement cet effet dans la régression linéaire avec des données d'entraînement contaminées, constatant qu'une surparamétrisation importante permet la double descente même dans des contextes robustes.

27
RESEARCHarXiv CS.CL·il y a 7j

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Un nouveau cadre de "red teaming" multi-domaine a été développé pour évaluer la sécurité, la robustesse et l'équité des grands modèles linguistiques (LLM) médicaux sur 690 scénarios cliniques. La recherche a révélé une variance de performance substantielle et des défaillances critiques dans des scénarios de sécurité, même pour les systèmes très performants.

27
RESEARCHarXiv CS.AI·il y a 7j

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Cet article propose une couche manquante dans les pipelines d'optimisation pour combler l'écart de robustesse post-résolution dans les moteurs de décision de programmation linéaire en nombres entiers mixtes (MILP). Il formalise un voisinage faisable quasi-optimal en epsilon et la régularité de la solution pour évaluer la fiabilité d'une solution existante face aux perturbations des paramètres.

27
RESEARCHarXiv CS.CL·il y a 14j

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill est un cadre d'autodistillation basé sur l'alignement, conçu pour rendre les Grands Modèles de Langage Audio (ALLMs) robustes au bruit du monde réel. Il utilise un enseignant audio propre pour guider un élève audio bruyant lors de l'inférence, optimisant les réponses via l'optimisation de la politique relative au groupe et la cohérence au niveau du jeton.

27
RESEARCHarXiv CS.LG·08/04/2026

Learning Stable Predictors from Weak Supervision under Distribution Shift

Este artigo de pesquisa formaliza o 'supervision drift' em experimentos CRISPR-Cas13d, analisando a robustez de modelos sob shift de distribuição, inclusive quando o mecanismo de supervisão muda. Utilizando um benchmark não-IID, demonstra bom desempenho in-domain, mas falha na transferência temporal e apenas sucesso parcial na transferência entre linhagens celulares.

27
RESEARCHarXiv CS.AI·06/05/2026

Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense

L'article présente une architecture LLM médiatisée par des outils pour la cyberdéfense autonome, conçue pour offrir des garanties formelles dans la prise de décision à enjeux élevés sous pression adversaire. Il certifie la contrôlabilité, l'observabilité et la robustesse de Stabilité d'Entrée-État (ISS) via une fonction de Lyapunov vérifiée par machine, démontrant son efficacité sur des graphes d'attaque d'entreprise réels.

27