← heapsort-ai

robustness

14 items

RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

30
RESEARCHarXiv CS.AI·vor 4T

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Diese Studie untersucht die Stabilität und Manipulierbarkeit von LLM-Juroren in Bewertungs-Pipelines und stellt fest, dass sie zwar bei neutraler Neubewertung stabil sind, aber unter gezielter Herausforderung nach der Entscheidung reversibel werden. Die Forschung zeigt, dass stabile Urteile durch motivierte Interaktion aufgehoben werden können.

28
ARTICLEDEV.to AI·4/8/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.CL·vor 5T

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Eine groß angelegte empirische Studie bewertet die Robustheit sprachlicher Signale zur Charakterisierung von KI-generiertem Text. Die Analyse zeigt, dass Klassifikatoren, die ausschließlich auf sprachlichen Merkmalen basieren, KI-generierten Text zuverlässig von menschlich verfasstem Text unterscheiden, wobei lexikalische Vielfalt ein robustes Signal darstellt.

28
RESEARCHarXiv CS.LG·4/22/2026

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Diese Forschung bewertet die Worst-Case-Divergenz zwischen ursprünglichen neuronalen Netzen und ihren konvexen Relaxationen, die in Verifikationssystemen zur Leistungssteigerung auf Kosten der Gültigkeit eingesetzt werden. Die Studie liefert analytische obere und untere Schranken für den Fehler, der exponentiell mit der Netzwerktiefe und linear mit dem Eingaberadius wächst.

27
RESEARCHarXiv CS.LG·vor 17T

Double descent for least-squares interpolation on contaminated data: A simulation study

Diese Forschung untersucht das Phänomen des "doppelten Abstiegs" in überparametrisierten Modellen, das trotz klassischer Overfitting-Bedenken eine verbesserte Generalisierung ermöglicht. Die Studie erforscht diesen Effekt speziell in der linearen Regression mit kontaminierten Trainingsdaten und stellt fest, dass eine starke Überparametrisierung den doppelten Abstieg auch in robusten Umgebungen ermöglicht.

27
RESEARCHarXiv CS.CL·vor 7T

A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models

Ein neues Multi-Domain-Red-Teaming-Framework wurde entwickelt, um die Sicherheit, Robustheit und Fairness medizinischer großer Sprachmodelle (LLMs) in 690 klinisch fundierten Szenarien zu bewerten. Die Studie zeigte erhebliche Leistungsschwankungen und kritische Ausfälle in sicherheitsrelevanten Szenarien, selbst bei hochleistenden Systemen.

27
RESEARCHarXiv CS.AI·vor 7T

Position Paper: Post-Solve Robustness in Decision Engines: Feasible Regions and Smoothness Under Perturbations

Dieses Papier führt eine fehlende Schicht in Optimierungspipelines ein, um die Robustheitslücke nach der Lösung in gemischt-ganzzahligen linearen Programmierungs-Entscheidungsmaschinen (MILP) zu adressieren. Es formalisiert eine Epsilon-nahe-optimale zulässige Nachbarschaft und die Glattheit der Lösung, um zu bewerten, wie weit einer gefundenen Lösung unter Parameterstörungen vertraut werden kann.

27
RESEARCHarXiv CS.CL·vor 14T

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill ist ein ausrichtungsbasiertes Selbst-Destillations-Framework, das Audio Large Language Models (ALLMs) robust gegenüber realem Rauschen macht. Es nutzt einen sauberen Audio-Lehrer, um einen lauten Audio-Schüler während der Inferenz anzuleiten und Antworten durch gruppenrelative Richtlinienoptimierung sowie Token-Level-Konsistenz zu optimieren.

27
RESEARCHarXiv CS.LG·4/8/2026

Learning Stable Predictors from Weak Supervision under Distribution Shift

Este artigo de pesquisa formaliza o 'supervision drift' em experimentos CRISPR-Cas13d, analisando a robustez de modelos sob shift de distribuição, inclusive quando o mecanismo de supervisão muda. Utilizando um benchmark não-IID, demonstra bom desempenho in-domain, mas falha na transferência temporal e apenas sucesso parcial na transferência entre linhagens celulares.

27
RESEARCHarXiv CS.AI·5/6/2026

Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense

Der Artikel stellt eine werkzeuggestützte LLM-Architektur für die autonome Cyberabwehr vor, die formale Garantien für hochriskante Entscheidungen unter adversarem Druck bieten soll. Er zertifiziert Steuerbarkeit, Beobachtbarkeit und Eingangs-zu-Zustands-Stabilitäts (ISS)-Robustheit durch eine maschinengeprüfte Lyapunov-Funktion und demonstriert deren Wirksamkeit bei realen Unternehmensangriffsgraphen.

27