← heapsort-ai

model robustness

7 items

ARTICLE↑ trendingReddit r/MachineLearning·vor 18T

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

Der Autor äußert Frustration darüber, dass die Benchmark-Leistung oft nichts darüber aussagt, ob ein KI-Workflow den Produktionseinsatz übersteht. Dies liegt an Faktoren wie mehrdeutiger Benutzerabsicht und unordentlichen realen Kontexten, was darauf hindeutet, dass die Bewertung immer noch die Optimierung sauberer Aufgaben gegenüber der Verhaltensrobustheit bevorzugt.

41
RESEARCHarXiv CS.CL·4/15/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Diese Forschung schlägt ein vereinheitlichtes Black-Box-Robustheitsbewertungsrahmenwerk für Token-Level-Erklärungen vor, um das Benutzervertrauen in Unternehmens-NLP-Systeme zu verbessern, insbesondere bei der Migration zu LLMs. Es operationalisiert Robustheit über die Top-Token-Flip-Rate unter realistischen Störungen und führt einen systematischen Vergleich über verschiedene Encoder- und Decoder-Architekturen wie BERT, RoBERTa, Qwen und Llama durch.

28
RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Diese Arbeit argumentiert, dass die beobachteten Effekte von "kontrafaktuellem Prompting" in LLMs nicht einem gezielten Faktor zugeschrieben werden können, ohne bedeutungserhaltende Textmodifikationen zu berücksichtigen, die die allgemeine Modellsensitivität festlegen. Die Forschung zeigt, dass die Vorhersageumkehrraten beim chirurgischen Ändern des Patientengeschlechts statistisch nicht von den durch einfaches Paraphrasieren der Eingaben induzierten Raten unterscheidbar sind, was darauf hindeutet, dass keine besondere Sensitivität gegenüber dem Patientengeschlecht geschlossen werden kann.

27
RESEARCHarXiv CS.CL·4/27/2026

Source-Modality Monitoring in Vision-Language Models

Diese Forschung definiert und untersucht die Quellmodalitätsüberwachung in Vision-Language Models (VLMs), also die Fähigkeit, die Herkunft von Informationen zu verfolgen. Die Studie zeigt, dass VLMs sowohl syntaktische als auch semantische Signale nutzen, um Informationen ihrer Eingabequelle zuzuordnen, wobei semantische Signale oft überwiegen und Implikationen für die Modellrobustheit haben.

27
RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

27