model robustness

7 items

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Diese Forschung stellt die HALO-Loss vor, eine neuartige Methode zum Trainieren neuronaler Netze, um bei Unsicherheit keine Vorhersagen zu treffen. Sie ermöglicht es Modellen, "Ich weiß es nicht" auszudrücken, anstatt potenziell falsche Antworten zu geben, was die Zuverlässigkeit verbessert.

neural networks model robustness deep learning machine learning

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

ARTICLE↑ trendingReddit r/MachineLearning·vor 18T

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

Der Autor äußert Frustration darüber, dass die Benchmark-Leistung oft nichts darüber aussagt, ob ein KI-Workflow den Produktionseinsatz übersteht. Dies liegt an Faktoren wie mehrdeutiger Benutzerabsicht und unordentlichen realen Kontexten, was darauf hindeutet, dass die Bewertung immer noch die Optimierung sauberer Aufgaben gegenüber der Verhaltensrobustheit bevorzugt.

model robustness Benchmarking production readiness AI evaluation

RESEARCHarXiv CS.CL·4/15/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Diese Forschung schlägt ein vereinheitlichtes Black-Box-Robustheitsbewertungsrahmenwerk für Token-Level-Erklärungen vor, um das Benutzervertrauen in Unternehmens-NLP-Systeme zu verbessern, insbesondere bei der Migration zu LLMs. Es operationalisiert Robustheit über die Top-Token-Flip-Rate unter realistischen Störungen und führt einen systematischen Vergleich über verschiedene Encoder- und Decoder-Architekturen wie BERT, RoBERTa, Qwen und Llama durch.

model robustness Explainable AI (XAI)User Trust Large Language Models (LLMs)

RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Diese Arbeit argumentiert, dass die beobachteten Effekte von "kontrafaktuellem Prompting" in LLMs nicht einem gezielten Faktor zugeschrieben werden können, ohne bedeutungserhaltende Textmodifikationen zu berücksichtigen, die die allgemeine Modellsensitivität festlegen. Die Forschung zeigt, dass die Vorhersageumkehrraten beim chirurgischen Ändern des Patientengeschlechts statistisch nicht von den durch einfaches Paraphrasieren der Eingaben induzierten Raten unterscheidbar sind, was darauf hindeutet, dass keine besondere Sensitivität gegenüber dem Patientengeschlecht geschlossen werden kann.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·4/27/2026

Source-Modality Monitoring in Vision-Language Models

Diese Forschung definiert und untersucht die Quellmodalitätsüberwachung in Vision-Language Models (VLMs), also die Fähigkeit, die Herkunft von Informationen zu verfolgen. Die Studie zeigt, dass VLMs sowohl syntaktische als auch semantische Signale nutzen, um Informationen ihrer Eingabequelle zuzuordnen, wobei semantische Signale oft überwiegen und Implikationen für die Modellrobustheit haben.

model robustness multimodal AI Vision-Language Models

RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

language models model robustness Fine-tuning Adversarial Training

ARTICLEDEV.to AI·vor 7T

How a Scanned PDF Broke My Invoice Agent in Production

Ein KI-Rechnungsextraktionsagent versagte in der Produktion, indem er Beträge und Daten aus gescannten PDFs falsch interpretierte. Der Agent zeigte trotz verschlechterter Eingabedaten hohe Konfidenz, was ein kritisches Robustheitsproblem in einem realen Szenario aufdeckte.

model robustness invoice automation OCR Data Quality