← heapsort-ai

model robustness

7 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]

Cette recherche introduit la HALO-Loss, une méthode innovante pour entraîner les réseaux neuronaux à s'abstenir de faire des prédictions lorsqu'ils sont incertains. Elle permet aux modèles d'exprimer "Je ne sais pas" plutôt que de fournir des réponses potentiellement incorrectes, améliorant ainsi la fiabilité.

"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]
42
ARTICLE↑ trendingReddit r/MachineLearning·il y a 18j

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

L'auteur exprime sa frustration que les performances des benchmarks ne prédisent souvent pas si un flux de travail d'IA survivra à une utilisation en production. Cela est dû à des facteurs tels que l'intention ambiguë de l'utilisateur et des contextes désordonnés, suggérant que l'évaluation privilégie toujours l'optimisation des tâches propres plutôt que la robustesse comportementale.

41
RESEARCHarXiv CS.CL·15/04/2026

Robust Explanations for User Trust in Enterprise NLP Systems

Cette recherche propose un cadre unifié d'évaluation de la robustesse en boîte noire pour les explications au niveau des jetons, visant à renforcer la confiance des utilisateurs dans les systèmes PNL d'entreprise, notamment lors de la migration vers les LLM. Elle opérationnalise la robustesse par le taux de basculement des jetons supérieurs sous des perturbations réalistes, comparant les architectures d'encodeur et de décodeur telles que BERT, RoBERTa, Qwen et Llama.

28
RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Ce travail soutient que les effets observés du "prompting contrefactuel" dans les LLM ne peuvent être attribués à un facteur ciblé sans tenir compte des modifications de texte préservant le sens qui établissent la sensibilité générale du modèle. La recherche montre que les taux d'inversion de prédiction lors du changement chirurgical du sexe du patient sont statistiquement indiscernables des taux induits par de simples paraphrases, suggérant qu'une sensibilité particulière au sexe du patient ne peut être conclue.

27
RESEARCHarXiv CS.CL·27/04/2026

Source-Modality Monitoring in Vision-Language Models

Cette étude définit et examine la surveillance de la modalité source dans les modèles de vision-langage (VLMs), soit leur capacité à suivre l'origine de l'information. Les recherches montrent que les VLMs utilisent des signaux syntaxiques et sémantiques pour associer des informations à leur source, les signaux sémantiques prédominant souvent, ce qui a des implications pour la robustesse des modèles.

27
RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

27