RESEARCH27
Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance
arXiv CS.AI·20 mai 2026
Ce document de position préconise le développement de méthodologies systématiques pour générer des séquences synthétiques, appelées 'sondes de données', afin de comprendre fondamentalement comment les caractéristiques des données affectent les performances des LLM à différentes étapes. L'objectif est de dépasser les approches empiriques actuelles, gourmandes en calcul, en offrant un moyen fondé sur des principes pour appréhender le comportement des modèles.
Lire l'original ↗