heapsort
RESEARCH27

Position: Let's Develop Data Probes to Fundamentally Understand How Data Affects LLM Performance

arXiv CS.AI·20 mai 2026

Ce document de position préconise le développement de méthodologies systématiques pour générer des séquences synthétiques, appelées 'sondes de données', afin de comprendre fondamentalement comment les caractéristiques des données affectent les performances des LLM à différentes étapes. L'objectif est de dépasser les approches empiriques actuelles, gourmandes en calcul, en offrant un moyen fondé sur des principes pour appréhender le comportement des modèles.

Lire l'original