RESEARCH27
Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning
arXiv CS.LG·22 avril 2026
Cette recherche présente EasyRL, une nouvelle approche d'apprentissage par renforcement économe en données pour les LLMs auto-évolutifs, conçue pour surmonter les coûts d'annotation élevés et les problèmes de performance des méthodes existantes. Inspiré par la théorie de l'apprentissage cognitif, EasyRL intègre le transfert de connaissances de données étiquetées faciles avec une stratégie progressive de diviser pour régner pour les données non étiquetées difficiles.
Lire l'original ↗