RESEARCH27

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

arXiv CS.LG·22 avril 2026

Cette recherche présente EasyRL, une nouvelle approche d'apprentissage par renforcement économe en données pour les LLMs auto-évolutifs, conçue pour surmonter les coûts d'annotation élevés et les problèmes de performance des méthodes existantes. Inspiré par la théorie de l'apprentissage cognitif, EasyRL intègre le transfert de connaissances de données étiquetées faciles avec une stratégie progressive de diviser pour régner pour les données non étiquetées difficiles.

Data efficiency reinforcement learning machine learning LLM

Lire l'original ↗