heapsort
RESEARCH27

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

arXiv CS.LG·22 de abril de 2026

Esta pesquisa apresenta o EasyRL, uma nova abordagem de aprendizado por reforço eficiente em dados para LLMs auto-evolutivos, visando superar altos custos de anotação e problemas de desempenho em métodos existentes. Inspirado na teoria da aprendizagem cognitiva, o EasyRL integra transferência de conhecimento de dados rotulados fáceis com uma estratégia progressiva de dividir e conquistar para dados não rotulados difíceis.

Ler original