heapsort
RESEARCH27

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

arXiv CS.LG·22 de abril de 2026

Esta investigación introduce EasyRL, un nuevo enfoque de aprendizaje por refuerzo eficiente en datos para LLMs autoevolutivos, diseñado para superar los altos costos de anotación y problemas de rendimiento en métodos existentes. Inspirado en la teoría del aprendizaje cognitivo, EasyRL integra la transferencia de conocimiento de datos etiquetados fáciles con una estrategia progresiva de dividir y conquistar para datos no etiquetados difíciles.

Leer original