heapsort
RESEARCH27

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

arXiv CS.LG·22. April 2026

Diese Forschung stellt EasyRL vor, einen neuartigen, dateneffizienten Reinforcement-Learning-Ansatz für selbstentwickelnde LLMs, der hohe Annotationskosten und Leistungsprobleme bestehender Methoden überwinden soll. Inspiriert von der kognitiven Lerntheorie, integriert EasyRL den Wissenstransfer von einfach gelabelten Daten mit einer progressiven Divide-and-Conquer-Strategie für zunehmend schwierigere ungelabelte Daten.

Original lesen