RESEARCH27
Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning
arXiv CS.LG·22. April 2026
Diese Forschung stellt EasyRL vor, einen neuartigen, dateneffizienten Reinforcement-Learning-Ansatz für selbstentwickelnde LLMs, der hohe Annotationskosten und Leistungsprobleme bestehender Methoden überwinden soll. Inspiriert von der kognitiven Lerntheorie, integriert EasyRL den Wissenstransfer von einfach gelabelten Daten mit einer progressiven Divide-and-Conquer-Strategie für zunehmend schwierigere ungelabelte Daten.
Original lesen ↗