RESEARCH28
Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning
arXiv CS.CL·21 de abril de 2026
Este trabajo introduce un marco de co-entrenamiento recíproco que acopla un LLM con un clasificador Random Forest mediante aprendizaje por refuerzo. Crea un bucle de retroalimentación iterativo en el que cada modelo mejora utilizando señales del otro, demostrando ganancias de rendimiento consistentes en conjuntos de datos médicos.
Leer original ↗