RESEARCH28
Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning
arXiv CS.CL·21 de abril de 2026
Este trabalho apresenta uma estrutura de co-treinamento recíproco que acopla um LLM a um classificador Random Forest via aprendizado por reforço. O sistema cria um loop de feedback iterativo onde cada modelo melhora usando sinais do outro, demonstrando ganhos de desempenho consistentes em conjuntos de dados médicos.
Ler original ↗