← heapsort-ai

GRPO

2 items

RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

El autor logró un éxito inicial entrenando un modelo Qwen2.5-0.5B-Instruct para la sumarización de publicaciones de Reddit utilizando GRPO, obteniendo una longitud de despliegue promedio de 64 tokens con recompensas de calidad y penalización de longitud. El experimento, ejecutado en un clúster de Mac Minis, emplea un "LLM-as-a-Judge" (GPT-5) para la evaluación y planea futuras iteraciones con funciones de recompensa ajustadas.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·hace 4d

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta investigación explora la mejora de la respuesta a preguntas médicas centradas en el corazón en Modelos de Lenguaje Grandes (LLMs) utilizando la Optimización de Política Relativa de Grupo (GRPO) para el post-entrenamiento. Se propone un Marco de Recompensa Consciente de la Varianza que mejora la supervisión basada en rúbricas con funciones de recompensa analíticas continuas.

30