← heapsort-ai

GRPO

2 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

L'auteur a réussi à entraîner un modèle Qwen2.5-0.5B-Instruct pour la summarisation de posts Reddit en utilisant GRPO, atteignant une longueur moyenne de 64 tokens avec des récompenses de qualité et de pénalité de longueur. L'expérience, exécutée sur un cluster de Mac Minis, utilise un "LLM-as-a-Judge" (GPT-5) pour l'évaluation et prévoit de futures itérations avec des fonctions de récompense ajustées.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·il y a 4j

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Cette recherche étudie l'amélioration de la réponse aux questions médicales axées sur le cœur dans les grands modèles linguistiques (LLM) à l'aide de l'optimisation de la politique relative de groupe (GRPO) pour le post-apprentissage. Un cadre de récompense sensible à la variance est proposé pour améliorer la supervision basée sur des rubriques avec des fonctions de récompense analytiques continues.

30