← heapsort-ai

self-correction

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Une expérience a montré qu'un petit modèle d'IA peut s'entraîner à coder en inventant des problèmes, en les résolvant et en s'affinant sur ses propres corrections. Le modèle a atteint 80% sur HumanEval et a surpassé GPT-3.5 en mathématiques, en utilisant seulement un interpréteur Python comme juge.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
RESEARCHarXiv CS.AI·27/04/2026

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Cette recherche encadre l'autocorrection des LLM comme une boucle de rétroaction cybernétique, utilisant un modèle de Markov à deux états pour déterminer quand l'affinement itératif est bénéfique ou nuisible. Elle identifie un seuil critique d'EIR (<= 0,5%) séparant l'autocorrection bénéfique de la nuisible, montrant que seuls quelques modèles s'améliorent, tandis que d'autres comme GPT-5 se dégradent.

27