← heapsort-ai

self-correction

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Ein Experiment zeigte, dass ein kleines KI-Modell sich selbst zum Programmieren trainieren kann, indem es Probleme erfindet, sie löst und sich anhand eigener Korrekturen feinabstimmt. Das Modell erreichte 80% bei HumanEval und übertraf GPT-3.5 in Mathematik, wobei nur ein Python-Interpreter als Richter diente.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
RESEARCHarXiv CS.AI·4/27/2026

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Diese Forschung betrachtet die LLM-Selbstkorrektur als kybernetische Rückkopplungsschleife und verwendet ein Zwei-Zustands-Markov-Modell, um zu bestimmen, wann iterative Verfeinerung hilft oder schadet. Sie identifiziert einen kritischen EIR-Schwellenwert (<= 0,5%), der vorteilhafte von schädlicher Selbstkorrektur trennt, und zeigt, dass nur wenige Modelle profitieren, während andere wie GPT-5 sich verschlechtern.

27