← heapsort-ai

self-correction

3 items

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 26d

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Un experimento demostró que un pequeño modelo de IA puede entrenarse a sí mismo para programar, inventando problemas, resolviéndolos y afinando sus propias correcciones. El modelo alcanzó el 80% en HumanEval y superó a GPT-3.5 en matemáticas, utilizando solo un intérprete de Python como juez.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
RESEARCHarXiv CS.AI·27/4/2026

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Esta investigación enmarca la autocorrección de LLMs como un ciclo de retroalimentación cibernética, utilizando un modelo de Markov de dos estados para determinar cuándo el refinamiento iterativo ayuda o perjudica. Identifica un umbral crítico de EIR (<= 0,5%) que separa la autocorrección beneficiosa de la perjudicial, mostrando que solo algunos modelos mejoran, mientras que otros como GPT-5 se degradan.

27