RESEARCH27
How Far Can a Small Coding Model Go With a Better Harness?
DEV.to AI·20 de mayo de 2026
El artículo explora el rendimiento de un modelo de codificación pequeño (GPT-5.1-Codex-Mini) en Terminal-Bench 2.0, logrando un 61,6% al optimizar su "arnés" en lugar de cambiar a un modelo más grande. Esto subraya que el envoltorio del modelo es fundamental para el rendimiento, particularmente con modelos pequeños donde los errores del arnés son más notorios.
Leer original ↗