RESEARCH27
How Far Can a Small Coding Model Go With a Better Harness?
DEV.to AI·20 de maio de 2026
O artigo investiga o desempenho de um pequeno modelo de codificação (GPT-5.1-Codex-Mini) no Terminal-Bench 2.0, alcançando 61,6% ao otimizar seu "harness" em vez de usar um modelo maior. Isso demonstra que o invólucro do modelo é crucial para o desempenho, especialmente em modelos menores onde erros no harness são mais evidentes.
Ler original ↗