AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]
AutoBe es un nuevo benchmark para la generación de backend de extremo a extremo, donde las solicitudes en lenguaje natural producen seis salidas estructuradas mediante llamadas a funciones. El benchmark revela que la calidad del backend está más influenciada por el diseño del arnés que por el prestigio del modelo, con modelos locales rindiendo de manera comparable a los modelos de frontera a un costo significativamente menor.