AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]
AutoBe ist ein neuer Benchmark für die End-to-End-Backend-Generierung, bei dem natürliche Sprachanfragen sechs strukturierte Ausgaben mittels strukturierter Funktionsaufrufe erzeugen. Der Benchmark zeigt, dass die Backend-Qualität stärker vom Harness-Design als vom Modell-Prestige beeinflusst wird, wobei lokale Modelle vergleichbar gut wie führende Modelle zu deutlich geringeren Kosten abschneiden.