heapsort
RESEARCH↑ trending43

AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]

Reddit r/MachineLearning·4. Mai 2026

AutoBe ist ein neuer Benchmark für die End-to-End-Backend-Generierung, bei dem natürliche Sprachanfragen sechs strukturierte Ausgaben mittels strukturierter Funktionsaufrufe erzeugen. Der Benchmark zeigt, dass die Backend-Qualität stärker vom Harness-Design als vom Modell-Prestige beeinflusst wird, wobei lokale Modelle vergleichbar gut wie führende Modelle zu deutlich geringeren Kosten abschneiden.

Original lesen