Wait, you guys run evals?
Der Autor fragt die Community nach der Bedeutung spezifischer Evaluierungen für KI-Systeme, die über Standard-Benchmarks hinausgehen, um wahre Vorteile und Fehler zu identifizieren. Er sucht verschiedene Perspektiven, wie maßgeschneiderte Metriken entwickelt werden, um die Strenge und Qualität des Produkts zu gewährleisten.