Wait, you guys run evals?
El autor pregunta a la comunidad sobre la importancia de construir evaluaciones específicas para sistemas de IA, más allá de los benchmarks estándar, para identificar los verdaderos beneficios y fallas. Busca diferentes perspectivas sobre cómo las personas abordan la creación de métricas personalizadas para garantizar el rigor y la calidad del producto.