Wait, you guys run evals?
O autor questiona a comunidade sobre a importância de construir avaliações específicas para sistemas de IA, indo além dos benchmarks padrão, para identificar os verdadeiros benefícios e falhas. Ele busca diferentes perspectivas sobre como as pessoas abordam a criação de métricas personalizadas para garantir a rigor e a qualidade do produto.