RESEARCH29

What VAKRA Reveals About Why Agents Actually Fail

DEV.to AI·22 de abril de 2026

VAKRA, um novo benchmark da IBM Research, revela que agentes de IA falham de maneiras previsíveis e estruturais, mapeando pontos de falha entre raciocínio, seleção de ferramentas e execução. Ele decompõe a falha do agente em seis categorias específicas, indo além das avaliações binárias tradicionais para descobrir fraquezas comuns.

failure analysis Model Evaluation Benchmarking Reasoning AI agents

Ler original ↗