RESEARCH29
What VAKRA Reveals About Why Agents Actually Fail
DEV.to AI·22 de abril de 2026
VAKRA, um novo benchmark da IBM Research, revela que agentes de IA falham de maneiras previsíveis e estruturais, mapeando pontos de falha entre raciocínio, seleção de ferramentas e execução. Ele decompõe a falha do agente em seis categorias específicas, indo além das avaliações binárias tradicionais para descobrir fraquezas comuns.
Ler original ↗