RESEARCH29

What VAKRA Reveals About Why Agents Actually Fail

DEV.to AI·22 de abril de 2026

VAKRA, un nuevo benchmark de IBM Research, revela que los agentes de IA fallan de maneras predecibles y estructurales, mapeando puntos de fractura entre el razonamiento, la selección de herramientas y la ejecución. Descompone el fallo del agente en seis categorías específicas, superando las evaluaciones binarias tradicionales para descubrir debilidades comunes.

failure analysis Model Evaluation Benchmarking Reasoning AI agents

Leer original ↗