RESEARCH27
AI agent logs expose reproducibility gaps
DEV.to AI·7 de maio de 2026
Registros de agentes de IA expõem lacunas significativas de reprodutibilidade, onde agentes autônomos frequentemente falham mesmo após sucessos iniciais, especialmente em tarefas de navegação web. Pesquisas, como o corpus SWE-chat, mostram que menos da metade do código gerado por agentes é incorporado pelos usuários, evidenciando uma discrepância entre as pontuações de benchmark e a confiabilidade diária.
Ler original ↗