RESEARCH27
BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents
DEV.to AI·5 mai 2026
BrowseComp est un nouveau benchmark exigeant conçu pour évaluer les agents de navigation. Il se concentre sur des tâches complexes nécessitant une compréhension contextuelle et une interaction avec les interfaces web, offrant une nouvelle métrique pour la performance de l'IA.
Lire l'original ↗