RESEARCH27

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

Hugging Face Blog·27. Mai 2026

ITBench-AA, der erste Benchmark für agentische IT-Aufgaben in Unternehmen, zeigt, dass aktuelle Frontier-KI-Modelle unter 50% abschneiden. Diese Studie von Artificial Analysis und IBM unterstreicht die Notwendigkeit erheblicher Fortschritte bei den Modellen, um den Anforderungen der Unternehmens-IT effektiv gerecht zu werden.

Benchmarking IT automation Enterprise AI Frontier models AI agents

Original lesen ↗