← heapsort-ai

performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench ist ein neuer Benchmark, der KI-Browser-Agenten bei 153 alltäglichen Aufgaben auf 144 Live-Websites bewertet. Wichtige Erkenntnisse zeigen, dass das beste Modell (Claude Sonnet 4.6) nur eine Erfolgsquote von 33,3 % erreicht, was eine erhebliche Lücke in den aktuellen KI-Fähigkeiten zur Online-Aufgabenerfüllung aufzeigt.

42
RESEARCHarXiv CS.AI·5/4/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena wird als kontinuierlicher Benchmark eingeführt, der die KI-Inferenz auf Endpunktgranularität entlang von fünf Kernachsen misst. Es fasst Ausgabegeschwindigkeit, Zeit bis zum ersten Token, Preis, effektiven Kontext und Qualität, zusammen mit Energieabschätzungen, in Verbundwerte wie Joule und Dollar pro korrekter Antwort sowie Endpunkt-Fidelity zusammen.

27
RESEARCHarXiv CS.AI·4/21/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Diese empirische Studie bewertet 22 agentische Frameworks anhand von drei Reasoning-Benchmarks (BBH, GSM8K, ARC), um deren Leistung, Effizienz und praktische Eignung zu vergleichen. Die Ergebnisse zeigen, dass 19 Frameworks alle Aufgaben abschlossen, wobei 12 eine stabile Leistung mit 74,6-75,9 % Genauigkeit, 4-6 Sekunden Ausführungszeit und 0,14-0,18 Cent pro Aufgabe Kosten aufwiesen.

27
RESEARCHarXiv CS.LG·4/30/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Diese Forschung befasst sich mit der Verzerrung bei der Leistungsschätzung in der unbalancierten Klassifikation, insbesondere bei Minderheiten-Subkonzepten innerhalb von Klassen. Sie führt eine neue praktische, nutzen-gewichtete Bewertungsmetrik, die vorhergesagte gewichtete balancierte Genauigkeit (pBA), ein, die vorhergesagte posteriore Wahrscheinlichkeiten verwendet, um diese Verzerrung zu korrigieren und eine genauere Bewertung zu liefern.

27