performance evaluation

6 items

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

ClawBench ist ein neuer Benchmark, der KI-Browser-Agenten bei 153 alltäglichen Aufgaben auf 144 Live-Websites bewertet. Wichtige Erkenntnisse zeigen, dass das beste Modell (Claude Sonnet 4.6) nur eine Erfolgsquote von 33,3 % erreicht, was eine erhebliche Lücke in den aktuellen KI-Fähigkeiten zur Online-Aufgabenerfüllung aufzeigt.

performance evaluation Benchmarking browser agents online tasks

RESEARCHarXiv CS.AI·5/4/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena wird als kontinuierlicher Benchmark eingeführt, der die KI-Inferenz auf Endpunktgranularität entlang von fünf Kernachsen misst. Es fasst Ausgabegeschwindigkeit, Zeit bis zum ersten Token, Preis, effektiven Kontext und Qualität, zusammen mit Energieabschätzungen, in Verbundwerte wie Joule und Dollar pro korrekter Antwort sowie Endpunkt-Fidelity zusammen.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.AI·4/21/2026

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Diese empirische Studie bewertet 22 agentische Frameworks anhand von drei Reasoning-Benchmarks (BBH, GSM8K, ARC), um deren Leistung, Effizienz und praktische Eignung zu vergleichen. Die Ergebnisse zeigen, dass 19 Frameworks alle Aufgaben abschlossen, wobei 12 eine stabile Leistung mit 74,6-75,9 % Genauigkeit, 4-6 Sekunden Ausführungszeit und 0,14-0,18 Cent pro Aufgabe Kosten aufwiesen.

AI frameworks performance evaluation Benchmarking AI agents

RESEARCHarXiv CS.LG·4/30/2026

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Diese Forschung befasst sich mit der Verzerrung bei der Leistungsschätzung in der unbalancierten Klassifikation, insbesondere bei Minderheiten-Subkonzepten innerhalb von Klassen. Sie führt eine neue praktische, nutzen-gewichtete Bewertungsmetrik, die vorhergesagte gewichtete balancierte Genauigkeit (pBA), ein, die vorhergesagte posteriore Wahrscheinlichkeiten verwendet, um diese Verzerrung zu korrigieren und eine genauere Bewertung zu liefern.

imbalanced-classification bias-correction machine-learning-metrics subconcept-analysis

RESEARCHarXiv CS.AI·5/6/2026

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Diese Forschung stellt Terminus-4B vor, ein feinabgestimmtes kleines Sprachmodell, um dessen Fähigkeit zu untersuchen, Frontier-LLMs bei agentischen Terminalausführungsaufgaben zu ersetzen. Das Modell wird mittels SFT und RL mit rubrikbasierten LLM-als-Richter-Belohnungen nachtrainiert.

LLMs model training performance evaluation Small Language Models

RESEARCHDEV.to AI·vor 18T

Performance Comparisons of Routing Protocols in Mobile Ad Hoc Networks

Dieser Inhalt vergleicht verschiedene Routing-Protokolle in Mobilen Ad-hoc-Netzwerken (MANETs). Er analysiert wahrscheinlich deren Leistungsmetriken unter verschiedenen Netzwerkbedingungen, um optimale Lösungen zu identifizieren.

Routing Protocols Networking MANETs Wireless Communication