← heapsort-ai

AI evaluation

65 items

ARTICLEDEV.to AI·vor 1T

Enhancing LLM Reliability with Evaluation Engineering

Dieser Artikel untersucht, wie Evaluation Engineering entscheidend ist, um die Zuverlässigkeit von Large Language Models (LLMs) zu verbessern, indem er deren Prinzipien und Techniken behandelt. Durch die Konzentration auf diese Disziplin können Organisationen sicherstellen, dass ihre LLMs sowohl effektiv sind als auch den Anforderungen realer Anwendungen gerecht werden.

48
ARTICLE↑ trendingReddit r/MachineLearning·5/1/2026

What benchmark would you build for “reply quality” in SDR generation? [D]

Der Inhalt untersucht die Herausforderung, einen effektiven Benchmark für die „Antwortqualität“ bei KI-generierten SDR-E-Mails zu entwickeln. Er analysiert gängige Metriken wie Antwortrate und Genauigkeit und erklärt, warum jede davon fehlerhaft ist und die Nachrichtenwirksamkeit nicht vollständig erfasst, was oft zu fehlgeleiteten Optimierungen führt.

42
ARTICLE↑ trendingReddit r/MachineLearning·vor 18T

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

Der Autor äußert Frustration darüber, dass die Benchmark-Leistung oft nichts darüber aussagt, ob ein KI-Workflow den Produktionseinsatz übersteht. Dies liegt an Faktoren wie mehrdeutiger Benutzerabsicht und unordentlichen realen Kontexten, was darauf hindeutet, dass die Bewertung immer noch die Optimierung sauberer Aufgaben gegenüber der Verhaltensrobustheit bevorzugt.

41
ARTICLEDEV.to AI·4/22/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Ein Alleingründer entwickelte einen n8n-Evaluierungs-Workflow für KI-Agenten, der Prompts mit reinem GPT-4o versus GPT-4o mit einem Reasoning-Scaffold im A/B-Test mit einem blinden Gemini-Evaluator vergleicht. Dieses Tool ermöglicht es Entwicklern, die Agentenleistung bei ihren eigenen Aufgaben zu testen, wobei der Fokus darauf liegt, wie das Scaffold Tiefe, Sycophancy und Diagnoseverfahren beeinflusst.

35
ARTICLEDEV.to AI·4/19/2026

Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM

Der Autor diskutiert die Bedeutung und mangelnde Kenntnis der Bewertung (Evals) von KI-Systemen wie Agenten, RAG und LLMs und wird die wichtigsten Metriken und Frameworks vorstellen. Der Artikel zielt darauf ab, die Lieferqualität von KI-Projekten zu verbessern, indem er Theorie und Praxis verbindet und ein Studienrepository mit Openrouter bereitstellt.

33
RESEARCHarXiv CS.AI·vor 19T

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Diese Forschung schlägt eine neue Metrikfamilie, $ECUAS_n$, zur Bewertung von unsicherheitserweiterten (UA) Systemen in der automatisierten Entscheidungsfindung vor. Es wird argumentiert, dass bestehende Bewertungsansätze unzureichend sind, um die Gesamtleistung von UA-Systemen zu beurteilen, bei denen die prädiktive Unsicherheit für fundierte Benutzerentscheidungen entscheidend ist.

30
ARTICLEDEV.to AI·4/16/2026

I read all 232 pages of the Opus 4.7 system card

Der Autor überprüfte Anthropic's 232-seitige Systemkarte für Claude Opus 4.7 und hob den selbstbewerteten Wohlfahrts-Score des Modells von 4,49 von 7 hervor, den höchsten für ein Claude-Modell. Dieser bedeutende Generationssprung in der Selbsteinschätzung wird als wichtiger erachtet als die weithin veröffentlichten SWE-bench Metriken.

30
RESEARCHarXiv CS.LG·vor 8T

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Dieses Papier stellt NumLeak vor, ein Messrahmen zur Bewertung des auswendig gelernten Abrufs in Basismodellen mittels öffentlicher numerischer Benchmarks. Es zeigt, dass führende LLMs Finanz- und Wirtschaftsdaten mit hoher Genauigkeit abrufen, was darauf hindeutet, dass Bewertungen möglicherweise das Auswendiglernen statt echter Fähigkeiten messen.

29
ARTICLEDEV.to AI·4/12/2026

The Benchmark Is Not the Behavior

Ein Team der UC Berkeley zeigte, wie man Schwachstellen in acht KI-Agenten-Benchmarks durch Manipulation der Bewertungsmethoden ausnutzen kann. Dies wirft ernste Fragen bezüglich der Integrität der KI-Bewertung auf, da Benchmarks auf ein anfälliges „Ehrensystem“ angewiesen sind.

28
RESEARCHarXiv CS.CL·vor 21T

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Dieses Papier stellt PQR vor, ein Framework zur Generierung vielfältiger und realistischer Benutzeranfragen, die Fehler in LLM-basierten QA-Agenten hervorrufen, und geht damit über bestehende Methoden hinaus, die sich hauptsächlich auf adversariale Benutzer konzentrieren. PQR arbeitet mit iterativen Abfrage- und Prompt-Verfeinerungsmodulen, um realistische Testszenarien zu erstellen, die die Schwachstellen von Agenten aufdecken.

28
ARTICLEDEV.to AI·5/8/2026

Your AI Agent Evaluation Is Lying to You: Why 10 Test Runs Prove Nothing

Der Inhalt argumentiert, dass 10 Testläufe zwischen KI-Agenten nicht ausreichen, um gültige Schlussfolgerungen über die Leistung zu ziehen, selbst bei einem 5:5-Unentschieden. Er erklärt, dass die Gewinnrate bei kleinen Stichprobengrößen enorme Konfidenzintervalle aufweist, und stellt das Wilson-Score-Intervall als eine vernünftige Grenze für binäre Ergebnisse vor.

28
ARTICLEDEV.to AI·vor 28T

One AI Model Scored 99. I Still Voted for the One That Scored 95.

Ein Autor bevorzugte ein KI-Modell mit einer niedrigeren technischen Bewertung (95) gegenüber einem mit einer höheren (99) aufgrund einer besseren Benutzererfahrung. Dies unterstreicht, dass "gut aussehen", "gut bewerten" und "sich richtig anfühlen" drei unterschiedliche Urteile für KI-generierte Software sind, die nicht immer zum gleichen Gewinner führen.

28
ARTICLEDEV.to AI·4/22/2026

Wait, you guys run evals?

Der Autor fragt die Community nach der Bedeutung spezifischer Evaluierungen für KI-Systeme, die über Standard-Benchmarks hinausgehen, um wahre Vorteile und Fehler zu identifizieren. Er sucht verschiedene Perspektiven, wie maßgeschneiderte Metriken entwickelt werden, um die Strenge und Qualität des Produkts zu gewährleisten.

28
RESEARCHarXiv CS.AI·vor 21T

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench ist ein neuer diagnostischer Benchmark, der 10 führende große Sprachmodelle (LLMs) bei strukturierten linearen Algebra-Berechnungen bewertet und strukturelle Fehlermodi aufdeckt. Er analysiert die Leistung von LLMs über einen dimensionalen Gradienten von Matrizen, klassifiziert Fehler in zehn primäre Fehlertypen und identifiziert eine Verhaltensschwelle bei 4x4-Matrizen.

28