AI evaluation

65 items

RESEARCHarXiv CS.CL·vor 1T

Re-Centering Humans in LLM Personalization

Diese Arbeit untersucht die Diskrepanz in der Personalisierungsleistung von LLMs bei der Verwendung synthetischer gegenüber menschlicher Daten. Es zeigt sich, dass menschliche Daten erhebliche Systemgrenzen bei der Attributextraktion, der Attributrelevanz und der Generierung wirklich personalisierter Antworten aufdecken.

user data synthetic data LLM personalization AI evaluation

ARTICLEDEV.to AI·vor 1T

Enhancing LLM Reliability with Evaluation Engineering

Dieser Artikel untersucht, wie Evaluation Engineering entscheidend ist, um die Zuverlässigkeit von Large Language Models (LLMs) zu verbessern, indem er deren Prinzipien und Techniken behandelt. Durch die Konzentration auf diese Disziplin können Organisationen sicherstellen, dass ihre LLMs sowohl effektiv sind als auch den Anforderungen realer Anwendungen gerecht werden.

Reliability Evaluation Engineering AI evaluation LLM

DOCAWS Machine Learning Blog·vor 1T

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Dieser Beitrag stellt das Nova Sonic Test Harness vor, ein Open-Source-Framework zur skalierbaren Bewertung und schnellen Iteration von Amazon Nova Sonic Sprachagenten. Es automatisiert mehrstufige Konversationen, bewertet sie mit LLM-as-judge-Techniken und kann Audiohalluzinationen ohne Mikrofon erkennen.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

DOC↑ trendingReddit r/MachineLearning·4/22/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Ein Benutzer sucht Ratschläge, welche Qualitäts-Benchmarks durchgeführt werden sollten, um den Leistungsabfall bei der Anwendung von Laufzeit-Quantisierung auf das DeepSeek V3.2 große Sprachmodell zu messen. Ziel ist es, den Qualitätsverlust im Vergleich zur nicht-quantisierten Version zu bewerten.

Benchmarking quantization model optimization AI evaluation

ARTICLE↑ trendingReddit r/MachineLearning·5/1/2026

What benchmark would you build for “reply quality” in SDR generation? [D]

Der Inhalt untersucht die Herausforderung, einen effektiven Benchmark für die „Antwortqualität“ bei KI-generierten SDR-E-Mails zu entwickeln. Er analysiert gängige Metriken wie Antwortrate und Genauigkeit und erklärt, warum jede davon fehlerhaft ist und die Nachrichtenwirksamkeit nicht vollständig erfasst, was oft zu fehlgeleiteten Optimierungen führt.

AI applications Benchmarking SDR AI evaluation

ARTICLE↑ trendingReddit r/MachineLearning·vor 18T

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

Der Autor äußert Frustration darüber, dass die Benchmark-Leistung oft nichts darüber aussagt, ob ein KI-Workflow den Produktionseinsatz übersteht. Dies liegt an Faktoren wie mehrdeutiger Benutzerabsicht und unordentlichen realen Kontexten, was darauf hindeutet, dass die Bewertung immer noch die Optimierung sauberer Aufgaben gegenüber der Verhaltensrobustheit bevorzugt.

model robustness Benchmarking production readiness AI evaluation

ARTICLEDEV.to AI·4/22/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Ein Alleingründer entwickelte einen n8n-Evaluierungs-Workflow für KI-Agenten, der Prompts mit reinem GPT-4o versus GPT-4o mit einem Reasoning-Scaffold im A/B-Test mit einem blinden Gemini-Evaluator vergleicht. Dieses Tool ermöglicht es Entwicklern, die Agentenleistung bei ihren eigenen Aufgaben zu testen, wobei der Fokus darauf liegt, wie das Scaffold Tiefe, Sycophancy und Diagnoseverfahren beeinflusst.

prompt engineering agent development LLM testing AI evaluation

ARTICLEDEV.to AI·4/19/2026

Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM

Der Autor diskutiert die Bedeutung und mangelnde Kenntnis der Bewertung (Evals) von KI-Systemen wie Agenten, RAG und LLMs und wird die wichtigsten Metriken und Frameworks vorstellen. Der Artikel zielt darauf ab, die Lieferqualität von KI-Projekten zu verbessern, indem er Theorie und Praxis verbindet und ein Studienrepository mit Openrouter bereitstellt.

frameworks RAG Metrics AI evaluation

RESEARCHarXiv CS.AI·vor 19T

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Diese Forschung schlägt eine neue Metrikfamilie, $ECUAS_n$, zur Bewertung von unsicherheitserweiterten (UA) Systemen in der automatisierten Entscheidungsfindung vor. Es wird argumentiert, dass bestehende Bewertungsansätze unzureichend sind, um die Gesamtleistung von UA-Systemen zu beurteilen, bei denen die prädiktive Unsicherheit für fundierte Benutzerentscheidungen entscheidend ist.

Decision Making predictive uncertainty Metrics uncertainty

RESEARCHLangChain Blog·vor 7T

Designing Efficient Verifiers for Legal Agents

Eine Studie von Harvey und LangChain Labs konzentriert sich auf die Entwicklung kostengünstigerer und zuverlässigerer LLM-Verifizierer. Diese Forschung zielt darauf ab, die Evaluierung und das Post-Training für rechtliche KI-Agenten zu verbessern.

LLM verifiers LangChain Legal AI AI evaluation

Designing Efficient Verifiers for Legal Agents

ARTICLEDEV.to AI·4/16/2026

I read all 232 pages of the Opus 4.7 system card

Der Autor überprüfte Anthropic's 232-seitige Systemkarte für Claude Opus 4.7 und hob den selbstbewerteten Wohlfahrts-Score des Modells von 4,49 von 7 hervor, den höchsten für ein Claude-Modell. Dieser bedeutende Generationssprung in der Selbsteinschätzung wird als wichtiger erachtet als die weithin veröffentlichten SWE-bench Metriken.

AI models LLMs AI safety AI evaluation

RESEARCHarXiv CS.LG·vor 8T

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Dieses Papier stellt NumLeak vor, ein Messrahmen zur Bewertung des auswendig gelernten Abrufs in Basismodellen mittels öffentlicher numerischer Benchmarks. Es zeigt, dass führende LLMs Finanz- und Wirtschaftsdaten mit hoher Genauigkeit abrufen, was darauf hindeutet, dass Bewertungen möglicherweise das Auswendiglernen statt echter Fähigkeiten messen.

LLM memorization Foundation Models data leakage Benchmarking

ARTICLEDEV.to AI·4/12/2026

The Benchmark Is Not the Behavior

Ein Team der UC Berkeley zeigte, wie man Schwachstellen in acht KI-Agenten-Benchmarks durch Manipulation der Bewertungsmethoden ausnutzen kann. Dies wirft ernste Fragen bezüglich der Integrität der KI-Bewertung auf, da Benchmarks auf ein anfälliges „Ehrensystem“ angewiesen sind.

AI Benchmarks research integrity AI evaluation

ARTICLEDEV.to AI·4/14/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

Der Inhalt hebt eine kritische Schwachstelle in aktuellen Bewertungen der LLM-Code-Generierung hervor: Sie erfassen oft nicht die reale Korrektheit jenseits oberflächlicher Erfolge. Es argumentiert gegen vereinfachte Unit-Test-Benchmarks und schlägt einen nuancierteren `weighted_accuracy`-Ansatz vor, um subtile Fehlermodi aufzudecken.

LLMs accuracy Benchmarking code generation

RESEARCHarXiv CS.CL·vor 21T

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Dieses Papier stellt PQR vor, ein Framework zur Generierung vielfältiger und realistischer Benutzeranfragen, die Fehler in LLM-basierten QA-Agenten hervorrufen, und geht damit über bestehende Methoden hinaus, die sich hauptsächlich auf adversariale Benutzer konzentrieren. PQR arbeitet mit iterativen Abfrage- und Prompt-Verfeinerungsmodulen, um realistische Testszenarien zu erstellen, die die Schwachstellen von Agenten aufdecken.

LLMs QA agents failure detection query generation

RESEARCHHugging Face Blog·vor 5T

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 stellt eine aktualisierte Benchmark-Version mit 3 Domänen, 121 Tools und 213 Szenarien vor. Dieser Datensatz ist für die Bewertung von KI-Systemen und -Tools konzipiert.

AI benchmarking datasets AI tools AI evaluation

ARTICLEDEV.to AI·5/8/2026

Your AI Agent Evaluation Is Lying to You: Why 10 Test Runs Prove Nothing

Der Inhalt argumentiert, dass 10 Testläufe zwischen KI-Agenten nicht ausreichen, um gültige Schlussfolgerungen über die Leistung zu ziehen, selbst bei einem 5:5-Unentschieden. Er erklärt, dass die Gewinnrate bei kleinen Stichprobengrößen enorme Konfidenzintervalle aufweist, und stellt das Wilson-Score-Intervall als eine vernünftige Grenze für binäre Ergebnisse vor.

confidence interval Testing agent comparison Statistics

ARTICLEDEV.to AI·vor 28T

One AI Model Scored 99. I Still Voted for the One That Scored 95.

Ein Autor bevorzugte ein KI-Modell mit einer niedrigeren technischen Bewertung (95) gegenüber einem mit einer höheren (99) aufgrund einer besseren Benutzererfahrung. Dies unterstreicht, dass "gut aussehen", "gut bewerten" und "sich richtig anfühlen" drei unterschiedliche Urteile für KI-generierte Software sind, die nicht immer zum gleichen Gewinner führen.

user experience software quality AI evaluation AI development

ARTICLEDEV.to AI·4/22/2026

Wait, you guys run evals?

Der Autor fragt die Community nach der Bedeutung spezifischer Evaluierungen für KI-Systeme, die über Standard-Benchmarks hinausgehen, um wahre Vorteile und Fehler zu identifizieren. Er sucht verschiedene Perspektiven, wie maßgeschneiderte Metriken entwickelt werden, um die Strenge und Qualität des Produkts zu gewährleisten.

Benchmarking AI evaluation model development

RESEARCHarXiv CS.AI·vor 21T

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench ist ein neuer diagnostischer Benchmark, der 10 führende große Sprachmodelle (LLMs) bei strukturierten linearen Algebra-Berechnungen bewertet und strukturelle Fehlermodi aufdeckt. Er analysiert die Leistung von LLMs über einen dimensionalen Gradienten von Matrizen, klassifiziert Fehler in zehn primäre Fehlertypen und identifiziert eine Verhaltensschwelle bei 4x4-Matrizen.

mathematical reasoning Benchmarking linear algebra AI evaluation