evaluation

53 items

RESEARCHarXiv CS.CL·vor 1T

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

UnpredictaBench wird als neuer Benchmark eingeführt, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, wahre zugrunde liegende Verteilungen zu erfassen, da sie oft zu einer einzigen plausiblen Antwort tendieren. Er umfasst 448 Probleme und eine KS@N-Metrik, um Stichproben aus verschiedenen Zieldistributionen zu testen.

AI models LLMs evaluation Benchmarking

ARTICLE↑ trendingHacker News (AI)·vor 15T

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Der Unsiloed Parser v3.1 erreichte den ersten Platz im olmOCR-Bench und übertraf damit 18 andere OCR-Dienste, darunter fortgeschrittene KI-Modelle. Die Bewertung, die über 1.403 PDFs und 8.413 Komponententests durchgeführt wurde, zeigte seine Fähigkeit, komplexe reale Dokumentherausforderungen wie komplizierte Tabellen und mehrspaltige Layouts zu bewältigen.

AI benchmark evaluation document parsing UnSiloed

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

evaluation reinforcement learning AI training summarization

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Dieser Inhalt befasst sich mit dem Problem, dass die Wortfehlerrate (WER) Formatierungsunterschiede bei STT-Bewertungen bestraft, was zu ungenauen Ergebnissen führt. Um dies zu beheben, wurde die Open-Source-Bibliothek `gladia-normalization` veröffentlicht, die Transkripte vor der WER-Berechnung normalisiert und so eine fairere Bewertung der Erkennungsqualität gewährleistet.

Open Source evaluation NLP Speech-to-Text

RESEARCH↑ trendingReddit r/MachineLearning·4/22/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

Der Inhalt fragt nach der Eignung von EMNLP-Workshops für die Evaluationsarbeit von Vision-Language Models (VLM). Es werden auch Empfehlungen für andere gute NLP-Veranstaltungsorte für diese Art von Forschung gesucht.

evaluation VLM NLP research venues

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

Anyone evaluated the difference between Qwen Code for the local qwen models vs another harness? CC, OC, LC, Aider etc..

Ein Benutzer fragt nach dem Unterschied zwischen Qwen Code und anderen Harnesses (wie opencode) zur Bewertung lokaler Qwen-Modelle. Er fragt sich, ob Qwen Code eine überlegene native Funktionalität bietet und welche Benchmark-Methodik verwendet wurde.

AI models evaluation Benchmarking

ARTICLEDEV.to AI·4/16/2026

I was tired of complex RAG evaluation tools, so I built my own (and open-sourced it) 🚀

Müde von komplexen RAG-Evaluierungstools, hat der Autor ein neues leichtgewichtiges Tool namens RAG-Destroyer entwickelt und quelloffen gemacht. Es zielt darauf ab, sich leicht in Arbeitsabläufe zu integrieren, um schlechten Kontext und Halluzinationen in RAG-Anwendungen zu identifizieren und zu eliminieren.

Open Source evaluation RAG AI tools

RESEARCHHugging Face Blog·4/21/2026

QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

QIMMA (قِمّة) ist eine neue, qualitätsorientierte Bestenliste zur Bewertung arabischer Large Language Models (LLM). Ziel ist es, die leistungsstärksten KI-Modelle speziell für die arabische Sprache zu identifizieren und zu fördern.

evaluation Benchmarking Arabic LLM

ARTICLEDEV.to AI·4/15/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

OpenAIs Übernahme von Promptfoo signalisiert eine entscheidende Verlagerung bei der Bewertung der Qualität von KI-Agenten, weg von bloßer Sprachgewandtheit hin zu umfassendem Testen, Dokumentation und dem Management von Fehlern vor der Bereitstellung. Dies adressiert kritische operationelle Risiken wie Prompt Injection und Tool-Missbrauch und gewährleistet die Robustheit in Produktionssystemen.

red-teaming LLM Agents evaluation prompt injection

RESEARCHarXiv CS.LG·vor 17T

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

Der Artikel stellt HealthCraft vor, eine öffentliche Reinforcement-Learning-Umgebung zur Bewertung der Sicherheit von Frontier-Sprachmodellen in der Notfallmedizin. Es konzentriert sich auf die Sicherheit auf Trajektorien-Ebene, den Missbrauch von Werkzeugen und den klinischen Druck, basiert auf einem FHIR R4 Weltzustand und bietet 195 Aufgaben für eine umfassende Bewertung.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.CL·4/6/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMs evaluation Foundation Models SocioEval

RESEARCHarXiv CS.AI·vor 4T

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Diese Studie untersucht die Stabilität und Manipulierbarkeit von LLM-Juroren in Bewertungs-Pipelines und stellt fest, dass sie zwar bei neutraler Neubewertung stabil sind, aber unter gezielter Herausforderung nach der Entscheidung reversibel werden. Die Forschung zeigt, dass stabile Urteile durch motivierte Interaktion aufgehoben werden können.

robustness LLMs evaluation Benchmarking

ARTICLEDEV.to AI·vor 16T

Stop Engineering Prompts: How an Eval-First Harness Let Us Ship 25 Algorithm Versions Autonomously

Dieser Artikel beschreibt die Entwicklung eines "Eval-First"-KI-Harness, das die autonome Bereitstellung von 25 Algorithmusversionen in 13 Tagen ermöglichte. Die Methodik konzentriert sich auf unveränderliche Testsets und unabhängige Überprüfungen, um sicherzustellen, dass Änderungen keine Regressionen verursachen. Der Autor betont, dass das Harness, und nicht nur Prompt-Engineering oder vollständige Automatisierung, entscheidend für die Geschwindigkeit und Sicherheit der Entwicklung war.

evaluation Algorithms Software engineering automation

ARTICLEDEV.to AI·vor 5T

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

Die Größe des von Menschen etikettierten Kalibrierungssatzes zur Validierung eines LLM-as-judge hängt von der Ausgewogenheit der Labels ab. Fünfzig stratifizierte Spuren reichen für ausgewogene binäre Kriterien aus, aber für seltene, aber kostspielige Kategorien wie Sicherheitsverletzungen sind 200 oder mehr obligatorisch, da die Varianz des Kappa durch die Anzahl der Minderheitsklasse-Beispiele dominiert wird.

LLM-as-judge Calibration evaluation sample size

RESEARCHDEV.to AI·4/17/2026

A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability

Dieser Inhalt bietet eine umfassende Bewertung von ChatGPTs Zero-Shot Text-to-SQL-Fähigkeit, d.h. seiner Fähigkeit, natürliche Sprache ohne vorherige Beispiele in SQL-Abfragen umzuwandeln. Er untersucht die Leistung und die Grenzen des Modells bei dieser komplexen Aufgabe.

evaluation Text-to-SQL ChatGPT benchmark

DOCAWS Machine Learning Blog·vor 22T

Build custom code-based evaluators in Amazon Bedrock AgentCore

Dieser Beitrag zeigt, wie man benutzerdefinierte codebasierte Evaluatoren in Amazon Bedrock AgentCore implementiert. Er lehrt, wie man Lambda-basierte Evaluatoren für einen Finanzmarkt-Intelligenzagenten registriert und sie mit integrierten Evaluatoren zur Faktenprüfung und PII-Erkennung kombiniert.

evaluation learning Amazon Bedrock AWS

RESEARCHarXiv CS.CL·4/6/2026

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

Art Description language models evaluation Pragmatics

ARTICLEDEV.to AI·5/10/2026

I open-sourced a 3-agent blind eval team. Any agent runtime can call it for pre-commitment review of its own plans.

Ein am Wochenende veröffentlichter Open-Source-Workflow für die blinde 3-Agenten-Evaluierung ermöglicht es jedem KI-Agenten-Laufzeitsystem, seine Pläne vor der Festlegung zu überprüfen. Dieses System behebt das Problem, dass Modelle sich nicht zuverlässig selbst bewerten können, indem es ein externes, blindes Primitiv für eine ehrliche Bewertung bereitstellt.

Open Source evaluation Self-evaluation Workflow

RESEARCHarXiv CS.CL·4/16/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Dieses Papier stellt Bi-Prädiktierbarkeit (P) und die Information Digital Twin (IDT)-Architektur zur Echtzeitüberwachung der Integrität von LLM-Interaktionen vor. Ziel ist es, die strukturelle Kopplung in mehrstufigen Workflows kontinuierlich zu gewährleisten und die Mängel aktueller Bewertungsmethoden zu beheben, die eine schleichende Degradation nicht erkennen.

information theory monitoring evaluation real-time AI

RESEARCHarXiv CS.CL·4/17/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround ist ein neuer, strenger Langzeitgedächtnis-Benchmark für LLMs, der entwickelt wurde, um die Einschränkungen statischer Bewertungen durch reichhaltige, gamifizierte interaktive Szenarien zu überwinden. Er verfügt über ein dreistufiges hierarchisches Framework zur Bewertung verschiedener Gedächtnistypen und eine mehrdimensionale Metrik-Suite zur umfassenden Quantifizierung.

evaluation gamification memory benchmark