← heapsort-ai

evaluation

53 items

ARTICLE↑ trendingHacker News (AI)·vor 15T

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Der Unsiloed Parser v3.1 erreichte den ersten Platz im olmOCR-Bench und übertraf damit 18 andere OCR-Dienste, darunter fortgeschrittene KI-Modelle. Die Bewertung, die über 1.403 PDFs und 8.413 Komponententests durchgeführt wurde, zeigte seine Fähigkeit, komplexe reale Dokumentherausforderungen wie komplizierte Tabellen und mehrspaltige Layouts zu bewältigen.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Dieser Inhalt befasst sich mit dem Problem, dass die Wortfehlerrate (WER) Formatierungsunterschiede bei STT-Bewertungen bestraft, was zu ungenauen Ergebnissen führt. Um dies zu beheben, wurde die Open-Source-Bibliothek `gladia-normalization` veröffentlicht, die Transkripte vor der WER-Berechnung normalisiert und so eine fairere Bewertung der Erkennungsqualität gewährleistet.

42
ARTICLEDEV.to AI·4/15/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

OpenAIs Übernahme von Promptfoo signalisiert eine entscheidende Verlagerung bei der Bewertung der Qualität von KI-Agenten, weg von bloßer Sprachgewandtheit hin zu umfassendem Testen, Dokumentation und dem Management von Fehlern vor der Bereitstellung. Dies adressiert kritische operationelle Risiken wie Prompt Injection und Tool-Missbrauch und gewährleistet die Robustheit in Produktionssystemen.

30
RESEARCHarXiv CS.LG·vor 17T

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

Der Artikel stellt HealthCraft vor, eine öffentliche Reinforcement-Learning-Umgebung zur Bewertung der Sicherheit von Frontier-Sprachmodellen in der Notfallmedizin. Es konzentriert sich auf die Sicherheit auf Trajektorien-Ebene, den Missbrauch von Werkzeugen und den klinischen Druck, basiert auf einem FHIR R4 Weltzustand und bietet 195 Aufgaben für eine umfassende Bewertung.

29
RESEARCHarXiv CS.CL·4/6/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

29
RESEARCHarXiv CS.AI·vor 4T

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Diese Studie untersucht die Stabilität und Manipulierbarkeit von LLM-Juroren in Bewertungs-Pipelines und stellt fest, dass sie zwar bei neutraler Neubewertung stabil sind, aber unter gezielter Herausforderung nach der Entscheidung reversibel werden. Die Forschung zeigt, dass stabile Urteile durch motivierte Interaktion aufgehoben werden können.

28
ARTICLEDEV.to AI·vor 16T

Stop Engineering Prompts: How an Eval-First Harness Let Us Ship 25 Algorithm Versions Autonomously

Dieser Artikel beschreibt die Entwicklung eines "Eval-First"-KI-Harness, das die autonome Bereitstellung von 25 Algorithmusversionen in 13 Tagen ermöglichte. Die Methodik konzentriert sich auf unveränderliche Testsets und unabhängige Überprüfungen, um sicherzustellen, dass Änderungen keine Regressionen verursachen. Der Autor betont, dass das Harness, und nicht nur Prompt-Engineering oder vollständige Automatisierung, entscheidend für die Geschwindigkeit und Sicherheit der Entwicklung war.

28
ARTICLEDEV.to AI·vor 5T

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

Die Größe des von Menschen etikettierten Kalibrierungssatzes zur Validierung eines LLM-as-judge hängt von der Ausgewogenheit der Labels ab. Fünfzig stratifizierte Spuren reichen für ausgewogene binäre Kriterien aus, aber für seltene, aber kostspielige Kategorien wie Sicherheitsverletzungen sind 200 oder mehr obligatorisch, da die Varianz des Kappa durch die Anzahl der Minderheitsklasse-Beispiele dominiert wird.

28
RESEARCHarXiv CS.CL·4/6/2026

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

28
ARTICLEDEV.to AI·5/10/2026

I open-sourced a 3-agent blind eval team. Any agent runtime can call it for pre-commitment review of its own plans.

Ein am Wochenende veröffentlichter Open-Source-Workflow für die blinde 3-Agenten-Evaluierung ermöglicht es jedem KI-Agenten-Laufzeitsystem, seine Pläne vor der Festlegung zu überprüfen. Dieses System behebt das Problem, dass Modelle sich nicht zuverlässig selbst bewerten können, indem es ein externes, blindes Primitiv für eine ehrliche Bewertung bereitstellt.

27
RESEARCHarXiv CS.CL·4/16/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Dieses Papier stellt Bi-Prädiktierbarkeit (P) und die Information Digital Twin (IDT)-Architektur zur Echtzeitüberwachung der Integrität von LLM-Interaktionen vor. Ziel ist es, die strukturelle Kopplung in mehrstufigen Workflows kontinuierlich zu gewährleisten und die Mängel aktueller Bewertungsmethoden zu beheben, die eine schleichende Degradation nicht erkennen.

27
RESEARCHarXiv CS.CL·4/17/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround ist ein neuer, strenger Langzeitgedächtnis-Benchmark für LLMs, der entwickelt wurde, um die Einschränkungen statischer Bewertungen durch reichhaltige, gamifizierte interaktive Szenarien zu überwinden. Er verfügt über ein dreistufiges hierarchisches Framework zur Bewertung verschiedener Gedächtnistypen und eine mehrdimensionale Metrik-Suite zur umfassenden Quantifizierung.

27