LLM evaluation

18 items

ARTICLEDEV.to AI·vor 3Std

More eval traces will not stabilize your kappa. Stratify the ones you have

Der Inhalt behandelt die Instabilität der LLM-als-Richter-Übereinstimmung (Cohens Kappa), die wöchentlich schwankte, obwohl sich die Bewertungsrubrik nicht änderte. Eine Erhöhung der Stichprobengröße brachte keine Stabilität; die Lösung bestand darin, die vorhandenen Proben nach Bewertungsklassen und bekannten Fehlerdimensionen zu schichten, was die Varianz stärker reduzierte als die bloße Verdoppelung der Stichprobengröße.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

RESEARCHDEV.to AI·vor 9Std

Aligning with Human Judgement: The Role of Pairwise Preference in Large LanguageModel Evaluators

Dieser Inhalt untersucht die entscheidende Rolle der Paarpräferenz bei der Bewertung großer Sprachmodelle (LLMs). Er diskutiert, wie diese Methode dazu beitragen kann, die LLM-Leistung effektiver an menschliche Urteile anzupassen.

Human Alignment Pairwise Preference natural language processing AI Research

ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula ist eine experimentelle Python-Implementierung des Simula-Mechanismus-Designs, die dem Open-Source-Dataset-Tool AfterImage hinzugefügt wurde. Es adressiert den Bedarf an kontrollierter Diversität in SFT/Eval-Setups für LLMs, indem es vielfältige synthetische Daten mittels LLM-erstellter Taxonomien, gewichteter Stichproben und Kritiker-Loops generiert.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLE↑ trendingReddit r/LocalLLaMA·4/13/2026

Best Local LLMs - Apr 2026

Dieser Artikel bespricht die besten lokalen LLMs im April 2026 und hebt Neuerscheinungen wie Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 und PrismML Bonsai hervor. Er lädt Nutzer ein, detaillierte Erfahrungen mit Open-Weights-Modellen zu teilen, um die Evaluierung zu unterstützen.

AI models open-source AI Local LLMs generative AI

ARTICLEDEV.to AI·vor 21T

Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration

Der Autor entwickelte ein RAG-System für Finanz-Q&A unter Verwendung von SEC-Dokumenten und dem FinanceBench-Benchmark. Er entdeckte eine erhebliche Diskrepanz zwischen LLM-als-Richter-Bewertungen und der tatsächlichen Leistung, was zu Erkenntnissen über die Kalibrierung von LLMs für die Bewertung führte.

Financial AI Benchmarking GPT-4o-mini RAG system

RESEARCHarXiv CS.CL·4/7/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP Benchmarks Quality Assurance

ARTICLEDEV.to AI·vor 5T

How do you know your AI receptionist is actually following its instructions?

Dieser Artikel befasst sich mit dem Problem, dass Sprach-KIs, insbesondere große Sprachmodelle, in Kundendienstinteraktionen Informationen erfinden können. Er schlägt die Verwendung von „Evals“ (Bewertungen) vor, um proaktiv zu testen und sicherzustellen, dass KI-Agenten ihre Anweisungen befolgen und somit falsche Informationen und Kundenunzufriedenheit vermeiden.

AI hallucinations customer service AI AI reliability LLM evaluation

ARTICLEDEV.to AI·4/27/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

Der Artikel kritisiert aktuelle Testmethoden für LLMs in der Produktion, da „reibungslose“ Bereitstellungen oft subtile Halluzinationen verschleiern, die zu finanziellen oder Datenverlusten führen, da wahrheitsbasierte Bewertungen fehlen. Er betont die Notwendigkeit robuster Abruf-Evaluierungspipelines, besserer Daten und spezifischer Strategien zur Prüfung der Zuverlässigkeit von KI-Agenten, um Denkfehler oder destruktive Aktionen zu verhindern.

AI reliability AI testing AI agents LLM evaluation

ARTICLEDEV.to AI·4/14/2026

AI Search Showdown: Perplexity vs SearchGPT vs Claude 3.5 Sonnet (2026)

Dieser Inhalt präsentiert eine vergleichende Analyse von KI-Suchwerkzeugen: Perplexity AI, OpenAI SearchGPT und Claude 3.5 Sonnet. Er beschreibt eine praktische Bewertung anhand von drei unterschiedlichen komplexen Prompts, um deren Leistung hinsichtlich Genauigkeit, Geschwindigkeit, Zitaten und multimodalen Fähigkeiten zu beurteilen.

AI comparison Perplexity AI Claude 3.5 Sonnet OpenAI SearchGPT

DOCDEV.to AI·vor 22T

LLM Evaluation for Indie Hackers: Build a £0.20/Run System That Catches Real Bugs

Dieser Inhalt zeigt Indie-Hackern, wie man ein kostengünstiges (£0.20/Lauf) LLM-Evaluierungssystem aufbaut, um echte Fehler in der Produktion zu finden. Das System nutzt einen Golden Dataset, einen LLM als Judge zur Bewertung der Ausgaben und ein CI-Gate, um Merges zu blockieren.

indie hackers CI/CD Software Development Testing

ARTICLEDEV.to AI·vor 22T

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

Der Artikel stellt ein kostengünstiges, rubrikbasiertes LLM-Bewertungssystem für Indie-Hacker vor, das in CI läuft und Probleme wie halluzinierte Daten in der Produktion verhindert. Es bietet eine Alternative zu teuren Unternehmenslösungen, indem es Qualität durch konkrete Attribute und goldene Datensätze definiert.

indie hackers CI/CD Testing cost-effective solutions

CASEDEV.to AI·4/19/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

Der Autor nutzte eigenschaftsbasierte Tests, um die Wahrhaftigkeit der Behauptungen in einem KI-generierten Papier über den Bau eines "zweiten Gehirns" zu überprüfen. Während die meisten Behauptungen Bestand hatten, wurde ein universeller Quantor falsifiziert, was die Wirksamkeit der Methode bei der Aufdeckung subtiler struktureller Anforderungen unterstreicht.

AI Verification AI Content Generation property-based testing LLM evaluation

RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Diese Arbeit argumentiert, dass die beobachteten Effekte von "kontrafaktuellem Prompting" in LLMs nicht einem gezielten Faktor zugeschrieben werden können, ohne bedeutungserhaltende Textmodifikationen zu berücksichtigen, die die allgemeine Modellsensitivität festlegen. Die Forschung zeigt, dass die Vorhersageumkehrraten beim chirurgischen Ändern des Patientengeschlechts statistisch nicht von den durch einfaches Paraphrasieren der Eingaben induzierten Raten unterscheidbar sind, was darauf hindeutet, dass keine besondere Sensitivität gegenüber dem Patientengeschlecht geschlossen werden kann.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·4/9/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.CL·vor 18T

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.

Multi-turn conversations LLM-as-a-judge Benchmarking generative AI

RESEARCHarXiv CS.CL·vor 12T

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Diese Forschung stellt CARE (Community-Aware Reaction Evaluation) vor, ein Framework zur Bewertung der Fähigkeit großer Sprachmodelle (LLMs), Gemeinschaftsdiskurse mit authentischen menschlichen Reaktionen auf reale Nachrichten abzugleichen. Durch menschlich-KI-Kollaboration deckt die Studie eine "Realitätslücke" auf, die zeigt, dass explizite Community-Prompts die Simulationsgenauigkeit von LLMs nicht intrinsisch verbessern.

linguistic behavior AI alignment computational social science LLM evaluation

RESEARCHarXiv CS.CL·vor 28T

Sanity Checks for Long-Form Hallucination Detection

Diese Forschungsarbeit stellt eine kontrollierte Invarianzmethodologie zur Erkennung von Halluzinationen in großen Sprachmodellen vor. Mittels Orakeltests wie extsc{Force} und extsc{Remove} wird untersucht, ob Detektionsmethoden das Denken oder lediglich Oberflächenkorrelate der finalen Antwort bewerten.

hallucination detection Chain-of-Thought large language models LLM evaluation

ARTICLEDEV.to AI·4/14/2026

I added a local eval loop to my personal AI assistant — here's what 800 scored interactions taught me

Der Autor integrierte eine lokale Evaluationsschleife mit einem Ollama-Modell in seinen persönlichen, selbst gehosteten KI-Assistenten, um Interaktionen nach Genauigkeit, Relevanz und angemessener Zuversicht zu bewerten. Nach der Analyse von 800 Interaktionen stellten sie fest, dass kürzere, direktere Antworten durchweg höhere Bewertungen erhielten.

AI assistant self-hosted AI Ollama DSPy