← heapsort-ai

LLM evaluation

18 items

ARTICLEDEV.to AI·vor 3Std

More eval traces will not stabilize your kappa. Stratify the ones you have

Der Inhalt behandelt die Instabilität der LLM-als-Richter-Übereinstimmung (Cohens Kappa), die wöchentlich schwankte, obwohl sich die Bewertungsrubrik nicht änderte. Eine Erhöhung der Stichprobengröße brachte keine Stabilität; die Lösung bestand darin, die vorhandenen Proben nach Bewertungsklassen und bekannten Fehlerdimensionen zu schichten, was die Varianz stärker reduzierte als die bloße Verdoppelung der Stichprobengröße.

62
ARTICLE↑ trendingReddit r/MachineLearning·4/23/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula ist eine experimentelle Python-Implementierung des Simula-Mechanismus-Designs, die dem Open-Source-Dataset-Tool AfterImage hinzugefügt wurde. Es adressiert den Bedarf an kontrollierter Diversität in SFT/Eval-Setups für LLMs, indem es vielfältige synthetische Daten mittels LLM-erstellter Taxonomien, gewichteter Stichproben und Kritiker-Loops generiert.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/13/2026

Best Local LLMs - Apr 2026

Dieser Artikel bespricht die besten lokalen LLMs im April 2026 und hebt Neuerscheinungen wie Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 und PrismML Bonsai hervor. Er lädt Nutzer ein, detaillierte Erfahrungen mit Open-Weights-Modellen zu teilen, um die Evaluierung zu unterstützen.

42
ARTICLEDEV.to AI·vor 5T

How do you know your AI receptionist is actually following its instructions?

Dieser Artikel befasst sich mit dem Problem, dass Sprach-KIs, insbesondere große Sprachmodelle, in Kundendienstinteraktionen Informationen erfinden können. Er schlägt die Verwendung von „Evals“ (Bewertungen) vor, um proaktiv zu testen und sicherzustellen, dass KI-Agenten ihre Anweisungen befolgen und somit falsche Informationen und Kundenunzufriedenheit vermeiden.

28
ARTICLEDEV.to AI·4/27/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

Der Artikel kritisiert aktuelle Testmethoden für LLMs in der Produktion, da „reibungslose“ Bereitstellungen oft subtile Halluzinationen verschleiern, die zu finanziellen oder Datenverlusten führen, da wahrheitsbasierte Bewertungen fehlen. Er betont die Notwendigkeit robuster Abruf-Evaluierungspipelines, besserer Daten und spezifischer Strategien zur Prüfung der Zuverlässigkeit von KI-Agenten, um Denkfehler oder destruktive Aktionen zu verhindern.

27
CASEDEV.to AI·4/19/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

Der Autor nutzte eigenschaftsbasierte Tests, um die Wahrhaftigkeit der Behauptungen in einem KI-generierten Papier über den Bau eines "zweiten Gehirns" zu überprüfen. Während die meisten Behauptungen Bestand hatten, wurde ein universeller Quantor falsifiziert, was die Wirksamkeit der Methode bei der Aufdeckung subtiler struktureller Anforderungen unterstreicht.

27
RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Diese Arbeit argumentiert, dass die beobachteten Effekte von "kontrafaktuellem Prompting" in LLMs nicht einem gezielten Faktor zugeschrieben werden können, ohne bedeutungserhaltende Textmodifikationen zu berücksichtigen, die die allgemeine Modellsensitivität festlegen. Die Forschung zeigt, dass die Vorhersageumkehrraten beim chirurgischen Ändern des Patientengeschlechts statistisch nicht von den durch einfaches Paraphrasieren der Eingaben induzierten Raten unterscheidbar sind, was darauf hindeutet, dass keine besondere Sensitivität gegenüber dem Patientengeschlecht geschlossen werden kann.

27
RESEARCHarXiv CS.CL·4/9/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.CL·vor 18T

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.

27
RESEARCHarXiv CS.CL·vor 12T

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Diese Forschung stellt CARE (Community-Aware Reaction Evaluation) vor, ein Framework zur Bewertung der Fähigkeit großer Sprachmodelle (LLMs), Gemeinschaftsdiskurse mit authentischen menschlichen Reaktionen auf reale Nachrichten abzugleichen. Durch menschlich-KI-Kollaboration deckt die Studie eine "Realitätslücke" auf, die zeigt, dass explizite Community-Prompts die Simulationsgenauigkeit von LLMs nicht intrinsisch verbessern.

27
ARTICLEDEV.to AI·4/14/2026

I added a local eval loop to my personal AI assistant — here's what 800 scored interactions taught me

Der Autor integrierte eine lokale Evaluationsschleife mit einem Ollama-Modell in seinen persönlichen, selbst gehosteten KI-Assistenten, um Interaktionen nach Genauigkeit, Relevanz und angemessener Zuversicht zu bewerten. Nach der Analyse von 800 Interaktionen stellten sie fest, dass kürzere, direktere Antworten durchweg höhere Bewertungen erhielten.

26