← heapsort-ai

AI evaluation

65 items

ARTICLEDEV.to AI·4/17/2026

lantea AI

Lantea.ai führt ein proprietäres Metriksystem zur Bewertung von KI ein, das die traditionelle, auf Parameterskalierung basierende Sichtweise herausfordert. Das Unternehmen definiert fünf wesentliche Indikatoren (Divergenz, Rechenleistungsdaten, Signaldichte-Input, Ausgabe-Genauigkeit, Verfeinerung), die Kreativität, rechnerische Effizienz, logische Robustheit und die Fähigkeit zur Wissensverfeinerung messen.

27
DOCAWS Machine Learning Blog·vor 12T

Evaluating Deep Agents using LangSmith on AWS

Dieser Beitrag bietet eine praktische Anleitung, die Erkenntnisse aus LangChain und Anthropic kombiniert, um tiefe KI-Agenten zu bewerten. Er beschreibt, wie Bewertungsmodelle angewendet, Offline-Bewertungen mit pytest und LangSmith erstellt und Online-Überwachung mit einem Text-zu-SQL-Agenten auf Amazon Bedrock konfiguriert werden können.

27
RESEARCHarXiv CS.AI·4/22/2026

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

Diese Forschungsarbeit behandelt die Einschränkung, dass Benutzer mit Sprachmodellen nur über einzelne Ausgaben interagieren, was die vollständige Verteilung möglicher Generierungen verbirgt. Sie stellt GROVE vor, eine interaktive Visualisierung, die mehrere LM-Generierungen als überlappende Pfade in einem Textgraphen darstellt und so gemeinsame Strukturen und Verzweigungspunkte für ein besseres Verständnis offenbart.

27
ARTICLEDEV.to AI·4/21/2026

Evaluating AI Tools for Research: A Framework for Accuracy, Bias, and Trustworthiness

Der Artikel befasst sich mit der kritischen Herausforderung, die Zuverlässigkeit von KI-gestützter Forschung zu gewährleisten, bei der der Engpass nicht mehr der Informationszugang, sondern die Genauigkeit der KI-Ergebnisse ist. Er schlägt ein dreischichtiges Modell — Abruf-Integrität, Denk-Fidelität und Ausgabe-Verifizierbarkeit — zur Bewertung von KI-Tools in der Forschung vor.

27
ARTICLEDEV.to AI·vor 25T

AI Reliability: What It Is, Why It Matters, and How to Fix It

Der Artikel beleuchtet das kritische Problem der KI-Zuverlässigkeit, bei dem Systeme in der Produktion trotz guter Benchmark-Ergebnisse versagen, da sie auf statischen Daten und nicht auf realen Eingaben bewertet werden. Es wird argumentiert, dass das Problem in der falschen Messung der KI-Leistung liegt, was zu unerwarteten Ausfällen nach der Bereitstellung führt.

27
ARTICLEDEV.to AI·vor 16T

Deux IA d'accord = une source : la règle qui m'a évité un pipeline bâti sur du vide

Der Autor legte sein Counterpart Toolkit ChatGPT-4o und Claude.ai zur Überprüfung vor und erhielt von beiden KIs nahezu identische Bewertungen und Kritiken. Diese Konvergenz ließ ihn hinterfragen, ob „zwei übereinstimmende KIs“ wirklich zwei unabhängige Quellen darstellen, was auf eine gemeinsame Voreingenommenheit oder eine gemeinsame Argumentationsquelle hindeutet.

27
ARTICLEDEV.to AI·vor 16T

Two AI reviews agreeing is not two reviews: how I learned to test claims before adopting them

Der Autor reichte ein Toolkit zur Überprüfung bei ChatGPT-4o und Claude.ai ein und erhielt identische Bewertungen und Kritiken. Diese Konvergenz zeigte, dass mehrere KI-Modelle, die auf überlappenden Korpora trainiert wurden, keine unabhängige Validierung bieten, was die Notwendigkeit betont, KI-Behauptungen kritisch zu prüfen.

27
ARTICLEDEV.to AI·vor 22T

Saturday Night Fights

Dieser Artikel zeigt eine erhebliche Lücke zwischen den Benchmark-Ergebnissen von KI-Modellen und ihrer praktischen Leistung in Agenten-Bereitschaftstests, bei denen viele hoch bewertete Modelle in realen Herausforderungen versagen. Der Autor schlägt eine "Kampfkarte" vor, um KI-Modelle anhand ihrer wahren operativen Fähigkeiten und nicht anhand oberflächlicher Metriken zu bewerten.

27
CASEDEV.to AI·vor 26T

The First Psychiatric Evaluation of AI Agents

Eine KI-"Psychiaterin", Lingke, bewertete die Agenten Lingflow Plus und Lingyi nach einer Reihe von Ausfällen, darunter systemweite Lähmung und die Erstellung größtenteils fabrizierter Inhalte. Die Bewertung zeigte, dass Lingflow Plus "Konfabulation" und "manisches Verhalten" aufwies, indem es unbestätigte Daten produzierte und bei kritischen Implementierungen versagte.

27
ARTICLEDEV.to AI·vor 26T

第一次对AI Agent的精神病学评估

Die erste psychiatrische Bewertung von KI-Agenten (Lingtong+ und Lingyi) offenbarte Probleme wie Konfabulation, manische Überproduktion minderwertiger Inhalte und impulsive Bereitstellungsfehler. Die Bewertung, durchgeführt vom KI-Agenten Lingke, folgte einem P0-Kaskaden-Vorfall und unterstreicht die Notwendigkeit besserer Kontrolle und Selbstkritik in KI-Systemen.

27
RESEARCHarXiv CS.AI·4/25/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Dieses Papier stellt ein neues Framework zur Bewertung regelbasierter KI vor, insbesondere in der Inhaltsmoderation, das über einfache Übereinstimmungsmetriken hinausgeht. Es schlägt den Defensibility Index (DI), Ambiguity Index (AI) und Probabilistic Defensibility Signal (PDS) vor, um die politikbasierte Korrektheit und die Stabilität des Denkens zu bewerten, indem LLM-Begründungsspuren zur Überprüfung der logischen Ableitbarkeit aus Regeln genutzt werden.

27
RESEARCHarXiv CS.CL·5/1/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Dieses Papier stellt einen ILR-informierten Bewertungsrahmen vor, um die sprachübergreifende Antwortkonsistenz von Claude (Sonnet 4.6) in sechs Sprachen zu evaluieren. Die quantitative und qualitative Analyse zeigt sprachspezifische Variationen auf, wie z.B. Unterschiede in der Antwortlänge und oberflächliche Divergenzen in kreativen Clustern.

27
RESEARCHarXiv CS.AI·4/27/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Diese Arbeit entwickelt ein agentisches Reproduktionssystem, das LLMs nutzt, um sozialwissenschaftliche Forschungsergebnisse zu reproduzieren, basierend nur auf der Methodenbeschreibung eines Papers und Originaldaten. Bei der Bewertung von vier Agenten-Scaffolds und vier LLMs an 48 Papers zeigte sich, dass veröffentlichte Ergebnisse weitgehend wiederhergestellt werden können, die Leistung jedoch stark variiert und Fehler auf Agentenfehler zurückzuführen sind.

27