Model Evaluation

28 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen3.6 can code

Ein Benutzer, frustriert von OpenAI-Modellen, testete Qwen3.6-27b für die Svelte 5-Codegenerierung und erzielte ein perfektes Ergebnis, obwohl es länger dauerte. Er erwartet interessante Entwicklungen in den nächsten 12 Monaten, trotz des informellen Charakters der Bewertung.

AI models Model Evaluation code generation

RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Dieser Inhalt präsentiert ein vergleichendes Forschungsprojekt, das „abliterierte Modelle“ (HauhauCS, Heretic, Huihui) gegen Qwen 3/3.5 analysiert, mithilfe einer vollständigen forensischen Suite inklusive Benchmarks und Sicherheitsbewertungen. Ziel ist es, Behauptungen zu überprüfen, dass diese Modelle „verlustfrei unzensiert“ und vom Leser reproduzierbar sind.

AI models LLMs Model Evaluation Benchmarking

RESEARCH↑ trendingReddit r/LocalLLaMA·4/26/2026

Confirmed: SWE Bench is now a benchmaxxed benchmark

Der Titel verkündet, dass SWE Bench, ein Benchmark zur Bewertung von KI in der Softwareentwicklung, als „benchmaxxed“ Benchmark bestätigt wurde. Dies deutet darauf hin, dass er einen hohen Relevanz- oder Sättigungsstatus in diesem Bereich erreicht hat.

software-engineering-ai Model Evaluation Benchmarks

Confirmed: SWE Bench is now a benchmaxxed benchmark

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Ein Benutzer berichtet, Qwen3.6-35b-a3b lokal auf einem M5 Max MacBook Pro mit 8-Bit-Quantisierung und 64k Kontext auszuführen, wobei er feststellt, dass seine Leistung mit der von Claude vergleichbar ist. Sie sind sehr beeindruckt von seiner Geschwindigkeit, der Fähigkeit, komplexe Forschungsaufgaben zu bewältigen, und den Datenschutzvorteilen der lokalen Ausführung.

LLMs privacy Model Evaluation Local AI

RESEARCHDEV.to AI·4/23/2026

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

Der dritte Lauf des Anthropic Cyber Verification Program testete die Sicherheit des kleinsten Claude-Modells (Haiku 4.5) gegen 13 Agenten-Angriffsszenarien. Das Ergebnis war 13/13 sauber, ohne Exploits oder Datenlecks, was die Skalierbarkeit des Sicherheits-Stacks auf kleinere Modelle bestätigt.

Model Evaluation security Anthropic AI safety

ARTICLE↑ trendingReddit r/LocalLLaMA·4/26/2026

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

Dieser Inhalt rezensiert das Qwen3.6 35B A3B Heretic Modell und lobt es als das beste unzensierte 35B Modell, das der Benutzer gefunden hat. Es hebt seine Fähigkeit hervor, in 24 GB VRAM zu passen, Multi-Turn-Tool-Aufrufe zu verarbeiten und potenziell höhere Benchmarks als das ursprüngliche Qwen 3.6 Modell zu erzielen.

Model Evaluation Fine-tuning LLM

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

DOCOpenAI Blog·4/23/2026

GPT-5.5 System Card

Dieses Dokument mit dem Titel „GPT-5.5 System Card“ beschreibt wahrscheinlich die technischen Spezifikationen, Fähigkeiten und Einschränkungen des Sprachmodells GPT-5.5. Es dient als umfassendes Nachschlagewerk zum Verständnis der Funktionsweise und Nutzungsrichtlinien dieses fortschrittlichen KI-Systems.

Model Evaluation large language models AI safety Generative AI

RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

robustness LLMs Model Evaluation Reasoning

ARTICLEAWS Machine Learning Blog·vor 20T

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

Der Inhalt diskutiert die Notwendigkeit multimodaler Evaluatoren, wie MLLM-as-a-judge, für Bild-zu-Text-Aufgaben in Anwendungen wie visuellem Shopping und Dokumentenverständnis. Es wird betont, dass rein textbasierte Evaluatoren unzureichend sind, um zu überprüfen, ob die Modellantworten der KI tatsächlich in der Quellbildinformation verankert sind.

AI models multimodal AI MLLM Model Evaluation

RESEARCHDEV.to AI·4/22/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, ein neuer Benchmark von IBM Research, zeigt, dass KI-Agenten auf vorhersagbare, strukturelle Weise versagen, indem er Bruchstellen zwischen Argumentation, Werkzeugauswahl und Ausführung abbildet. Er zerlegt Agentenversagen in sechs spezifische Kategorien und geht über traditionelle binäre Bewertungen hinaus, um gemeinsame Schwächen aufzudecken.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.AI·vor 27T

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Diese Forschungsarbeit zeigt, dass eingebettete numerische Anker auf Bildern systematisch die Qualitätsurteile von Vision-Language-Modellen (VLMs) verzerren. Schichtweise Sondierungen offenbaren, dass optimale Schichten für die Qualitätsprognose tiefer liegen als jene, in denen die Ankerklassifizierung sättigt, was eine kausale Erklärung für die visuelle Verankerungsverzerrung liefert.

neural networks Vision-Language Models Model Evaluation representation learning

RESEARCHarXiv CS.AI·4/14/2026

Seven simple steps for log analysis in AI systems

Diese Forschung schlägt eine standardisierte Pipeline für die Log-Analyse in KI-Systemen vor, um dem derzeitigen Mangel an einem gemeinsamen Ansatz zu begegnen. Sie bietet ein Framework mit konkreten Code-Beispielen unter Verwendung der Inspect Scout-Bibliothek, das Forschende durch Schritte für eine rigorose und reproduzierbare Analyse führt.

Model Evaluation Log Analysis Reproducibility AI Systems

RESEARCHarXiv CS.CL·5/4/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Diese Forschung untersucht effiziente Methoden zur Bewertung großer Audiomodelle (LAMs) mithilfe minimaler Daten-Teilmengen, die eine hohe Korrelation mit vollständigen Benchmarks erreichen. Sie zeigt auch, dass Regressionsmodelle, die auf diesen Teilmengen trainiert wurden, menschliche Präferenzen für die Benutzerzufriedenheit besser vorhersagen können als vollständige Benchmarks.

Model Evaluation efficiency Benchmarks Large Audio Models

RESEARCHarXiv CS.CL·5/7/2026

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Diese Studie untersucht Halluzinationen von Großen Sprachmodellen (ChatGPT, Grok, Gemini, Copilot) beim Generieren akademischer Inhalte mithilfe von 80 Prompts in vier Kategorien. Eine neue gewichtete Metrik, der Halluzinationsindex (HI), wurde eingeführt, um die faktische Genauigkeit und Referenzgültigkeit zu messen.

academic writing AI quality Model Evaluation hallucinations

ARTICLEDEV.to AI·4/21/2026

A boy and his dog.

Der Autor beschreibt das Training von „Scout“, einem Sprachmodell mit 50 Millionen Parametern, auf TinyStories, wobei die Datenqualität und die Verwendung von Prompt-Sonden sowie Claude Code zur Bewertung hervorgehoben werden. Er detailliert den Fortschritt des Modells und stellt dessen Fähigkeit fest, Subjekte zu erinnern, aber mit Kontextschwierigkeiten und Wiederholungen bei 12.800 Schritten.

prompt engineering Model Evaluation LLM training Data Quality

RESEARCHarXiv CS.CL·4/6/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

linguistic bias stereotyping LLM bias task-dependent bias

RESEARCHarXiv CS.AI·vor 6T

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Dieser Artikel bewertet "schädliches Überdenken" in großen Schlussfolgerungsmodellen, bei dem fortgesetztes Nachdenken nach einer korrekten Antwort die Flugbahn destabilisieren kann. Es wird ein Protokoll eingeführt, um redundantes von schädlichem Überdenken zu unterscheiden, wobei Probleme in multimodalen Benchmarks festgestellt werden.

multimodal AI Overthinking Model Evaluation AI Reasoning

DOCDEV.to AI·5/10/2026

65. ROC Curves and AUC: Comparing Models Fairly

Dieser Inhalt erklärt, wie man ROC-Kurven und AUC verwendet, um Klassifikationsmodelle fair zu vergleichen, indem man die Leistung über alle möglichen Schwellenwerte hinweg bewertet. Er erläutert, was sie sind, wie man sie interpretiert und wann man sie anstelle anderer Metriken einsetzt, einschließlich häufiger Missverständnisse.

Classification Model Evaluation machine learning ROC curve

RESEARCHarXiv CS.CL·4/27/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.

reinforcement learning AI training Large Language Models (LLMs)Model Evaluation

RESEARCHarXiv CS.CL·4/30/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Diese Forschung untersucht den Einsatz leichter Large Language Models (LLMs) für die biomedizinische Named Entity Recognition und zeigt deren wettbewerbsfähige Leistung im Vergleich zu größeren Modellen. Die Studie hebt ihr Potenzial als ressourcenschonende Alternativen hervor und identifiziert spezifische Ausgabeformate, die die Leistung konsistent verbessern.

LLMs named entity recognition Model Evaluation NLP