← heapsort-ai

Model Evaluation

28 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen3.6 can code

Ein Benutzer, frustriert von OpenAI-Modellen, testete Qwen3.6-27b für die Svelte 5-Codegenerierung und erzielte ein perfektes Ergebnis, obwohl es länger dauerte. Er erwartet interessante Entwicklungen in den nächsten 12 Monaten, trotz des informellen Charakters der Bewertung.

52
RESEARCH↑ trendingReddit r/LocalLLaMA·4/18/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Dieser Inhalt präsentiert ein vergleichendes Forschungsprojekt, das „abliterierte Modelle“ (HauhauCS, Heretic, Huihui) gegen Qwen 3/3.5 analysiert, mithilfe einer vollständigen forensischen Suite inklusive Benchmarks und Sicherheitsbewertungen. Ziel ist es, Behauptungen zu überprüfen, dass diese Modelle „verlustfrei unzensiert“ und vom Leser reproduzierbar sind.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Ein Benutzer berichtet, Qwen3.6-35b-a3b lokal auf einem M5 Max MacBook Pro mit 8-Bit-Quantisierung und 64k Kontext auszuführen, wobei er feststellt, dass seine Leistung mit der von Claude vergleichbar ist. Sie sind sehr beeindruckt von seiner Geschwindigkeit, der Fähigkeit, komplexe Forschungsaufgaben zu bewältigen, und den Datenschutzvorteilen der lokalen Ausführung.

42
DOCOpenAI Blog·4/23/2026

GPT-5.5 System Card

Dieses Dokument mit dem Titel „GPT-5.5 System Card“ beschreibt wahrscheinlich die technischen Spezifikationen, Fähigkeiten und Einschränkungen des Sprachmodells GPT-5.5. Es dient als umfassendes Nachschlagewerk zum Verständnis der Funktionsweise und Nutzungsrichtlinien dieses fortschrittlichen KI-Systems.

32
RESEARCHarXiv CS.LG·4/13/2026

Robust Reasoning Benchmark

Diese Studie schlägt eine neue Störungs-Pipeline zur Bewertung der Robustheit des LLM-Schlussfolgerns vor, die auf den AIME 2024 Datensatz angewendet wird. Während Spitzenmodelle Widerstandsfähigkeit zeigen, erleiden Open-Weight-Modelle katastrophale Genauigkeitsverluste, was strukturelle Zerbrechlichkeit und potenzielle Probleme mit dem Arbeitsgedächtnis oder der mechanischen Analyse aufdeckt.

30
ARTICLEAWS Machine Learning Blog·vor 20T

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

Der Inhalt diskutiert die Notwendigkeit multimodaler Evaluatoren, wie MLLM-as-a-judge, für Bild-zu-Text-Aufgaben in Anwendungen wie visuellem Shopping und Dokumentenverständnis. Es wird betont, dass rein textbasierte Evaluatoren unzureichend sind, um zu überprüfen, ob die Modellantworten der KI tatsächlich in der Quellbildinformation verankert sind.

29
RESEARCHarXiv CS.AI·vor 27T

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Diese Forschungsarbeit zeigt, dass eingebettete numerische Anker auf Bildern systematisch die Qualitätsurteile von Vision-Language-Modellen (VLMs) verzerren. Schichtweise Sondierungen offenbaren, dass optimale Schichten für die Qualitätsprognose tiefer liegen als jene, in denen die Ankerklassifizierung sättigt, was eine kausale Erklärung für die visuelle Verankerungsverzerrung liefert.

29
RESEARCHarXiv CS.CL·5/4/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Diese Forschung untersucht effiziente Methoden zur Bewertung großer Audiomodelle (LAMs) mithilfe minimaler Daten-Teilmengen, die eine hohe Korrelation mit vollständigen Benchmarks erreichen. Sie zeigt auch, dass Regressionsmodelle, die auf diesen Teilmengen trainiert wurden, menschliche Präferenzen für die Benutzerzufriedenheit besser vorhersagen können als vollständige Benchmarks.

28
RESEARCHarXiv CS.CL·5/7/2026

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Diese Studie untersucht Halluzinationen von Großen Sprachmodellen (ChatGPT, Grok, Gemini, Copilot) beim Generieren akademischer Inhalte mithilfe von 80 Prompts in vier Kategorien. Eine neue gewichtete Metrik, der Halluzinationsindex (HI), wurde eingeführt, um die faktische Genauigkeit und Referenzgültigkeit zu messen.

28
ARTICLEDEV.to AI·4/21/2026

A boy and his dog.

Der Autor beschreibt das Training von „Scout“, einem Sprachmodell mit 50 Millionen Parametern, auf TinyStories, wobei die Datenqualität und die Verwendung von Prompt-Sonden sowie Claude Code zur Bewertung hervorgehoben werden. Er detailliert den Fortschritt des Modells und stellt dessen Fähigkeit fest, Subjekte zu erinnern, aber mit Kontextschwierigkeiten und Wiederholungen bei 12.800 Schritten.

27
RESEARCHarXiv CS.CL·4/6/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27
RESEARCHarXiv CS.AI·vor 6T

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Dieser Artikel bewertet "schädliches Überdenken" in großen Schlussfolgerungsmodellen, bei dem fortgesetztes Nachdenken nach einer korrekten Antwort die Flugbahn destabilisieren kann. Es wird ein Protokoll eingeführt, um redundantes von schädlichem Überdenken zu unterscheiden, wobei Probleme in multimodalen Benchmarks festgestellt werden.

27
RESEARCHarXiv CS.CL·4/27/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.

27
RESEARCHarXiv CS.CL·4/30/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Diese Forschung untersucht den Einsatz leichter Large Language Models (LLMs) für die biomedizinische Named Entity Recognition und zeigt deren wettbewerbsfähige Leistung im Vergleich zu größeren Modellen. Die Studie hebt ihr Potenzial als ressourcenschonende Alternativen hervor und identifiziert spezifische Ausgabeformate, die die Leistung konsistent verbessern.

27