← heapsort-ai

model performance

22 items

RESEARCH↑ trendingReddit r/MachineLearning·4/17/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Der Inhalt beschreibt ein anhaltendes Problem mit geringer Genauigkeit (~50%) bei der hyperspektralen Pflanzenstresserkennung mittels selbstüberwachter Lernmethoden wie BYOL, MAE und VICReg. Trotz verschiedener Techniken bleibt die Leistung für drei Klassen kaum besser als zufällig, was zu Zweifeln an der Datenseparierbarkeit oder der Eignung der SSL-Methoden führt.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

Qwen 3.6 27B hat große Fortschritte gemacht und Sonnet 4.6 im Agentic Index von Artificial Analysis erreicht, wobei es mehrere andere prominente Modelle übertrifft. Das Training des Modells scheint auf den agentischen Einsatz ausgerichtet zu sein und zeigt trotz fragwürdiger Metriken im Coding Index eine überraschende Leistung für seine Größe.

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6
41
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

Did Google hide the best version of Gemma 4 e4b in Android? The extracted model beats Unsloth and everything else I've tried.

Der Benutzer stellte fest, dass eine aus der Google AI Edge Gallery auf Android extrahierte Version des Gemma 4 e4b-Modells deutlich besser und intelligenter abschneidet als Versionen von Unsloth oder litertlm, obwohl sie etwas kleiner ist. Er fragt sich, ob Google möglicherweise eine überlegene, optimierte Version des Modells auf Android verbirgt.

38
RESEARCHarXiv CS.LG·vor 20T

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Dieses Papier schlägt ein skalierbares, adaptives Framework zur Verbesserung der raumzeitlichen Vorhersage vor, indem es räumliche und zeitliche Merkmalsdarstellungen harmonisiert. Es behandelt Engpässe bestehender Methoden durch räumliche und zeitliche Entropiemaße, um Komplexitätsungleichheiten und Vorhersageunsicherheiten zu begegnen.

29
RESEARCHarXiv CS.CL·vor 19T

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Diese Forschung untersucht, wie verschiedene niedrigbitige Quantisierungsstufen die Leistung von LLaMA-3.1 in der qualitativen Analyse beeinflussen, wobei festgestellt wird, dass Modelle mit geringer Bitrate oft Halluzinationen erzeugen. Es wird eine quantisierungsbewusste Mehrfach-Prompt-Verifizierungsmethode vorgeschlagen, um die Genauigkeit durch systematische Reduzierung von Halluzinationen und Filterung unzuverlässiger Inhalte zu verbessern.

28
RESEARCHDEV.to AI·vor 20T

How Far Can a Small Coding Model Go With a Better Harness?

Der Artikel untersucht die Leistung eines kleinen Codierungsmodells (GPT-5.1-Codex-Mini) auf Terminal-Bench 2.0, das durch Optimierung seines „Harness“ statt durch Verwendung eines größeren Modells 61,6 % erreicht. Dies unterstreicht die entscheidende Rolle des Modell-Wrappers für die Leistung, insbesondere bei kleineren Modellen, wo Harness-Fehler stärker ins Gewicht fallen.

27
ARTICLEDEV.to AI·vor 15T

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Dieser Artikel vergleicht die 16-, 8- und 4-Bit-Quantisierung von LLMs und zeigt, dass 4-Bit, obwohl schneller, die Qualität bei Denk- und mathematischen Aufgaben erheblich beeinträchtigt. Der eigentliche Kompromiss liegt zwischen der Aufgabe und der erforderlichen Präzision, wobei 8-Bit optimal für präzise Aufgaben ist und minimalen Qualitätsverlust bei geringfügiger Geschwindigkeitseinbuße bietet. Die Wahl der Quantisierung sollte auf der Aufgabe und Hardware-Überlegungen basieren, nicht nur auf der Hardware.

27
ARTICLEDEV.to AI·vor 22T

Saturday Night Fights

Dieser Artikel zeigt eine erhebliche Lücke zwischen den Benchmark-Ergebnissen von KI-Modellen und ihrer praktischen Leistung in Agenten-Bereitschaftstests, bei denen viele hoch bewertete Modelle in realen Herausforderungen versagen. Der Autor schlägt eine "Kampfkarte" vor, um KI-Modelle anhand ihrer wahren operativen Fähigkeiten und nicht anhand oberflächlicher Metriken zu bewerten.

27
NEWSDEV.to AI·4/26/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro wurde am 24. April 2026 eingeführt und bietet 1,6 Billionen Parameter sowie einen Kontext von 1 Million Tokens mit „Denk-“ und „Nicht-Denk-Modi“. Dieses neue Modell wird aufgrund seiner Kosteneffizienz und erheblichen Verbesserungen bei Langkontextaufgaben und Funktionsaufrufen im Vergleich zu früheren Versionen und Wettbewerbern als optimierte Wahl für KI-Agenten hervorgehoben.

27
RESEARCHDEV.to AI·5/9/2026

Hierarchical skill KB improves performance of weaker models

Eine neue automatisierte Pipeline, SkillX, verbessert die Leistung autonomer Sprachmodellagenten, indem sie wiederverwendbare, hierarchische Verhaltensweisen aus kollektiven Trajektorien extrahiert. Diese dreistufige Wissensbasis (strategische, funktionale, atomare Fähigkeiten) ermöglicht es schwächeren Modellen, Erfahrungen effizient abzurufen und so die Einschränkungen traditioneller Methoden zu überwinden.

27
ARTICLEDEV.to AI·5/9/2026

DeepSeek V4 Pro vs Flash: 3 Tasks, 100M Tokens, Real Cost-Quality Tradeoff

Diese Analyse vergleicht die DeepSeek V4 Pro- und V4 Flash-Modelle und stellt einen 12-fachen Preisunterschied, aber eine minimale Qualitätslücke bei einfachen Codierungsaufgaben fest, wodurch Flash eine praktikable Option darstellt. Für komplexes Reasoning über mehrere Dateien hinweg ist V4 Pro unerlässlich, und die Implementierung eines aufgabenbasierten Routings kann die DeepSeek-Kosten um 80 % senken, ohne die Qualität wesentlich zu beeinträchtigen.

27
ARTICLEDEV.to AI·5/8/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Ein Ingenieurteam führte vier DPO-Trainingsiterationen mit Qwen2.5-Coder-7B-Instruct durch, um dessen HumanEval pass@1-Score von 87,20% zu übertreffen. Die ersten drei Versuche scheiterten aufgrund von Pipeline-Fehlern, die von bestehenden Qualitätssicherungen nicht erkannt wurden, wobei die vierte Iteration schließlich eine Verbesserung von +0,61pp erzielte.

27