← heapsort-ai

code generation

107 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen3.6 can code

Ein Benutzer, frustriert von OpenAI-Modellen, testete Qwen3.6-27b für die Svelte 5-Codegenerierung und erzielte ein perfektes Ergebnis, obwohl es länger dauerte. Er erwartet interessante Entwicklungen in den nächsten 12 Monaten, trotz des informellen Charakters der Bewertung.

52
CASE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6. This is it.

Ein Nutzer berichtet von seiner Erfahrung mit dem Qwen3.6-Modell, das erfolgreich ein Tower-Defense-Spiel erstellte und testete und dabei die Fähigkeit zeigte, eigene Fehler zu identifizieren und zu beheben. Die KI bestätigte die Builds mittels Screenshots, was den Nutzer mit ihren fortschrittlichen Fähigkeiten verblüffte.

Qwen3.6. This is it.
43
RESEARCH↑ trendingReddit r/MachineLearning·5/4/2026

AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]

AutoBe ist ein neuer Benchmark für die End-to-End-Backend-Generierung, bei dem natürliche Sprachanfragen sechs strukturierte Ausgaben mittels strukturierter Funktionsaufrufe erzeugen. Der Benchmark zeigt, dass die Backend-Qualität stärker vom Harness-Design als vom Modell-Prestige beeinflusst wird, wobei lokale Modelle vergleichbar gut wie führende Modelle zu deutlich geringeren Kosten abschneiden.

43
RESEARCH↑ trendingReddit r/MachineLearning·4/27/2026

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

Der Autor stellt Mahoraga vor, einen Open-Source-Orchestrator, der Aufgaben mittels eines kontextuellen Banditen (LinUCB) effizient zwischen lokalen und Cloud-KI-Agenten leitet. Aus persönlicher Erfahrung mit Cloud-Guthaben-Limits entstanden, optimiert das Tool die KI-Nutzung und hebt die Leistung von Qwen3 4B bei Code-Aufgaben hervor.

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·5/7/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Das Meta Superintelligence Lab stellt ProgramBench vor, eine Initiative, die die Fähigkeit fortschrittlicher KIs testet, ausführbare Programme wie ffmpeg und SQLite von Grund auf neu zu erstellen, ohne Internetzugang. Diese Studie zielt darauf ab, die Grenzen der KI-Codegenerierung zu erforschen. Die Forschung konzentriert sich auf die Bewertung der Autonomie und Vollständigkeit von KI-Modellen bei der komplexen Softwaresynthese.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 26T

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Ein Experiment zeigte, dass ein kleines KI-Modell sich selbst zum Programmieren trainieren kann, indem es Probleme erfindet, sie löst und sich anhand eigener Korrekturen feinabstimmt. Das Modell erreichte 80% bei HumanEval und übertraf GPT-3.5 in Mathematik, wobei nur ein Python-Interpreter als Richter diente.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

Der Benutzer berichtet von einer äußerst positiven und effektiven Erfahrung mit dem PI Coding Agent und einem lokalen Qwen3.6 35b Modell in Produktionsprojekten. Der Erfolg wurde einer benutzerdefinierten „Plan-First Skill-Datei“ zugeschrieben, die einen strukturierten Planungs-Workflow erzwingt und eine schrittweise Ausführung sowie die Planfreigabe vor der Codierung sicherstellt.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Ein Benutzer versucht, Programmierarbeiten mit Qwen3.6-35B auf einem M2 Macbook Pro mit 32 GB RAM durchzuführen, stößt jedoch auf Probleme mit Speicherausschöpfung und Kontextfensterverwaltung. Obwohl das Modell die Kernursache eines Fehlers erkennt, scheitert es an der Implementierung, da wichtige Informationen während der Kontextkomprimierung verloren gehen.

39
ARTICLEDEV.to AI·4/22/2026

Cursor Rules for Vue.js: Composition API Patterns That Scale

Dieser Artikel behandelt, wie KI-Assistenten wie Cursor oder Claude aufgrund veralteter Trainingsdaten oft suboptimalen Vue.js-Code generieren, der alte und neue API-Muster mischt. Er schlägt vor, spezifische, moderne Vue 3 Composition API-Muster durch im Repository geprüfte Regeln wie `.cursorrules` durchzusetzen, um Codequalität und Skalierbarkeit zu gewährleisten, anstatt sich nur auf Prompts zu verlassen.

36
RESEARCHarXiv CS.AI·vor 5T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

33
RESEARCHDEV.to AI·4/21/2026

We Ran 52 AI Coding Benchmarks. Here's Every Uncomfortable Thing We Found.

Die Studie führte 52 KI-Codierungsbenchmarks durch und zeigte, dass die größte Variable bei der KI-gestützten Entwicklung der anfängliche Brief ist. Ein strukturierter Brief (CONTRACT.md) senkt die Kosten um 54 % und steigert die Qualität von 5/10 auf 9/10, während Agenten-Teams und Wiederholungsschleifen sich als unwirksam oder schädlich erwiesen.

33