← heapsort-ai

code generation

107 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen3.6 can code

Un utilisateur, frustré par les modèles OpenAI, a essayé Qwen3.6-27b pour générer du code Svelte 5 et a obtenu un résultat parfait, bien que cela ait pris plus de temps. Il anticipe des développements intéressants au cours des 12 prochains mois, malgré le caractère informel de l'évaluation.

52
CASE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6. This is it.

Un utilisateur raconte son expérience avec le modèle Qwen3.6, qui a réussi à construire et tester un jeu de tower defense, démontrant sa capacité à identifier et corriger ses propres bugs. L'IA a confirmé les constructions à l'aide de captures d'écran, stupéfiant l'utilisateur par ses capacités avancées.

Qwen3.6. This is it.
43
RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]

AutoBe est un nouveau benchmark pour la génération de backend de bout en bout, où les requêtes en langage naturel produisent six sorties structurées via des appels de fonction. Le benchmark révèle que la qualité du backend est plus influencée par la conception du harnais que par le prestige du modèle, avec des modèles locaux performant de manière comparable aux modèles de pointe à un coût nettement inférieur.

43
RESEARCH↑ trendingReddit r/MachineLearning·27/04/2026

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

L'auteur présente Mahoraga, un orchestrateur open-source qui achemine efficacement les tâches entre les agents IA locaux et cloud via un bandit contextuel (LinUCB). Créé suite à des limites de crédits cloud, l'outil optimise l'utilisation de l'IA, soulignant la performance de Qwen3 4B pour les tâches de code.

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·07/05/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Le Meta Superintelligence Lab présente ProgramBench, une initiative testant la capacité des IA avancées à recréer des programmes exécutables tels que ffmpeg et SQLite à partir de zéro, sans accès à Internet. Cette étude vise à explorer les limites de la génération de code par l'IA. La recherche se concentre sur l'évaluation de l'autonomie et de l'exhaustivité des modèles d'IA dans la synthèse de logiciels complexes.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·28/04/2026

Local model on coding has reached a certain threshold to be feasible for real work

Les modèles de code open-weight de 27B–32B, tels que Qwen 3.6-27B, ont atteint un taux de réussite de 38,2% sur Terminal-Bench 2.0 pour les tâches de codage, selon les contraintes standards. L'accent est mis sur la faisabilité des modèles locaux et les améliorations significatives de la vitesse d'inférence des architectures MOE.

Local model on coding has reached a certain threshold to be feasible for real work
42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Une expérience a montré qu'un petit modèle d'IA peut s'entraîner à coder en inventant des problèmes, en les résolvant et en s'affinant sur ses propres corrections. Le modèle a atteint 80% sur HumanEval et a surpassé GPT-3.5 en mathématiques, en utilisant seulement un interpréteur Python comme juge.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

L'utilisateur fait part d'une expérience très positive et efficace avec l'agent de codage PI, utilisant un modèle local Qwen3.6 35b pour des projets de production. Le succès a été attribué à un fichier de « skill » personnalisé qui impose un flux de travail de planification, garantissant une exécution étape par étape et l'approbation du plan avant tout codage.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un utilisateur tente d'effectuer des tâches de codage avec Qwen3.6-35B sur un Macbook Pro M2 de 32 Go, rencontrant des problèmes d'épuisement de la mémoire et de gestion de la fenêtre contextuelle. Bien que le modèle identifie l'essence d'un bug, il ne parvient pas à implémenter la solution car des informations cruciales sont perdues lors de la compaction du contexte.

39
ARTICLEDEV.to AI·22/04/2026

Cursor Rules for Vue.js: Composition API Patterns That Scale

Cet article explique comment les assistants IA tels que Cursor ou Claude génèrent souvent du code Vue.js sous-optimal en raison de données d'entraînement obsolètes, mélangeant anciens et nouveaux modèles d'API. Il propose d'appliquer des modèles spécifiques et modernes de l'API de Composition de Vue 3 via des règles vérifiées dans le dépôt, comme `.cursorrules`, pour garantir la qualité et l'évolutivité du code, plutôt que de se fier uniquement aux invites.

36
RESEARCHarXiv CS.AI·il y a 5j

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL est un nouveau framework qui améliore la génération de code RTL basée sur LLM, en combinant la modélisation de trajectoire pas à pas, la modélisation de récompense de processus (PRM) et le réglage fin augmenté par récupération (RAFT). Il utilise un feedback dense d'un PRM pour guider les mises à jour de type renforcement et la recherche arborescente de Monte Carlo (MCTS) pour enrichir l'ensemble de données d'entraînement.

33
RESEARCHDEV.to AI·21/04/2026

We Ran 52 AI Coding Benchmarks. Here's Every Uncomfortable Thing We Found.

Cette étude a mené 52 benchmarks de codage IA, révélant que le brief initial est la variable la plus critique dans le développement assisté par IA. Un brief structuré (CONTRACT.md) réduit les coûts de 54 % et améliore la qualité de 5/10 à 9/10, tandis que les équipes d'agents et les boucles de réessai se sont avérées coûteuses ou inefficaces.

33