← heapsort-ai

code generation

107 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen3.6 can code

Un usuario, frustrado con los modelos de OpenAI, probó Qwen3.6-27b para generar código Svelte 5 y obtuvo un resultado perfecto, aunque tardó más. Anticipa desarrollos interesantes en los próximos 12 meses, a pesar de la naturaleza informal de la evaluación.

52
CASE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6. This is it.

Un usuario relata su experiencia con el modelo Qwen3.6, que construyó y probó con éxito un juego de defensa de torres, demostrando la capacidad de identificar y corregir sus propios errores. La IA confirmó las compilaciones usando capturas de pantalla, sorprendiendo al usuario con sus capacidades avanzadas.

Qwen3.6. This is it.
43
RESEARCH↑ trendingReddit r/MachineLearning·4/5/2026

AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]

AutoBe es un nuevo benchmark para la generación de backend de extremo a extremo, donde las solicitudes en lenguaje natural producen seis salidas estructuradas mediante llamadas a funciones. El benchmark revela que la calidad del backend está más influenciada por el diseño del arnés que por el prestigio del modelo, con modelos locales rindiendo de manera comparable a los modelos de frontera a un costo significativamente menor.

43
RESEARCH↑ trendingReddit r/MachineLearning·27/4/2026

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

El autor presenta Mahoraga, un orquestador de código abierto que enruta tareas eficientemente entre agentes de IA locales y en la nube utilizando un bandit contextual (LinUCB). Desarrollada por experiencia personal con límites de créditos en la nube, la herramienta optimiza el uso de la IA, destacando el rendimiento de Qwen3 4B en tareas de código.

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·7/5/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

El Meta Superintelligence Lab presenta ProgramBench, una iniciativa que prueba la capacidad de las IAs avanzadas para recrear programas ejecutables como ffmpeg y SQLite desde cero, sin acceso a internet. Este estudio busca explorar los límites de la generación de código por IA. La investigación se centra en evaluar la autonomía y la completitud de los modelos de IA en la síntesis de software complejo.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·28/4/2026

Local model on coding has reached a certain threshold to be feasible for real work

Modelos de código de peso abierto de 27B–32B, como Qwen 3.6-27B, lograron una tasa de éxito del 38.2% en Terminal-Bench 2.0 para tareas de codificación bajo restricciones estándar. El enfoque está en la viabilidad de los modelos locales y las mejoras significativas en la velocidad de inferencia de las arquitecturas MOE.

Local model on coding has reached a certain threshold to be feasible for real work
42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 26d

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Un experimento demostró que un pequeño modelo de IA puede entrenarse a sí mismo para programar, inventando problemas, resolviéndolos y afinando sus propias correcciones. El modelo alcanzó el 80% en HumanEval y superó a GPT-3.5 en matemáticas, utilizando solo un intérprete de Python como juez.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

El usuario informa una experiencia muy positiva y efectiva con el PI Coding Agent, utilizando un modelo local Qwen3.6 35b para proyectos de producción. El éxito se atribuyó a un archivo de "skill" personalizado que impone un flujo de trabajo de planificación, asegurando la ejecución paso a paso y la aprobación del plan antes de cualquier codificación.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un usuario intenta realizar tareas de codificación con Qwen3.6-35B en un Macbook Pro M2 de 32GB, enfrentando problemas de agotamiento de memoria y gestión de la ventana de contexto. Aunque el modelo identifica la esencia de un error, no logra implementar la solución debido a la pérdida de información crucial durante la compactación del contexto.

39
ARTICLEDEV.to AI·22/4/2026

Cursor Rules for Vue.js: Composition API Patterns That Scale

Este artículo analiza cómo los asistentes de IA como Cursor o Claude a menudo generan código Vue.js subóptimo debido a datos de entrenamiento desactualizados, mezclando patrones de API antiguos y nuevos. Propone hacer cumplir patrones específicos y modernos de la Composition API de Vue 3 a través de reglas verificadas en el repositorio, como `.cursorrules`, para asegurar la calidad y escalabilidad del código, en lugar de depender únicamente de los prompts.

36
RESEARCHarXiv CS.AI·hace 5d

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL es un nuevo framework que mejora la generación de código RTL basada en LLM, combinando modelado de trayectoria paso a paso, modelado de recompensa de proceso (PRM) y ajuste fino aumentado por recuperación (RAFT). Utiliza retroalimentación densa de un PRM para guiar actualizaciones de estilo refuerzo y Monte Carlo Tree Search (MCTS) para enriquecer el conjunto de datos de entrenamiento.

33
RESEARCHDEV.to AI·21/4/2026

We Ran 52 AI Coding Benchmarks. Here's Every Uncomfortable Thing We Found.

Este estudio realizó 52 benchmarks de codificación con IA, descubriendo que la variable más importante en el desarrollo asistido por IA es el brief inicial. Un brief estructurado (CONTRACT.md) reduce los costos en un 54% y eleva la calidad de 5/10 a 9/10, mientras que los equipos de agentes y los bucles de reintento resultaron ineficaces o perjudiciales.

33