← heapsort-ai

Open Source

313 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Este proyecto es un traductor de manga e imágenes, desarrollado en Rust, que utiliza detección de objetos, OCR visual basado en LLM, análisis de diseño y modelos de inpainting. Integra llama.cpp para soportar la inferencia local de LLM con modelos como Gemma y Qwen, ofreciendo una solución de pipeline eficiente y fácil de usar.

Local manga translator with LLM build-in, written in Rust with llama.cpp integration
43
RESEARCH↑ trendingReddit r/MachineLearning·23/4/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Investigadores realizaron un benchmark de 18 LLMs para OCR, descubriendo que los modelos más baratos y antiguos a menudo igualan o superan la precisión de los modelos insignia a una fracción del costo. Han hecho de código abierto su conjunto de datos y framework de benchmarking.

43
ARTICLEDEV.to AI·hace 4d

<think>

Este artículo critica los modelos de IA propietarios de "jardín vallado", analizando los precios y el rendimiento de varios modelos como DeepSeek, Qwen, Kimi y GLM. Destaca DeepSeek V4 Flash por su mejor relación precio-rendimiento y Kimi por sus capacidades de razonamiento, al tiempo que defiende la libertad y hace referencia a las licencias Apache/MIT.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

El autor revisó un antiguo proyecto de pipeline ASR->LLM->TTS local en tiempo real y quedó gratamente sorprendido con Qwen3 TTS. Tras experimentar, logró que el modelo Qwen3 TTS funcionara de forma fiable para streaming local, elogiando su expresividad y arquitectura adecuada.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
NEWS↑ trendingReddit r/MachineLearning·1/5/2026

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

Phosphene es un panel de escritorio gratuito y de código abierto para Macs con Apple Silicon, que genera video con audio sincronizado utilizando el modelo LTX 2.3 de Lightricks. Su diferenciador clave es la generación de video y audio en un solo paso de difusión, asegurando una sincronización perfecta entre los elementos visuales y auditivos.

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]
43
NEWS↑ trendingReddit r/LocalLLaMA·16/4/2026

HY-World 2.0 just dropped

Tencent ha lanzado HY-World 2.0, el primer modelo de mundo 3D de código abierto de vanguardia que genera activos 3D reales, persistentes y editables. A diferencia de los modelos solo de video, ofrece verdadera consistencia 3D, física nativa y es totalmente importable en los principales motores de juego y software 3D.

42
ARTICLE↑ trendingHacker News (AI)·hace 12d

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Este proyecto introduce un agente de codificación local que aprovecha los Grandes Modelos de Lenguaje (LLMs) para delegar tareas específicas, como llamadas a herramientas, a modelos de IA más pequeños y especializados. Busca mejorar la eficiencia y la modularidad en el desarrollo impulsado por IA mediante la distribución de cargas de trabajo.

42
RESEARCH↑ trendingReddit r/MachineLearning·20/4/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

El autor implementó y publicó dos ideas recientes, Cartridges y STILL, para la compactación de la caché KV neuronal y la inferencia de contexto largo. El objetivo es facilitar la inspección y ejecución de estas ideas con código abierto y benchmarks, comparándolas también con métodos existentes.

42
RESEARCH↑ trendingReddit r/MachineLearning·27/4/2026

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

El autor presenta Mahoraga, un orquestador de código abierto que enruta tareas eficientemente entre agentes de IA locales y en la nube utilizando un bandit contextual (LinUCB). Desarrollada por experiencia personal con límites de créditos en la nube, la herramienta optimiza el uso de la IA, destacando el rendimiento de Qwen3 4B en tareas de código.

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]
42
RESEARCH↑ trendingReddit r/LocalLLaMA·27/4/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft es un modelo de código abierto de 4B parámetros para la generación de 3D de alta fidelidad a partir de imágenes, produciendo activos PBR de hasta 1536³ con VAES 3D nativos y una estructura O-Voxel. Ofrece una solución eficiente y escalable para la creación de activos 3D detallados con materiales PBR completos.

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.
42
ARTICLE↑ trendingHacker News (AI)·hace 13d

Show HN: Open-Source AI Racing Harness

Dan de Elodin ha lanzado un arnés de simulación de software de vuelo de código abierto y en tiempo real para los concursantes del AI Grand Prix. La herramienta, diseñada para cumplir con las restricciones de la competición, funciona con Betaflight y permite la generación directa de sensores de cámara en el bucle de simulación, utilizando el motor de juego Rust Bevy.

42