← heapsort-ai

Open Source

313 items

ARTICLEDEV.to AI·il y a 4j

<think>

Cet article critique les modèles d'IA propriétaires "jardin clos", analysant les prix et les performances de divers modèles comme DeepSeek, Qwen, Kimi et GLM. Il met en avant DeepSeek V4 Flash pour son meilleur rapport qualité-prix et Kimi pour ses capacités de raisonnement, tout en plaidant pour la liberté et en faisant référence aux licences Apache/MIT.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

L'auteur a revisité un ancien projet de pipeline ASR->LLM->TTS local en temps réel et a été agréablement surpris par Qwen3 TTS. Après expérimentation, il a réussi à faire fonctionner Qwen3 TTS de manière fiable pour le streaming local, louant son expressivité et son architecture adaptée.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
NEWS↑ trendingReddit r/MachineLearning·01/05/2026

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

Phosphene est un panneau de bureau gratuit et open source pour les Mac Apple Silicon, générant de la vidéo avec de l'audio synchronisé grâce au modèle LTX 2.3 de Lightricks. Son atout majeur est la génération de vidéo et d'audio en une seule passe de diffusion, assurant une parfaite synchronisation entre les éléments visuels et auditifs.

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]
43
ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

42
NEWS↑ trendingReddit r/LocalLLaMA·16/04/2026

HY-World 2.0 just dropped

Tencent a lancé HY-World 2.0, le premier modèle de monde 3D open-source de pointe qui génère des actifs 3D réels, persistants et éditables. Contrairement aux modèles uniquement vidéo, il offre une véritable cohérence 3D, une physique native et est entièrement importable dans les principaux moteurs de jeu et logiciels 3D.

42
NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
ARTICLE↑ trendingHacker News (AI)·il y a 12j

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Ce projet présente un agent de codage local qui utilise des Grands Modèles de Langage (LLMs) pour déléguer des tâches spécifiques, notamment les appels d'outils, à des modèles d'IA plus petits et spécialisés. Il vise à améliorer l'efficacité et la modularité du développement alimenté par l'IA en distribuant les charges de travail.

42
RESEARCH↑ trendingReddit r/MachineLearning·20/04/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

L'auteur a implémenté et mis en open source deux idées récentes, Cartridges et STILL, pour la compaction du KV-cache neuronal et l'inférence à long contexte. Le but est de rendre ces idées faciles à inspecter et à exécuter avec du code de benchmark, les comparant également aux méthodes existantes.

42
RESEARCH↑ trendingReddit r/MachineLearning·27/04/2026

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

L'auteur présente Mahoraga, un orchestrateur open-source qui achemine efficacement les tâches entre les agents IA locaux et cloud via un bandit contextuel (LinUCB). Créé suite à des limites de crédits cloud, l'outil optimise l'utilisation de l'IA, soulignant la performance de Qwen3 4B pour les tâches de code.

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]
42
RESEARCH↑ trendingReddit r/LocalLLaMA·27/04/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft est un modèle open-source de 4 milliards de paramètres pour la génération 3D haute fidélité à partir d'images, capable de produire des actifs PBR jusqu'à 1536³ en utilisant des VAES 3D natifs et une nouvelle structure O-Voxel. Il propose une solution efficace et évolutive pour la création d'actifs 3D détaillés avec des matériaux PBR complets.

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.
42
ARTICLE↑ trendingHacker News (AI)·il y a 13j

Show HN: Open-Source AI Racing Harness

Dan d'Elodin a lancé un harnais de simulation de logiciel de vol open-source et en temps réel destiné aux participants du Grand Prix d'IA. L'outil, conçu pour respecter les contraintes de la compétition, fonctionne avec Betaflight et intègre la génération directe de capteurs de caméra dans la boucle de simulation, en utilisant le moteur de jeu Rust Bevy.

42