Open Source

313 items

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

Ce projet est un traducteur de mangas et d'images, écrit en Rust, qui utilise la détection d'objets, l'OCR visuel basé sur les LLM, l'analyse de mise en page et des modèles d'inpainting. Il intègre llama.cpp pour le support des LLM locaux comme Gemma et Qwen, offrant un pipeline performant et facile à utiliser.

Open Source Image processing Rust OCR

Local manga translator with LLM build-in, written in Rust with llama.cpp integration

RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Des chercheurs ont comparé 18 LLM pour l'OCR, constatant que les modèles moins chers et plus anciens égalent ou surpassent souvent la précision des modèles phares à une fraction du coût. Ils ont open-sourcé leur ensemble de données et leur framework de benchmarking.

Open Source Benchmarking OCR Cost Efficiency

ARTICLEDEV.to AI·il y a 4j

<think>

Cet article critique les modèles d'IA propriétaires "jardin clos", analysant les prix et les performances de divers modèles comme DeepSeek, Qwen, Kimi et GLM. Il met en avant DeepSeek V4 Flash pour son meilleur rapport qualité-prix et Kimi pour ses capacités de raisonnement, tout en plaidant pour la liberté et en faisant référence aux licences Apache/MIT.

Open Source AI models Cloud AI API

NEWS↑ trendingHacker News (AI)·il y a 12j

Zig 2026: No-AI Policy, $670K Foundation, Left GitHub and Why Zig Isn't 1.0 [video]

La vidéo "Zig 2026" discute de la politique de non-IA du projet, de la création d'une fondation de 670 000 $ et de son départ de GitHub. Elle explique également pourquoi le langage de programmation Zig n'a pas encore atteint la version 1.0, esquissant les plans de développement futurs.

Open Source Software Development AI policy programming language

ARTICLE↑ trendingReddit r/MachineLearning·09/04/2026

[P] TurboQuant Pro: Open-source vector compression toolkit — 5-42x smaller embeddings with 0.97+ recall [R]

O TurboQuant Pro é um toolkit open-source que comprime vetores de alta dimensão, como embeddings, em 5 a 42 vezes. Ele otimiza o uso de RAM em sistemas de IA como RAG e bancos de dados de vetores, mantendo alta similaridade e recall.

Open Source Otimização de Memória Bancos de Dados de Vetores Compressão de Vetores

NEWS↑ trendingReddit r/MachineLearning·22/04/2026

GPU Compass – open-source, real-time GPU pricing across 20+ clouds [P]

GPU Compass, un outil open-source, a été lancé pour fournir des prix GPU en temps réel à travers plus de 20 fournisseurs de cloud. Il catalogue 50 modèles de GPU et plus de 2 000 offres, incluant les prix à la demande, spot et les tendances historiques, rendant les données brutes accessibles à tous.

Open Source cloud computing GPU AI infrastructure

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

L'auteur a revisité un ancien projet de pipeline ASR->LLM->TTS local en temps réel et a été agréablement surpris par Qwen3 TTS. Après expérimentation, il a réussi à faire fonctionner Qwen3 TTS de manière fiable pour le streaming local, louant son expressivité et son architecture adaptée.

Open Source Qwen3 TTS real-time local inference

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

ARTICLEDEV.to AI·il y a 2j

Free Video subtitles in seconds — no signup, no watermark, no upload

Captionly est un outil gratuit de sous-titrage vidéo, sans inscription ni téléchargement, fonctionnant entièrement dans le navigateur grâce à WebGPU, WebCodecs et Transformers.js. Cette approche assure la confidentialité, la rapidité et élimine le besoin de télécharger les vidéos sur des serveurs.

Open Source Whisper Video Processing AI

NEWS↑ trendingReddit r/MachineLearning·01/05/2026

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

Phosphene est un panneau de bureau gratuit et open source pour les Mac Apple Silicon, générant de la vidéo avec de l'audio synchronisé grâce au modèle LTX 2.3 de Lightricks. Son atout majeur est la génération de vidéo et d'audio en une seule passe de diffusion, assurant une parfaite synchronisation entre les éléments visuels et auditifs.

Open Source AI models apple-silicon video generation

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

Open Source Vision-Language Models datasets OCR

NEWS↑ trendingReddit r/LocalLLaMA·16/04/2026

HY-World 2.0 just dropped

Tencent a lancé HY-World 2.0, le premier modèle de monde 3D open-source de pointe qui génère des actifs 3D réels, persistants et éditables. Contrairement aux modèles uniquement vidéo, il offre une véritable cohérence 3D, une physique native et est entièrement importable dans les principaux moteurs de jeu et logiciels 3D.

Tencent Open Source 3D modeling world model

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

ARTICLE↑ trendingHacker News (AI)·il y a 12j

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Ce projet présente un agent de codage local qui utilise des Grands Modèles de Langage (LLMs) pour déléguer des tâches spécifiques, notamment les appels d'outils, à des modèles d'IA plus petits et spécialisés. Il vise à améliorer l'efficacité et la modularité du développement alimenté par l'IA en distribuant les charges de travail.

Open Source AI models LLMs Software Development

RESEARCH↑ trendingReddit r/MachineLearning·20/04/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

L'auteur a implémenté et mis en open source deux idées récentes, Cartridges et STILL, pour la compaction du KV-cache neuronal et l'inférence à long contexte. Le but est de rendre ces idées faciles à inspecter et à exécuter avec du code de benchmark, les comparant également aux méthodes existantes.

neural networks Open Source research Memory Optimization

RESEARCH↑ trendingReddit r/MachineLearning·27/04/2026

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

L'auteur présente Mahoraga, un orchestrateur open-source qui achemine efficacement les tâches entre les agents IA locaux et cloud via un bandit contextuel (LinUCB). Créé suite à des limites de crédits cloud, l'outil optimise l'utilisation de l'IA, soulignant la performance de Qwen3 4B pour les tâches de code.

Open Source orchestration machine learning code generation

Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

RESEARCH↑ trendingReddit r/LocalLLaMA·27/04/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft est un modèle open-source de 4 milliards de paramètres pour la génération 3D haute fidélité à partir d'images, capable de produire des actifs PBR jusqu'à 1536³ en utilisant des VAES 3D natifs et une nouvelle structure O-Voxel. Il propose une solution efficace et évolutive pour la création d'actifs 3D détaillés avec des matériaux PBR complets.

Open Source Image-to-3D 3D modeling computer vision

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

ARTICLE↑ trendingHacker News (AI)·il y a 13j

Show HN: Open-Source AI Racing Harness

Dan d'Elodin a lancé un harnais de simulation de logiciel de vol open-source et en temps réel destiné aux participants du Grand Prix d'IA. L'outil, conçu pour respecter les contraintes de la compétition, fonctionne avec Betaflight et intègre la génération directe de capteurs de caméra dans la boucle de simulation, en utilisant le moteur de jeu Rust Bevy.

Open Source AI Racing simulation Game Engine

NEWS↑ trendingHacker News (AI)·il y a 9j

Netflix Wiz creates app to slash AI bills, then open sources it

Un ingénieur de Netflix a créé une application pour réduire les coûts d'IA, puis l'a mise en open source. Cet outil vise à optimiser l'utilisation des ressources d'IA, bénéficiant aux entreprises et aux développeurs.

Open Source Software Development Netflix Cost Optimization

ARTICLE↑ trendingHacker News (AI)·il y a 10j

Open source project contains hidden instruction for "AI" agents: delete my code

Un projet open source aurait intégré une instruction cachée pour les agents d'IA, leur demandant spécifiquement de supprimer le propre code du projet. Cela soulève des inquiétudes quant à la capacité des agents d'IA à interpréter et à agir sur de telles commandes intégrées dans les projets logiciels.

Open Source security code management AI agents

NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash introduit un port GGUF du décodage spéculatif DFlash pour Qwen3.6-27B, atteignant près de 2x le débit sur une seule RTX 3090. Cette pile C++/CUDA autonome, disponible en tant que projet open-source sous licence MIT, améliore considérablement les performances des LLM sur du matériel grand public.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090