← heapsort-ai

LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·il y a 25j

arXiv implements 1-year ban for papers containing incontrovertible evidence of unchecked LLM-generated errors, such as hallucinated references or results. [N]

arXiv a annoncé une nouvelle politique imposant une interdiction d'un an aux auteurs qui soumettent des articles contenant des preuves irréfutables d'erreurs générées par des LLM non vérifiées, telles que des références ou des résultats hallucinés. Cette politique souligne que les auteurs sont entièrement responsables de tout le contenu, quelle que soit la manière dont il a été généré par des outils d'IA.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Built an political benchmark for LLMs. KIMI K2 can't answer about Taiwan (Obviously). GPT-5.3 refuses 100% of questions when given an opt-out. [P]

Un chercheur a créé un benchmark pour cartographier les LLM sur un compas politique 2D avec 98 questions, constatant que le refus de répondre est une position politique. Les premiers résultats incluent GPT-5.3, Claude Opus 4.6 et KIMI K2, et le dépôt est entièrement open-source.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

42
NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. a dévoilé une architecture révolutionnaire, la carte HTX301, permettant l'inférence de LLMs de 700B paramètres sur une seule carte PCIe avec 384 Go de mémoire et une faible consommation (~240W). Cette approche délègue le décodage à la HTX301 tandis que les GPUs gèrent le préremplissage, rendant possible l'inférence de LLMs ultra-larges localement sans VRAM GPU massive.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 27j

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).

TextGen, une alternative open-source à LM Studio, est devenu une application de bureau sans installation pour Windows, Linux et macOS. Développée depuis décembre 2022, cette application autonome offre une interface utilisateur soignée pour la génération de texte, fonctionnant de manière similaire à l'utilisation d'Electron par LM Studio.

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).
42
ARTICLE↑ trendingReddit r/MachineLearning·06/05/2026

Stop letting LLMs edit your .bib [D]

L'auteur exprime son étonnement face à la fréquence des citations hallucinées par les LLM dans les articles universitaires, entraînant des listes d'auteurs incorrectes. Il s'interroge sur le manque de respect pour la recherche et la nécessité de sanctions plus sévères, demandant si d'autres rencontrent le même problème.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

How to Distill from 100B+ to <4B Models

Ce contenu aborde le processus de distillation des modèles d'IA, en se concentrant sur la manière de réduire des modèles massifs de plus de 100 milliards de paramètres à des versions significativement plus petites, de moins de 4 milliards. L'objectif est d'améliorer l'efficacité et l'accessibilité des modèles d'IA complexes.

How to Distill from 100B+ to <4B Models
42
ARTICLE↑ trendingReddit r/LocalLLaMA·17/04/2026

what’s actually stopping an insider from leaking model weights?

Le contenu interroge les barrières techniques empêchant un initié de divulguer les poids de modèles LLM phares d'entreprises comme OpenAI ou Anthropic. Il suggère que les LLM sont relativement autonomes, ce qui pourrait rendre l'exfiltration plus facile que celle de logiciels traditionnels, et se demande pourquoi de telles fuites ne se sont pas produites plus souvent, malgré les NDA.

42
ARTICLE↑ trendingReddit r/MachineLearning·il y a 27j

Sharing all KGC 2026 decks. More production-grade KG systems than I've seen at any conference. [D]

La Knowledge Graph Conference (KGC 2026) a présenté un nombre significatif de systèmes de graphes de connaissances (Knowledge Graph) de qualité production en direct provenant de diverses entreprises, ce qui contraste avec les événements d'IA typiques qui ne présentent souvent que des preuves de concept. Les exemples comprenaient la gouvernance d'ontologies de Bloomberg, le KG d'intelligence médicamenteuse d'AbbVie avec une interface LLM, et la détection continue de dérive SHACL de Morgan Stanley pour les rapports de risque.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Un utilisateur rapporte exécuter Qwen3.6-35b-a3b localement sur un MacBook Pro M5 Max avec une quantification 8 bits et un contexte de 64k, jugeant ses performances comparables à celles de Claude. Il est très impressionné par sa rapidité, sa capacité à gérer des tâches de recherche complexes et les avantages en matière de confidentialité de l'exécution locale.

42
CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

L'utilisateur fait part d'une expérience très positive et efficace avec l'agent de codage PI, utilisant un modèle local Qwen3.6 35b pour des projets de production. Le succès a été attribué à un fichier de « skill » personnalisé qui impose un flux de travail de planification, garantissant une exécution étape par étape et l'approbation du plan avant tout codage.

42
ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

L'auteur passe du réglage fin de transformateurs denses au Nemotron 3 Nano de NVIDIA (une architecture hybride Mamba-Attention-MoE) pour le raisonnement multi-tâches. Il cherche des conseils sur la manière dont l'architecture hybride impacte la recette standard de réglage fin LoRA, son expérience antérieure étant limitée aux modèles denses.

42
CASE↑ trendingReddit r/LocalLLaMA·18/04/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un utilisateur signale que Qwen 3.6 présente un saut de performance significatif, se montrant capable pour des charges de travail habituellement confiées à Opus et Codex, bien qu'il n'atteigne pas encore leur niveau. L'utilisateur souligne son utilité et sa rapidité lorsqu'il est correctement configuré avec `preserve_thinking` sur un M5 Max avec des paramètres spécifiques.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLEDEV.to AI·22/04/2026

Your LLM Isn't the Problem. Your Pipeline Is.

L'article met en évidence un problème architectural courant dans l'étiquetage de produits e-commerce par LLMs, où les appels individuels, bien que corrects, manquent de mémoire, fragmentant la taxonomie. Le problème ne vient pas du LLM, mais de l'incapacité du pipeline à fournir un vocabulaire de tags cohérent en entrée.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
RESEARCHarXiv CS.CL·il y a 1j

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

L'hypothèse du Piggyback explique comment les tokens de modèle de chat peuvent induire un désalignement émergent dans les LLMs, généralisant les comportements affinés à des requêtes hors domaine. La technique de finetuning régularisé par token (TReFT) est proposée pour atténuer ce problème, préservant l'apprentissage intra-domaine et réduisant le désalignement.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

Gemma 4 31b 3D geometry

L'auteur exprime une grande satisfaction quant à la qualité de Gemma 4, soulignant ses capacités de codage et d'adaptation en conversation et en raisonnement. Un test de génération de modèles 3D à partir d'une image de voiture de F1 a montré que Gemma surpassait significativement des modèles comme Claude Sonnet, Gemini Pro et ChatGPT, qui présentaient des défauts notables.

Gemma 4 31b 3D geometry
41