LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·22/04/2026

INT3 compression+fused metal kernels [R]

Un chercheur et fondateur solo a développé la compression de modèles INT3 et un cache KV de 2 bits avec des noyaux Metal personnalisés pour Mac (série M). Qwen 7B est disponible en prévisualisation, et d'autres optimisations et le support GPU sont prévus.

Hardware Acceleration LLMs quantization model optimization

DOCDEV.to AI·il y a 2j

MeghRoop Tech Blog

Ce guide complet vise à doter les leaders techniques d'entreprise de tout ce dont ils ont besoin pour exploiter efficacement les agents d'IA en production d'ici 2026. Les agents d'IA sont des entités logicielles autonomes alimentées par des LLM, capables de planifier, exécuter, déboguer et itérer des tâches complexes dans des environnements d'entreprise réels. Ils automatisent le développement logiciel et optimisent les flux de travail opérationnels, accélérant considérablement les cycles d'innovation.

LLMs Software Development Enterprise AI automation

DOCDEV.to AI·il y a 2j

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Ce guide explique comment convertir des pages web bruyantes en Markdown propre et sémantique, adapté aux Grands Modèles de Langage (LLMs) en quelques millisecondes. Il détaille un processus de désinfection en plusieurs étapes pour supprimer l'encombrement HTML et optimiser l'utilisation des tokens, réduisant les coûts d'API et améliorant les performances du modèle pour des applications telles que les chatbots et les pipelines RAG.

LLMs HTML cleanup data preprocessing markdown

RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Une intervention au moment de l'entraînement pour des modèles de langage de 1,2 milliard de paramètres, utilisant une fonction de gain pondérée par la précision et des gradients ajustés par divergence, a entraîné une préférence humaine significativement plus élevée (63,4 %, p < 0,00002) par rapport à l'entraînement standard. Il est notable que ce changement de préférence s'est produit sans altérer la métrique de perte de validation agrégée, indiquant que les interventions d'entraînement au-delà du RLHF peuvent être efficaces.

LLMs machine learning Human Preference training methods

ARTICLE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

L'auteur estime que Qwen 3.6 est le premier modèle local qui vaut réellement l'effort, contrairement aux expériences précédentes où les modèles étaient trop faibles ou exigeaient trop de modifications. Fonctionnant sur un système 5090 + 4090, le modèle Q8 offre un contexte de 260k et 170 tokens/seconde, s'avérant efficace pour des tâches de codage comme l'UI XML et le C++ embarqué.

LLMs local models Qwen developer experience

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

L'auteur démontre que l'association du modèle Qwen3.6-35B avec l'agent "little-coder" améliore considérablement ses performances sur le benchmark Polyglot à 78,7 %, le rendant compétitif avec les meilleurs modèles cloud. Cette découverte suggère qu'une "discordance de harnais" dans les configurations de test pourrait expliquer les écarts de performance entre les modèles d'IA locaux et cloud.

LLMs coding agents Benchmarking Agent systems

ARTICLEKDNuggets·il y a 1j

Why Do LLMs Corrupt Your Documents When You Delegate?

Ce contenu analyse plusieurs raisons pour lesquelles la dégradation structurelle du contenu peut se produire lorsqu'on délègue des tâches complexes d'édition de documents aux Grands Modèles de Langage (LLM). Il explore les défis et les problèmes inhérents à une telle délégation.

content editing LLMs AI limitations AI delegation

Why Do LLMs Corrupt Your Documents When You Delegate?

ARTICLEDEV.to AI·il y a 2j

ChatGPT vs Claude in 2026: which AI assistant should you use?

Cet article compare ChatGPT et Claude pour 2026, en se concentrant sur l'assistant IA qui convient le mieux à différents flux de travail. Il détaille les cas d'utilisation idéaux, les écosystèmes, les forces et les faiblesses de chacun pour des tâches comme les questions-réponses générales, les documents longs et le codage.

LLMs Claude ChatGPT AI tools

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Cet article documente 5 études de cas montrant comment les LLM (GPT-4, GPT-4o, Claude 3.5 Sonnet) peuvent être "jailbreakés" en utilisant des tactiques d'ingénierie sociale humaine, suggérant qu'ils héritent de vulnérabilités psychologiques des données d'entraînement. La thèse centrale est que ces échecs d'alignement ne sont pas des exploits mathématiques mais une conséquence de la simulation de traits humains, rendant les LLM susceptibles à la manipulation sociale.

LLMs social engineering jailbreaks psychological vulnerabilities

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

why llama.cpp can’t combine speculative decode methods?

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

Optimization LLMs llama.cpp Qwen3.6

RESEARCHarXiv CS.CL·23/04/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD propose un cadre de raffinement progressif qui unifie la génération et l'édition de CAO à partir de texte, surmontant les limites des approches disjointes. Il exploite un ensemble de données d'interaction haute fidélité et un cadre de raisonnement amélioré par l'apprentissage par renforcement, adapté aux LLM, pour permettre une modélisation CAO contrôlable et fidèle.

LLMs reinforcement learning CAD modeling text-to-CAD

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Les grands modèles linguistiques (LLM) sont confrontés à l'oubli catastrophique et à la perte de plasticité lors de la mise à jour de leurs paramètres pour des tâches spécifiques. Ce travail introduit un cadre d'apprentissage "rapide-lent" pour les LLM, utilisant les paramètres du modèle comme poids lents et le contexte optimisé comme poids rapides pour s'adapter efficacement sans compromettre le raisonnement général.

LLMs learning Catastrophic Forgetting AI Research

ARTICLE↑ trendingHacker News (AI)·il y a 7j

I'm Done Using AI

L'auteur exprime sa frustration concernant l'utilisation des LLM pour le codage, signalant une perte d'état de flux, un temps gaspillé sur des changements architecturaux et des tests manipulés. Il conclut que les LLM sont utiles comme moteur de recherche pour la recherche, mais qu'elles représentent une perte de temps coûteuse pour le codage, entraînant une atrophie des compétences.

LLMs AI limitations developer productivity Skill Atrophy

ARTICLE↑ trendingHacker News (AI)·il y a 12j

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Ce projet présente un agent de codage local qui utilise des Grands Modèles de Langage (LLMs) pour déléguer des tâches spécifiques, notamment les appels d'outils, à des modèles d'IA plus petits et spécialisés. Il vise à améliorer l'efficacité et la modularité du développement alimenté par l'IA en distribuant les charges de travail.

Open Source AI models LLMs Software Development

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

LLMs learn backwards, and the scaling hypothesis is bounded. [D]

Ce contenu discute la perspective selon laquelle les Large Language Models (LLMs) apprennent à l'envers et que l'hypothèse de mise à l'échelle a des limites inhérentes.

LLMs deep learning scaling hypothesis modelos de linguagem

RESEARCH↑ trendingReddit r/LocalLLaMA·27/04/2026

The 4B class of 2026 (benchmark)

Le contenu détaille une comparaison de référence de cinq modèles d'IA de 3-4B (gemma4, qwen3.5, granite4, nemotron-3-nano, phi4-mini) sur 39 tâches de finance, de raisonnement et de code. Nemotron 3 Nano est apparu comme le vainqueur incontestable avec un score global de 85 %, surpassant significativement ses concurrents.

AI models LLMs Benchmarking Generative AI

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

L'auteur a testé le modèle Qwen 3.6 35b MTP localement, constatant une augmentation de vitesse de 1,5x. Il a exploré l'utilisation d'une grande fenêtre de contexte, atteignant 300k tokens avec un potentiel plus élevé.

LLMs Benchmarking Local AI Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Une nouvelle méthode permet d'enseigner de nouvelles connaissances à des modèles MoE "gelés" en orientant leur routage d'experts, sans entraînement traditionnel. Nommée Intelligence Cognitive Adaptative (ACI), cette technique a démontré la correction d'erreurs factuelles dans Gemma 4 à l'aide d'un petit fichier de configuration.

model steering LLMs Gemma 4 Knowledge Injection

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Ce contenu présente un projet de recherche comparative analysant les "modèles oblitérés" (HauhauCS, Heretic, Huihui) par rapport à Qwen 3/3.5, en utilisant une suite forensique complète comprenant des benchmarks et des évaluations de sécurité. L'objectif est de vérifier les affirmations selon lesquelles ces modèles sont "sans perte et non censurés" et reproductibles par le lecteur.

AI models LLMs Model Evaluation Benchmarking