← heapsort-ai

LLMs

714 items

DOCDEV.to AI·il y a 2j

MeghRoop Tech Blog

Ce guide complet vise à doter les leaders techniques d'entreprise de tout ce dont ils ont besoin pour exploiter efficacement les agents d'IA en production d'ici 2026. Les agents d'IA sont des entités logicielles autonomes alimentées par des LLM, capables de planifier, exécuter, déboguer et itérer des tâches complexes dans des environnements d'entreprise réels. Ils automatisent le développement logiciel et optimisent les flux de travail opérationnels, accélérant considérablement les cycles d'innovation.

48
DOCDEV.to AI·il y a 2j

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Ce guide explique comment convertir des pages web bruyantes en Markdown propre et sémantique, adapté aux Grands Modèles de Langage (LLMs) en quelques millisecondes. Il détaille un processus de désinfection en plusieurs étapes pour supprimer l'encombrement HTML et optimiser l'utilisation des tokens, réduisant les coûts d'API et améliorant les performances du modèle pour des applications telles que les chatbots et les pipelines RAG.

48
RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Une intervention au moment de l'entraînement pour des modèles de langage de 1,2 milliard de paramètres, utilisant une fonction de gain pondérée par la précision et des gradients ajustés par divergence, a entraîné une préférence humaine significativement plus élevée (63,4 %, p < 0,00002) par rapport à l'entraînement standard. Il est notable que ce changement de préférence s'est produit sans altérer la métrique de perte de validation agrégée, indiquant que les interventions d'entraînement au-delà du RLHF peuvent être efficaces.

47
ARTICLE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

L'auteur estime que Qwen 3.6 est le premier modèle local qui vaut réellement l'effort, contrairement aux expériences précédentes où les modèles étaient trop faibles ou exigeaient trop de modifications. Fonctionnant sur un système 5090 + 4090, le modèle Q8 offre un contexte de 260k et 170 tokens/seconde, s'avérant efficace pour des tâches de codage comme l'UI XML et le C++ embarqué.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

L'auteur démontre que l'association du modèle Qwen3.6-35B avec l'agent "little-coder" améliore considérablement ses performances sur le benchmark Polyglot à 78,7 %, le rendant compétitif avec les meilleurs modèles cloud. Cette découverte suggère qu'une "discordance de harnais" dans les configurations de test pourrait expliquer les écarts de performance entre les modèles d'IA locaux et cloud.

46
ARTICLEDEV.to AI·il y a 2j

ChatGPT vs Claude in 2026: which AI assistant should you use?

Cet article compare ChatGPT et Claude pour 2026, en se concentrant sur l'assistant IA qui convient le mieux à différents flux de travail. Il détaille les cas d'utilisation idéaux, les écosystèmes, les forces et les faiblesses de chacun pour des tâches comme les questions-réponses générales, les documents longs et le codage.

44
RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Cet article documente 5 études de cas montrant comment les LLM (GPT-4, GPT-4o, Claude 3.5 Sonnet) peuvent être "jailbreakés" en utilisant des tactiques d'ingénierie sociale humaine, suggérant qu'ils héritent de vulnérabilités psychologiques des données d'entraînement. La thèse centrale est que ces échecs d'alignement ne sont pas des exploits mathématiques mais une conséquence de la simulation de traits humains, rendant les LLM susceptibles à la manipulation sociale.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un utilisateur a découvert et corrigé un problème significatif de dérive de tenseur dans les couches `ssm_conv1d` des modèles Qwen3.6-35B GGUF quantifiés, proposant la métrique de Wasserstein comme supérieure à Kullback Leibler pour détecter l'instabilité numérique. La correction, qui cible spécifiquement les couches de transition d'état récurrentes responsables de la mémoire à long contexte, est maintenant disponible dans un modèle partagé.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

why llama.cpp can’t combine speculative decode methods?

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

43
RESEARCHarXiv CS.CL·23/04/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD propose un cadre de raffinement progressif qui unifie la génération et l'édition de CAO à partir de texte, surmontant les limites des approches disjointes. Il exploite un ensemble de données d'interaction haute fidélité et un cadre de raisonnement amélioré par l'apprentissage par renforcement, adapté aux LLM, pour permettre une modélisation CAO contrôlable et fidèle.

43
RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Les grands modèles linguistiques (LLM) sont confrontés à l'oubli catastrophique et à la perte de plasticité lors de la mise à jour de leurs paramètres pour des tâches spécifiques. Ce travail introduit un cadre d'apprentissage "rapide-lent" pour les LLM, utilisant les paramètres du modèle comme poids lents et le contexte optimisé comme poids rapides pour s'adapter efficacement sans compromettre le raisonnement général.

42
ARTICLE↑ trendingHacker News (AI)·il y a 7j

I'm Done Using AI

L'auteur exprime sa frustration concernant l'utilisation des LLM pour le codage, signalant une perte d'état de flux, un temps gaspillé sur des changements architecturaux et des tests manipulés. Il conclut que les LLM sont utiles comme moteur de recherche pour la recherche, mais qu'elles représentent une perte de temps coûteuse pour le codage, entraînant une atrophie des compétences.

42
ARTICLE↑ trendingHacker News (AI)·il y a 12j

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Ce projet présente un agent de codage local qui utilise des Grands Modèles de Langage (LLMs) pour déléguer des tâches spécifiques, notamment les appels d'outils, à des modèles d'IA plus petits et spécialisés. Il vise à améliorer l'efficacité et la modularité du développement alimenté par l'IA en distribuant les charges de travail.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·27/04/2026

The 4B class of 2026 (benchmark)

Le contenu détaille une comparaison de référence de cinq modèles d'IA de 3-4B (gemma4, qwen3.5, granite4, nemotron-3-nano, phi4-mini) sur 39 tâches de finance, de raisonnement et de code. Nemotron 3 Nano est apparu comme le vainqueur incontestable avec un score global de 85 %, surpassant significativement ses concurrents.

The 4B class of 2026 (benchmark)
42
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Une nouvelle méthode permet d'enseigner de nouvelles connaissances à des modèles MoE "gelés" en orientant leur routage d'experts, sans entraînement traditionnel. Nommée Intelligence Cognitive Adaptative (ACI), cette technique a démontré la correction d'erreurs factuelles dans Gemma 4 à l'aide d'un petit fichier de configuration.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Ce contenu présente un projet de recherche comparative analysant les "modèles oblitérés" (HauhauCS, Heretic, Huihui) par rapport à Qwen 3/3.5, en utilisant une suite forensique complète comprenant des benchmarks et des évaluations de sécurité. L'objectif est de vérifier les affirmations selon lesquelles ces modèles sont "sans perte et non censurés" et reproductibles par le lecteur.

42