← heapsort-ai

large language models

262 items

ARTICLEDEV.to AI·il y a 2h

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Un développeur raconte comment la sortie de Claude Fable 5 d'Anthropic a rendu 13 de ses 31 compétences d'IA en production obsolètes du jour au lendemain, en raison des changements dans les directives de prompt et le comportement de l'API. Les anciennes instructions dégradent désormais activement la qualité de la sortie du nouveau modèle, nécessitant une réévaluation complète de leur flotte d'agents autonomes.

62
RESEARCHarXiv CS.CL·il y a 1j

Signal-Driven Observation for Long-Horizon Web Agents

Les agents web à long horizon subissent une dégradation progressive du contexte en ingérant des arbres DOM bruts à chaque étape d'action, ce qui érode le raisonnement. L'Observation Pilotée par le Signal (SDO) est proposée, où un sous-appel dédié lit le DOM complet mais ne renvoie que les éléments pertinents, réactivé par des signaux légers, afin d'optimiser l'observation et la compression.

60
RESEARCHarXiv CS.CL·il y a 19h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Cette étude examine les hallucinations dans les grands modèles de langage adaptés à un domaine, en se concentrant sur le modèle Llama-2 affiné avec l'ensemble de données Lamini. Il a été constaté que sa capacité à raisonner et à se souvenir de nouvelles informations spécifiques au domaine reste limitée, entraînant des hallucinations et une tendance à la surgénération.

55
RESEARCHarXiv CS.AI·il y a 19h

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

Cet article explore la nature des chatbots, notamment les Grands Modèles de Langage, en tant que partenaires de conversation dans la résolution de problèmes, s'appuyant sur la linguistique cognitive et la neuropsychologie. Il émet l'hypothèse que les ensembles de données d'entraînement des LLM n'imitent que partiellement la pensée et la compréhension humaines, encodant des propagations métaphoriques artificielles de problèmes.

54
RESEARCHarXiv CS.CL·il y a 19h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Cette étude propose une méthode non supervisée pour identifier l'argot et les entités uniques des communautés en ligne en analysant l'ampleur du glissement sémantique. Le glissement sémantique est défini comme l'évolution de la représentation codée d'un mot après l'ajustement fin d'un Grand Modèle de Langage (LLM) pré-entraîné sur un corpus de texte spécifique à une communauté.

54
RESEARCHarXiv CS.CL·il y a 19h

Implicit Causal Graph Construction in Text via Chain Discovery

Cet article étudie la construction de graphes causaux implicites à partir de texte en inférant des événements causaux intermédiaires à l'aide de grands modèles linguistiques (LLM). Il compare la construction de graphes de bout en bout avec les méthodes de découverte de chaînes causales et évalue la validité des relations inférées par rapport à une base de données.

54
ARTICLEDEV.to AI·il y a 1j

GEO (Generative Engine Optimization): How to Get ChatGPT, Perplexity, and Gemini to Recommend Your Business

Cet article introduit l'Optimisation des Moteurs Génératifs (GEO) comme une nouvelle stratégie pour les entreprises afin que leur contenu soit recommandé par des LLM tels que ChatGPT, Perplexity et Gemini. Ce changement est crucial car les utilisateurs recherchent de plus en plus des réponses immédiates et synthétisées de l'IA conversationnelle, s'éloignant des résultats de recherche traditionnels.

45
DOC↑ trendingReddit r/LocalLLaMA·il y a 27j

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Ovis2.6-80B-A3B est présenté comme la dernière avancée des Modèles de Langage Multimodaux (MLLMs), intégrant une architecture Mixture-of-Experts (MoE) pour des performances multimodales supérieures à un coût de service réduit. Il apporte également des améliorations majeures dans la compréhension de contexte long et de haute résolution, le raisonnement visuel et la compréhension de documents denses en informations.

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
44
RESEARCH↑ trendingReddit r/LocalLLaMA·10/04/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

44
DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Ce contenu détaille l'implémentation de la prédiction multi-jetons (MTP) avec des GGUF quantifiés pour Qwen3-27B, en utilisant les quantifications UD XL d'Unsloth avec des couches MTP greffées en Q8_0, ce qui entraîne une augmentation de débit de 2,5x. L'auteur partage les fichiers GGUF greffés, la source de la couche MTP et un script de conversion, ainsi que des instructions de compilation pour une version personnalisée de llama.cpp intégrant le support du décodage spéculatif d'une PR non fusionnée.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 est désormais livré avec un nouveau drapeau `preserve_thinking` qui résout le problème d'invalidation du cache KV en maintenant le contexte de raisonnement complet du modèle. Cette fonctionnalité est particulièrement avantageuse pour les scénarios d'agents, améliorant la cohérence des décisions et optimisant la consommation de jetons et l'utilisation du cache KV.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
ARTICLE↑ trendingHacker News (AI)·il y a 11j

DeepSeek Slashes AI Costs to Cents

DeepSeek a considérablement réduit les coûts d'inférence de l'IA, les ramenant à quelques centimes seulement. Ce développement rend la technologie d'IA plus accessible et économiquement viable pour un éventail plus large d'applications.

42
CASE↑ trendingReddit r/LocalLLaMA·01/05/2026

16x Spark Cluster (Build Update)

Cette mise à jour détaille la construction réussie d'un cluster Nvidia DGX Spark de 16 nœuds, configuré pour une interconnexion à haute vitesse et une mémoire unifiée. L'installation a impliqué le provisionnement standard des nœuds et des scripts personnalisés pour l'optimisation réseau, visant à maximiser la capacité de mémoire unifiée pour servir de grands modèles de langage comme GLM-5.1-NVFP4, DeepSeek et Kimi.

16x Spark Cluster (Build Update)
42