← heapsort-ai

large language models

262 items

ARTICLEDEV.to AI·vor 2Std

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Ein Entwickler berichtet, wie die Veröffentlichung von Claude Fable 5 von Anthropic 13 seiner 31 produktiven KI-Fähigkeiten über Nacht obsolet machte, bedingt durch Änderungen in den Prompt-Richtlinien und dem API-Verhalten. Alte Anweisungen verschlechtern nun aktiv die Ausgabequalität des neuen Modells und erfordern eine vollständige Neubewertung ihrer autonomen Agentenflotte.

62
RESEARCHDEV.to AI·4/24/2026

Kimi K2.6 Benchmark: Results vs GPT-5.4, Claude, Gemini, and K2.5

Dieser Inhalt analysiert die Benchmark-Ergebnisse von Kimi K2.6 im Vergleich zu GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro und Kimi K2.5, basierend auf einer standardisierten Referenztabelle. K2.6 zeigt eine starke Leistung in den Bereichen Codierung und Agentenarbeit, übertrifft seinen Vorgänger deutlich und schließt die Lücke zu führenden proprietären Modellen.

61
RESEARCHarXiv CS.CL·vor 1T

Signal-Driven Observation for Long-Horizon Web Agents

Langfristige Web-Agenten leiden unter fortschreitender Kontextdegradation, da sie bei jedem Aktionsschritt umfangreiche DOM-Bäume aufnehmen, was das Schlussfolgern beeinträchtigt. Es wird die Signal-Driven Observation (SDO) vorgeschlagen, bei der ein dedizierter Unteraufruf den vollständigen DOM liest, aber nur aufgabenrelevante Elemente zurückgibt und nur bei leichten Signalsignalen erneut aufgerufen wird, um Beobachtung und Kompression zu optimieren.

60
RESEARCHarXiv CS.CL·vor 19Std

Evaluating Hallucinations in Domain-Adapted Large Language Models

Diese Studie untersucht Halluzinationen in domänenadaptierten Großen Sprachmodellen, insbesondere Llama-2, das mit dem Lamini-Datensatz feingetunt wurde. Es wurde festgestellt, dass seine Fähigkeit, über neue domänenspezifische Informationen genau zu argumentieren und sich daran zu erinnern, begrenzt bleibt, was zu Halluzinationen und einer Tendenz zur Übergenerierung führt.

55
RESEARCHarXiv CS.AI·vor 19Std

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

Dieser Artikel untersucht die Natur von Chatbots, insbesondere Large Language Models, als Gesprächspartner bei der Problemlösung, basierend auf Kognitiver Linguistik und Neuropsychologie. Er hypothesiert, dass die Trainingsdatensätze von LLMs das menschliche Denken und Verstehen nur teilweise nachahmen und künstliche metaphorische Problempropagationen kodieren.

54
RESEARCHarXiv CS.CL·vor 19Std

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Diese Studie schlägt eine unüberwachte Methode vor, um gemeinschaftsspezifischen Slang und Entitäten durch die Analyse des Ausmaßes der semantischen Verschiebung zu identifizieren. Semantische Verschiebung wird als die Entwicklung der kodierten Repräsentation eines Wortes nach dem Fine-Tuning eines vortrainierten Großen Sprachmodells (LLM) auf einem gemeinschaftsspezifischen Textkorpus definiert.

54
RESEARCHarXiv CS.CL·vor 19Std

Implicit Causal Graph Construction in Text via Chain Discovery

Diese Arbeit untersucht die Konstruktion impliziter Kausalitätsgraphen aus Text, indem sie Zwischenereignisse mittels großer Sprachmodelle (LLMs) ableitet. Sie vergleicht End-to-End-Graphenkonstruktion mit Kausalkettenentdeckungsverfahren und bewertet die Gültigkeit der abgeleiteten Kausalbeziehungen anhand einer kuratierten Datenbank.

54
ARTICLEDEV.to AI·vor 1T

GEO (Generative Engine Optimization): How to Get ChatGPT, Perplexity, and Gemini to Recommend Your Business

Dieser Artikel stellt die Generative Engine Optimization (GEO) als neue Strategie für Unternehmen vor, um sicherzustellen, dass ihre Inhalte von LLMs wie ChatGPT, Perplexity und Gemini empfohlen werden. Dieser Wandel ist entscheidend, da Benutzer zunehmend sofortige, synthetisierte Antworten von konversationeller KI erwarten und sich von traditionellen Suchmaschinenergebnissen abwenden.

45
DOC↑ trendingReddit r/LocalLLaMA·vor 27T

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Ovis2.6-80B-A3B wird als die neueste Entwicklung in multimodalen großen Sprachmodellen (MLLMs) vorgestellt, die das LLM-Rückgrat auf eine Mixture-of-Experts (MoE)-Architektur aufrüstet, um überlegene multimodale Leistung zu geringeren Betriebskosten zu liefern. Es bringt auch wesentliche Verbesserungen im Langkontext- und Hochauflösungsverständnis, im visuellen Denken und in der Informationsdichten Dokumentenanalyse.

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
44
RESEARCH↑ trendingReddit r/LocalLLaMA·4/22/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Dieser Folgebericht vergleicht die Modelle Gemma4 26B MoE (Q8), Qwen3.5 27B Dense und Gemma4 31B Dense, einschließlich früherer Ergebnisse von Qwen 3.6 35B und Gemma 4 26B (Q4). Die Analyse bewertet ihre Leistung und hebt den Einfluss der 8-Bit-Quantisierung sowie die Effektivität verschiedener Modellarchitekturen hervor.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·4/10/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

44
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Dieser Inhalt beschreibt die Implementierung von Multi-Token Prediction (MTP) mit quantisierten GGUFs für Qwen3-27B, wobei Unsloths UD XL Quantisierungen mit aufgepfropften Q8_0 MTP-Layern verwendet werden, was zu einem 2,5-fachen Durchsatz führt. Der Autor teilt gepfropfte GGUF-Dateien, den Quellcode der MTP-Layer und ein Konvertierungsskript, zusammen mit Build-Anleitungen für eine angepasste llama.cpp-Version, die die spekulative Dekodierungsunterstützung aus einem noch nicht zusammengeführten PR enthält.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 wird jetzt mit einem neuen `preserve_thinking`-Flag ausgeliefert, das das Problem der KV-Cache-Invalidierung durch Beibehaltung des vollständigen Argumentationskontexts des Modells behebt. Diese Funktion ist besonders vorteilhaft für Agenten-Szenarien, da sie die Entscheidungskonsistenz verbessert und den Token-Verbrauch sowie die KV-Cache-Nutzung optimiert.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
CASE↑ trendingReddit r/LocalLLaMA·5/1/2026

16x Spark Cluster (Build Update)

Dieses Update beschreibt den erfolgreichen Aufbau eines 16-fachen Nvidia DGX Spark-Clusters, konfiguriert für Hochgeschwindigkeits-Fabric und Unified Memory. Die Einrichtung umfasste Standard-Node-Bereitstellung und kundenspezifische Skripte zur Netzwerkoptimierung, um die Unified Memory-Kapazität für große Sprachmodelle wie GLM-5.1-NVFP4, DeepSeek und Kimi zu maximieren.

16x Spark Cluster (Build Update)
42