← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·4/22/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) wird als die führende PEFT-Methode vorgestellt, die die effiziente Anpassung riesiger LLMs wie Llama 3 ohne umfangreiche Hardware-Ressourcen ermöglicht. Der Beitrag verspricht, die mathematische Intuition von LoRA, das Konzept der "intrinsischen Dimension" und seine transformative Bedeutung für KI-Ingenieure zu beleuchten.

27
ARTICLEDEV.to AI·4/12/2026

Serverless Memory DBs for AI Agents in 2025

Der Text analysiert den Gedächtnismangel von KI-Agenten als architektonisches, nicht datenbezogenes Problem und bemerkt, dass die Community Lösungen entwickelt. Er schlägt serverlose In-Memory-Datenbanken vor, um die Speicherung von der Inferenz zu entkoppeln, damit LLMs sich auf das Schlussfolgern konzentrieren können, und kritisiert gleichzeitig die Ineffizienz des Einfügens von Kontext in Prompts.

27
ARTICLEDEV.to AI·5/9/2026

Future of AI Agents in Agentic AI

Agentive KI bezieht sich auf künstliche Intelligenzsysteme, die autonom agieren, Entscheidungen treffen und Aufgaben ohne ständiges menschliches Eingreifen ausführen können. Angetrieben von großen Sprachmodellen und ausgeklügelten Werkzeugnutzungsframeworks, gelten diese KI-Agenten als das nächste große Ding im Bereich der KI.

27
ARTICLEDEV.to AI·4/21/2026

Amazon Is Betting $25 Billion More on Anthropic. Here's What That Really Means.

Amazon bestätigte eine Investition von bis zu 25 Milliarden US-Dollar in Anthropic, zusätzlich zu den bereits investierten 8 Milliarden US-Dollar, für eine erweiterte Partnerschaft, die sich auf KI-Infrastruktur konzentriert, wobei Anthropic sich verpflichtet, AWS-Technologien für ein Jahrzehnt zu nutzen. Dieser Deal enthüllt die Richtung der KI, das Rennen um Infrastruktur und den kommerziellen Aufstieg von Anthropic.

27
RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

27
RESEARCHarXiv CS.LG·4/20/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

27
RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

27
RESEARCHarXiv CS.AI·4/15/2026

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

Diese Forschung stellt GoodPoint vor, eine Methode, die LLMs und Autorenantworten nutzt, um konstruktives Feedback für wissenschaftliche Arbeiten zu generieren. Dabei wird GoodPoint-ICLR entwickelt, ein Datensatz von ICLR-Arbeiten, sowie ein Trainingsrezept, das Fine-Tuning und Präferenzoptimierung für gültiges und umsetzbares Feedback verwendet.

27
RESEARCHarXiv CS.AI·4/16/2026

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Diese Arbeit stellt SciFi vor, ein sicheres, leichtgewichtiges und benutzerfreundliches agentisches Framework für die autonome Ausführung wissenschaftlicher Aufgaben. Es kombiniert eine isolierte Umgebung, einen dreischichtigen Agenten-Loop und einen selbstbewertenden Mechanismus, um einen zuverlässigen Betrieb zu gewährleisten, und nutzt dabei LLMs, um routinemäßige wissenschaftliche Arbeitsabläufe zu automatisieren und Forscher für kreative Tätigkeiten zu entlasten.

27
RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

27
ARTICLEDEV.to AI·4/22/2026

RAG: How AI Models Use Your Data Without Forgetting

Große Sprachmodelle sind zustandslos und haben keine Erinnerung an frühere Gespräche oder Zugriff auf aktuelle oder private Daten. RAG (Retrieval Augmented Generation) behebt dies durch die Einführung eines Abrufschritts, der es Modellen ermöglicht, auf externe Informationen zuzugreifen und als Denkmaschine über diese Daten zu fungieren.

27
ARTICLEDEV.to AI·4/22/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness ist ein leichtgewichtiges Open-Source-Projekt, das KI-Agenten eine effiziente und kostengünstige Interaktion mit Browsern ermöglicht, indem es die Grenzen traditioneller Automatisierungstools wie Playwright oder Selenium überwindet. Dies wird durch eine direkte Brücke zum Chrome DevTools Protocol erreicht, die Agenten dazu ermutigt, ihre eigenen Hilfsfunktionen in Echtzeit zu erstellen und zu ändern.

27