LLMs

722 items

ARTICLEDEV.to AI·4/22/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) wird als die führende PEFT-Methode vorgestellt, die die effiziente Anpassung riesiger LLMs wie Llama 3 ohne umfangreiche Hardware-Ressourcen ermöglicht. Der Beitrag verspricht, die mathematische Intuition von LoRA, das Konzept der "intrinsischen Dimension" und seine transformative Bedeutung für KI-Ingenieure zu beleuchten.

LLMs deep learning fine-tuning PEFT

ARTICLEDEV.to AI·4/12/2026

Serverless Memory DBs for AI Agents in 2025

Der Text analysiert den Gedächtnismangel von KI-Agenten als architektonisches, nicht datenbezogenes Problem und bemerkt, dass die Community Lösungen entwickelt. Er schlägt serverlose In-Memory-Datenbanken vor, um die Speicherung von der Inferenz zu entkoppeln, damit LLMs sich auf das Schlussfolgern konzentrieren können, und kritisiert gleichzeitig die Ineffizienz des Einfügens von Kontext in Prompts.

LLMs memory Architecture serverless databases

ARTICLEDEV.to AI·5/9/2026

Future of AI Agents in Agentic AI

Agentive KI bezieht sich auf künstliche Intelligenzsysteme, die autonom agieren, Entscheidungen treffen und Aufgaben ohne ständiges menschliches Eingreifen ausführen können. Angetrieben von großen Sprachmodellen und ausgeklügelten Werkzeugnutzungsframeworks, gelten diese KI-Agenten als das nächste große Ding im Bereich der KI.

future of AI LLMs Agentic AI AI Agents

ARTICLEDEV.to AI·4/21/2026

Amazon Is Betting $25 Billion More on Anthropic. Here's What That Really Means.

Amazon bestätigte eine Investition von bis zu 25 Milliarden US-Dollar in Anthropic, zusätzlich zu den bereits investierten 8 Milliarden US-Dollar, für eine erweiterte Partnerschaft, die sich auf KI-Infrastruktur konzentriert, wobei Anthropic sich verpflichtet, AWS-Technologien für ein Jahrzehnt zu nutzen. Dieser Deal enthüllt die Richtung der KI, das Rennen um Infrastruktur und den kommerziellen Aufstieg von Anthropic.

LLMs cloud computing AWS AI partnership

ARTICLEML Mastery·vor 7T

Scikit-LLM vs. Traditional Text Classifiers: When Should You Use an LLM?

Der Inhalt untersucht, wie generative KI-Modelle wie LLMs traditionelle maschinelle Lernmethoden für Aufgaben wie die Textklassifizierung zunehmend abgelöst haben. Es wird erörtert, wann der Einsatz eines LLM angemessen ist.

LLMs machine learning text classification Scikit-LLM

Scikit-LLM vs. Traditional Text Classifiers: When Should You Use an LLM?

ARTICLEDEV.to AI·4/21/2026

Harness Engineering: The Most Important Part of AI Agents

Der Artikel argumentiert, dass KI-Agenten nicht aus intelligenteren LLMs entstehen, sondern aus deren Integration in ein robustes System durch „Harness Engineering“. Dieser Ansatz betont die praktischen Herausforderungen beim Bau zuverlässiger, realer KI-Anwendungen, die über die bloße Modellleistung hinausgehen.

System Design LLMs Reliability software engineering

ARTICLEDEV.to AI·4/15/2026

AI Tech Daily Agent — Complete Architecture Deep Dive & Workflow Analysis

Dieser Inhalt beleuchtet die Architektur und den Workflow eines autonomen KI-Agenten, der auf dem Fetch.ai uAgents Framework basiert und für den täglichen Tech-Journalismus konzipiert wurde. Er beschreibt, wie das System die Recherche, Analyse und Generierung von Artikeln über KI- und Technologieunternehmen automatisiert.

LLMs workflow automation Autonomous systems Architecture

RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

synthetic data LLMs Attention Mechanisms AI Reasoning

RESEARCHarXiv CS.LG·4/20/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

AI models inference LLMs numerical precision

RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.AI·4/15/2026

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

Diese Forschung stellt GoodPoint vor, eine Methode, die LLMs und Autorenantworten nutzt, um konstruktives Feedback für wissenschaftliche Arbeiten zu generieren. Dabei wird GoodPoint-ICLR entwickelt, ein Datensatz von ICLR-Arbeiten, sowie ein Trainingsrezept, das Fine-Tuning und Präferenzoptimierung für gültiges und umsetzbares Feedback verwendet.

LLMs Feedback Generation machine learning NLP

RESEARCHarXiv CS.AI·4/16/2026

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Diese Arbeit stellt SciFi vor, ein sicheres, leichtgewichtiges und benutzerfreundliches agentisches Framework für die autonome Ausführung wissenschaftlicher Aufgaben. Es kombiniert eine isolierte Umgebung, einen dreischichtigen Agenten-Loop und einen selbstbewertenden Mechanismus, um einen zuverlässigen Betrieb zu gewährleisten, und nutzt dabei LLMs, um routinemäßige wissenschaftliche Arbeitsabläufe zu automatisieren und Forscher für kreative Tätigkeiten zu entlasten.

LLMs Workflow Agentic AI automation

RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

LLMs reinforcement learning post-training machine learning

ARTICLEDEV.to AI·5/6/2026

Released my first open source project — MIT-licensed CLI for AI-assisted commit messages

Der Autor hat sein erstes Open-Source-Projekt veröffentlicht, ein MIT-lizenziertes CLI-Tool für KI-gestützte Commit-Nachrichten. Das Projekt unterstützt lokale Modelle über die Ollama-Integration, und der Autor verpflichtet sich zur Wartung und ist offen für Co-Maintainer, sollte das Interesse wachsen.

open-source LLMs development AI tools

RESEARCHarXiv CS.CL·4/22/2026

Scripts Through Time: A Survey of the Evolving Role of Transliteration in NLP

Dieses Papier untersucht die Rolle der Transliteration in der NLP, eine entscheidende Technik zur Überwindung der „Schriftbarriere“ im sprachübergreifenden Transfer. Es präsentiert eine Taxonomie von Motivationen und Ansätzen, analysiert deren Wirksamkeit und ordnet ihre Notwendigkeit in modernen LLMs ein.

Cross-lingual AI language models LLMs NLP

RESEARCHarXiv CS.CL·4/22/2026

Investigating Counterfactual Unfairness in LLMs towards Identities through Humor

Diese Arbeit untersucht kontrafaktische Ungerechtigkeit in LLMs, indem sie beobachtet, wie sich ihre Reaktionen auf Humor ändern, wenn Sprecher- und Adressatenidentitäten getauscht werden. Experimente zeigen konsistente relationale Ungleichheiten: Witze von privilegierten Sprechern werden häufiger abgelehnt oder als bösartig eingestuft.

ethics social impact LLMs Bias

RESEARCHarXiv CS.AI·4/22/2026

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

ARES stellt ein Framework vor, das systemische Schwachstellen in RLHF-ausgerichteten LLMs adressiert, bei denen unvollkommene Belohnungsmodelle unsicheres Verhalten nicht bestrafen. Es nutzt einen „Safety Mentor“ für adaptives Red-Teaming, um diese dualen Schwachstellen sowohl im LLM als auch in dessen Belohnungsmodell aufzudecken und zu mindern.

LLMs reinforcement learning security

ARTICLEDEV.to AI·4/22/2026

RAG: How AI Models Use Your Data Without Forgetting

Große Sprachmodelle sind zustandslos und haben keine Erinnerung an frühere Gespräche oder Zugriff auf aktuelle oder private Daten. RAG (Retrieval Augmented Generation) behebt dies durch die Einführung eines Abrufschritts, der es Modellen ermöglicht, auf externe Informationen zuzugreifen und als Denkmaschine über diese Daten zu fungieren.

LLMs RAG AI Information Retrieval

ARTICLEDEV.to AI·vor 27T

The Death of RAG? Long-Context Windows vs. Vector Databases

Der Artikel diskutiert, ob Retrieval-Augmented Generation (RAG) durch die großen Kontextfenster neuer LLMs überflüssig wird. Er argumentiert, dass RAG aufgrund seiner Kosteneffizienz, geringeren Latenz und Effizienz bei der Verwaltung häufig aktualisierter proprietärer Daten weiterhin relevant ist.

AI architecture LLMs Vector Databases RAG

ARTICLEDEV.to AI·4/22/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness ist ein leichtgewichtiges Open-Source-Projekt, das KI-Agenten eine effiziente und kostengünstige Interaktion mit Browsern ermöglicht, indem es die Grenzen traditioneller Automatisierungstools wie Playwright oder Selenium überwindet. Dies wird durch eine direkte Brücke zum Chrome DevTools Protocol erreicht, die Agenten dazu ermutigt, ihre eigenen Hilfsfunktionen in Echtzeit zu erstellen und zu ändern.

open-source LLMs browser automation AI Agents