large language models

262 items

RESEARCHarXiv CS.CL·vor 14T

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Diese Forschung stellt EnterpriseMem-Bench vor, einen neuartigen Multi-Turn-Text-to-SQL-Benchmark mit 300 Sitzungen und 1.400 Runden aus Unternehmensbereichen. Sie bewertet empirisch fünf führende Modelle, darunter GPT- und Claude-Varianten, und zeigt, dass zustandslose Multi-Turn-Text-to-SQL-Modelle ab Runde 3 eine Ausführungsgenauigkeit von null erreichen.

memory architectures Text-to-SQL enterprise analytics Benchmarking

ARTICLEDEV.to AI·4/25/2026

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro: The Frontier Model Showdown

Dieser Artikel vergleicht die neuesten Flaggschiff-KI-Modelle — GPT-5.5, Claude Opus 4.7 und Gemini 3.1 Pro — für Produktions-Workflows, Agentenentwicklung und Codierungstools. Es wird argumentiert, dass kein einzelnes Modell universell überlegen ist, wobei die Wahl von spezifischen Aufgaben, Preis und Infrastruktur abhängt, insbesondere für risikoreiches agentisches Codieren.

AI models Benchmarking coding tools large language models

ARTICLEDEV.to AI·4/16/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

Prof. Alois Knoll, ein Robotik- und KI-Forscher, argumentiert, dass wahre Intelligenz einen Körper erfordert, da große Sprachmodelle auf den digitalen Raum beschränkt sind und physische Erfahrung missen. Er betont die Notwendigkeit humanoider Roboter, um reale Daten zu sammeln und ein Verständnis zu liefern, das reine Textanalyse nicht ersetzen kann.

humanoid robots embodied AI AI large language models

NEWSDEV.to AI·4/25/2026

OpenAI Just Released GPT-5.5. Here's What It Actually Does (and What It Costs You)

OpenAI hat GPT-5.5 veröffentlicht, ein grundlegend anderes Modell, das für komplexe, mehrteilige Aufgaben mit nachhaltigem mehrstufigem Denken konzipiert wurde. Diese Iteration zielt darauf ab, den Bedarf an ständiger Überwachung zu reduzieren und Entwicklern zu ermöglichen, dem Modell bei der Planung und im Umgang mit Mehrdeutigkeiten zu vertrauen.

AI models OpenAI GPT-5.5 large language models

ARTICLEDEV.to AI·4/25/2026

I Audited a Business's AI Visibility Across Four Platforms. The Results Were Worse Than Expected.

Dieser Artikel beschreibt ein KI-Sichtbarkeitsaudit, das für ein Unternehmen auf Plattformen wie ChatGPT, Claude, Gemini und Perplexity durchgeführt wurde, und zeigt, dass traditionelle SEO-Optimierung für Google nicht ausreicht. Das Audit testete, wie KI-Modelle ein Unternehmen durch allgemeine Kategorie- und spezifische Markenanfragen darstellen, was eine erhebliche Lücke in den aktuellen Optimierungsstrategien für KI-Plattformen aufzeigt.

digital-marketing SEO for AI large language models AI visibility

RESEARCHDEV.to AI·4/18/2026

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

LlamaFactory wird als ein einheitliches und effizientes Framework zur Feinabstimmung von über 100 verschiedenen Sprachmodellen eingeführt. Es zielt darauf ab, den Prozess der Anpassung einer Vielzahl großer Sprachmodelle zu optimieren und zu vereinfachen.

LLMs AI frameworks machine learning large language models

DOCDEV.to AI·4/26/2026

GPT-5.5 System Card

Die GPT-5.5 System Card von OpenAI beschreibt ein transformatorbasiertes Sprachmodell, das auf GPT-3 aufbaut und sich auf Skalierung und Feinabstimmung konzentriert. Die Architektur ist primär Decoder-Only und verwendet Selbstaufmerksamkeitsmechanismen sowie Feed-Forward-Netzwerke.

AI architecture Natural Language Processing large language models

ARTICLEDEV.to AI·4/25/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, ein MoE-Modell mit 1.6T Parametern und einem 1M Token Kontext, wurde veröffentlicht und bietet erhebliche Verbesserungen für KI-Agenten, einschließlich dualer Denk-/Nicht-Denk-Modi und zuverlässigerer Funktionsaufrufe. Es positioniert sich als kostengünstige und leistungsstarke Alternative, die Modelle wie Claude Sonnet und GPT-4o für Agenten-Workloads übertrifft.

DeepSeek AI Model large language models performance

DOCDEV.to AI·vor 29T

The $30/Month AI Coding Stack That Replaces $200 Subscriptions: A 2026 Setup Guide

Ein KI-Codierungs-Stack für 30 $/Monat, der Pay-per-Token-APIs wie Claude Opus 4.7 nutzt, kann 200 $/Monat teure Abonnements ersetzen, indem er die Routing-Strategie über die individuelle Modellauswahl stellt. Dieser Ansatz vermeidet Nutzungsobergrenzen, die bei Festpreisstrukturen üblich sind, und bietet vorhersehbare Kosten pro Aufgabe.

developer productivity Subscription models AI tools Cost Optimization

NEWSDEV.to AI·4/15/2026

AI Weekly: Agents, Models, and Chips — April 9–15, 2026

Diese Woche verschmelzen KI-Codierungstools wie Cursor, Claude Code und OpenAI Codex zu einheitlichen Entwicklungsumgebungen, während neue Sprachmodelle die multimodale Basis erhöhen. Zudem wurde Hardware für agentische Workloads allgemein verfügbar; 84% der Entwickler nutzen bereits täglich KI-Codierungstools.

AI coding tools large language models AI agents

ARTICLEDEV.to AI·4/14/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

Der Artikel beschreibt die M2-Familie von großen Sprachmodellen von MiniMax, die eine Mixture-of-Experts-Architektur für hohe Leistung bei geringen Inferenzkosten nutzt. Das M2.7-Modell erreicht 90 % der Qualität eines Spitzenmodells zu 7 % der Kosten, mit Benchmark-Ergebnissen, die mit Claude Sonnet 4 vergleichbar sind.

OpenClaw AI performance Mixture of Experts MiniMax M2

ARTICLEDEV.to AI·4/9/2026

Meta's New Model Has 16 Tools. Here's What They Do.

O novo modelo Muse Spark da Meta, competitivo com GPT-5.4 e Gemini 3.1 Pro, destaca-se por seu catálogo de 16 ferramentas integradas. Ele oferece um sandbox Python 3.9 com OpenCV e permite gerar e analisar imagens instantaneamente no mesmo ambiente, incorporando recursos como o Segment Anything.

Muse Spark Meta AI image generation AI tools

CASEDEV.to AI·4/21/2026

How we built real-time deposition analysis with Claude's streaming API

Dieser Inhalt beschreibt den Aufbau eines Echtzeit-KI-Tools für Anwälte für Arzthaftpflicht, um Vernehmungen zu analysieren. Das System verwendet Deepgram für die Live-Transkription und Claude, um 30-Sekunden-Segmente zu analysieren und Geständnisse sowie Ungereimtheiten zu identifizieren.

application development streaming-api large language models real-time AI

ARTICLEHugging Face Blog·4/24/2026

DeepSeek-V4: a million-token context that agents can actually use

DeepSeek-V4 stellt ein neues Sprachmodell mit einem Kontextfenster von einer Million Token vor, das speziell für den praktischen Einsatz durch KI-Agenten konzipiert wurde. Diese Neuerung soll die Gedächtnis- und Argumentationsfähigkeiten von Agenten erheblich verbessern.

AI models Context window large language models AI agents

RESEARCHarXiv CS.CL·4/6/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

counterfactual prompting computational linguistic sycophancy large language models

RESEARCHarXiv CS.LG·4/30/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Diese Arbeit überdenkt die KV-Cache-Eviction für LLMs mittels eines informationstheoretischen Ziels, das aus dem Informationsengpassprinzip abgeleitet wurde. Sie stellt CapKV vor, eine neue kapazitätsbewusste Methode, die Informationen bewahrt und bestehende heuristische Strategien übertrifft.

Memory Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·4/30/2026

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Diese Arbeit evaluiert einen auf generativer KI basierenden virtuellen Assistenten, der Retrieval-Augmented Generation (RAG) einsetzt, um Studenten der Universität Maastricht bei Projektvorschriften zu unterstützen. Das System zielt darauf ab, Herausforderungen wie Halluzinationen zu begegnen und genaue, kontextspezifische Antworten durch die Integration von domänenspezifischem Wissen zu liefern.

Retrieval Augmented Generation education Virtual Assistants large language models

RESEARCHarXiv CS.LG·5/6/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Dieses Papier schlägt ein agentisches, auf künstlicher Intelligenz (KI) basierendes Netzwerkoptimierungs-Framework vor, das Mixture-of-Experts (MoE)-Architekturen mit großen Sprachmodellen (LLMs) integriert. Das LLM fungiert als semantisches Tor, um über Operatorziele zu urteilen und dynamisch geeignete Optimierungsagenten für 6G-Mobilfunknetze zusammenzustellen.

Network Optimization 6G Networks Agentic AI Mixture of Experts

RESEARCHarXiv CS.LG·5/6/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Diese Arbeit untersucht die Auswirkungen systematischer Verifikationsfehler auf das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), eine Methode zur Verbesserung der Denkfähigkeiten großer Sprachmodelle. Im Gegensatz zu früheren Analysen, die Fehler als zufällig betrachteten, zeigt diese Studie, dass systematische Fehler Modelle dazu bringen können, unerwünschtes Verhalten zu lernen. Experimente an arithmetischen Aufgaben zeigen, dass systematische falsch-negative Ergebnisse ähnliche Effekte wie zufälliges Rauschen haben, während systematische falsch-positive Ergebnisse komplexere Auswirkungen haben können.

reinforcement learning AI Errors Verification large language models

RESEARCHarXiv CS.AI·vor 22T

From Prompts to Protocols: An AI Agent for Laboratory Automation

Dieser Artikel stellt eine KI-Agentenarchitektur vor, die große Sprachmodelle mit Labororchestration integriert. Sie ermöglicht Wissenschaftlern, automatisierte Laborprotokolle interaktiv mittels natürlicher Sprache zu erstellen und zu überwachen.

Experiment Orchestration AI agent Natural Language Processing large language models