← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·vor 14T

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Diese Forschung stellt EnterpriseMem-Bench vor, einen neuartigen Multi-Turn-Text-to-SQL-Benchmark mit 300 Sitzungen und 1.400 Runden aus Unternehmensbereichen. Sie bewertet empirisch fünf führende Modelle, darunter GPT- und Claude-Varianten, und zeigt, dass zustandslose Multi-Turn-Text-to-SQL-Modelle ab Runde 3 eine Ausführungsgenauigkeit von null erreichen.

27
ARTICLEDEV.to AI·4/25/2026

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro: The Frontier Model Showdown

Dieser Artikel vergleicht die neuesten Flaggschiff-KI-Modelle — GPT-5.5, Claude Opus 4.7 und Gemini 3.1 Pro — für Produktions-Workflows, Agentenentwicklung und Codierungstools. Es wird argumentiert, dass kein einzelnes Modell universell überlegen ist, wobei die Wahl von spezifischen Aufgaben, Preis und Infrastruktur abhängt, insbesondere für risikoreiches agentisches Codieren.

27
NEWSDEV.to AI·4/25/2026

OpenAI Just Released GPT-5.5. Here's What It Actually Does (and What It Costs You)

OpenAI hat GPT-5.5 veröffentlicht, ein grundlegend anderes Modell, das für komplexe, mehrteilige Aufgaben mit nachhaltigem mehrstufigem Denken konzipiert wurde. Diese Iteration zielt darauf ab, den Bedarf an ständiger Überwachung zu reduzieren und Entwicklern zu ermöglichen, dem Modell bei der Planung und im Umgang mit Mehrdeutigkeiten zu vertrauen.

27
ARTICLEDEV.to AI·4/25/2026

I Audited a Business's AI Visibility Across Four Platforms. The Results Were Worse Than Expected.

Dieser Artikel beschreibt ein KI-Sichtbarkeitsaudit, das für ein Unternehmen auf Plattformen wie ChatGPT, Claude, Gemini und Perplexity durchgeführt wurde, und zeigt, dass traditionelle SEO-Optimierung für Google nicht ausreicht. Das Audit testete, wie KI-Modelle ein Unternehmen durch allgemeine Kategorie- und spezifische Markenanfragen darstellen, was eine erhebliche Lücke in den aktuellen Optimierungsstrategien für KI-Plattformen aufzeigt.

27
ARTICLEDEV.to AI·4/25/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, ein MoE-Modell mit 1.6T Parametern und einem 1M Token Kontext, wurde veröffentlicht und bietet erhebliche Verbesserungen für KI-Agenten, einschließlich dualer Denk-/Nicht-Denk-Modi und zuverlässigerer Funktionsaufrufe. Es positioniert sich als kostengünstige und leistungsstarke Alternative, die Modelle wie Claude Sonnet und GPT-4o für Agenten-Workloads übertrifft.

27
DOCDEV.to AI·vor 29T

The $30/Month AI Coding Stack That Replaces $200 Subscriptions: A 2026 Setup Guide

Ein KI-Codierungs-Stack für 30 $/Monat, der Pay-per-Token-APIs wie Claude Opus 4.7 nutzt, kann 200 $/Monat teure Abonnements ersetzen, indem er die Routing-Strategie über die individuelle Modellauswahl stellt. Dieser Ansatz vermeidet Nutzungsobergrenzen, die bei Festpreisstrukturen üblich sind, und bietet vorhersehbare Kosten pro Aufgabe.

27
RESEARCHarXiv CS.CL·4/6/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

27
RESEARCHarXiv CS.CL·4/30/2026

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Diese Arbeit evaluiert einen auf generativer KI basierenden virtuellen Assistenten, der Retrieval-Augmented Generation (RAG) einsetzt, um Studenten der Universität Maastricht bei Projektvorschriften zu unterstützen. Das System zielt darauf ab, Herausforderungen wie Halluzinationen zu begegnen und genaue, kontextspezifische Antworten durch die Integration von domänenspezifischem Wissen zu liefern.

27
RESEARCHarXiv CS.LG·5/6/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Dieses Papier schlägt ein agentisches, auf künstlicher Intelligenz (KI) basierendes Netzwerkoptimierungs-Framework vor, das Mixture-of-Experts (MoE)-Architekturen mit großen Sprachmodellen (LLMs) integriert. Das LLM fungiert als semantisches Tor, um über Operatorziele zu urteilen und dynamisch geeignete Optimierungsagenten für 6G-Mobilfunknetze zusammenzustellen.

27
RESEARCHarXiv CS.LG·5/6/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Diese Arbeit untersucht die Auswirkungen systematischer Verifikationsfehler auf das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), eine Methode zur Verbesserung der Denkfähigkeiten großer Sprachmodelle. Im Gegensatz zu früheren Analysen, die Fehler als zufällig betrachteten, zeigt diese Studie, dass systematische Fehler Modelle dazu bringen können, unerwünschtes Verhalten zu lernen. Experimente an arithmetischen Aufgaben zeigen, dass systematische falsch-negative Ergebnisse ähnliche Effekte wie zufälliges Rauschen haben, während systematische falsch-positive Ergebnisse komplexere Auswirkungen haben können.

27