large language models

262 items

RESEARCHarXiv CS.CL·4/20/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Große Sprachmodelle neigen dazu, faktisch inkorrekte Aussagen zu halluzinieren, ein Problem, das durch überwachtes Fine-Tuning (SFT) verstärkt wird, welches das vorab erworbene Wissen abbaut. Diese Forschung schlägt eine selbst-destillationsbasierte SFT-Methode vor, inspiriert vom kontinuierlichen Lernen, um Halluzinationen durch die Regularisierung der Ausgabe-Distributionsdrift zu mindern, während neue Fakten effektiv gelernt werden.

hallucinations large language models Fine-tuning Continual Learning

RESEARCHarXiv CS.AI·4/16/2026

ReSS: Learning Reasoning Models for Tabular Data Prediction via Symbolic Scaffold

ReSS ist ein Framework, das symbolische und neuronale Inferenzmodelle für die Vorhersage tabellarischer Daten verbindet, mit dem Ziel hoher Genauigkeit und nachvollziehbarer Begründungen. Es nutzt Entscheidungsbäume, um symbolische Gerüste zu extrahieren, die ein LLM zur Generierung natürlichsprachiger Begründungen anleiten, welche anschließend zur Feinabstimmung spezialisierter LLMs für tabellarisches Reasoning verwendet werden.

machine learning Explainable AI tabular data large language models

ARTICLEDEV.to AI·4/21/2026

The Physics Wall in 2026: 3 Papers That Show Why Node Shrinks Won't Save Us

Dieser Artikel behauptet, dass einfache Halbleiter-Knotenschrumpfungen keine signifikanten Leistungs- oder Energieeffizienzgewinne mehr garantieren, basierend auf aktuellen Forschungsarbeiten. Er analysiert die aktuelle „Physik-Wand“ mithilfe von LLM-Inferenz-Benchmarks und bietet Prognosen bis 2030.

technology limitations AI hardware semiconductors Performance optimization

NEWSDEV.to AI·vor 18T

Google: Recaps Dialogues Stage at I/O 2026

Google hat eine Zusammenfassung der Dialog-Bühnen-Sitzungen seiner I/O 2026 Entwicklerkonferenz veröffentlicht, die Gespräche mit Sundar Pichai und anderen KI-Führungskräften hervorhebt. Der Rückblick konzentriert sich auf Googles Fortschritte in der künstlichen Intelligenz, deren Integration in Produkte und die verantwortungsvolle Entwicklung, einschließlich LLMs und Personalisierung von Nutzererfahrungen.

AI applications Google AI large language models AI development

RESEARCHarXiv CS.CL·4/13/2026

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Dieses Papier bietet einen umfassenden Überblick über medizinisches Schlussfolgern mit großen Sprachmodellen (LLMs) und konzeptualisiert es als iterativen Prozess von Abduktion, Deduktion und Induktion. Es ordnet bestehende Methoden in sieben technische Ansätze ein und führt eine vereinheitlichte, benchmarkübergreifende Bewertung repräsentativer Modelle durch.

Medical Reasoning LLMs in Medicine large language models healthcare AI

ARTICLEDEV.to AI·vor 20T

Airflow to the Rescue: How AI Powers Better DAG Failures

Dieser Artikel stellt einen in der Produktion implementierten Ansatz zur Verbesserung der Fehlererkennung und -diagnose in Apache Airflow vor. Er nutzt große Sprachmodelle, statistische Methoden und traditionelles maschinelles Lernen, um umfangreiche Protokolle zu analysieren und Nachrichten zu klassifizieren.

data engineering machine learning AI large language models

RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.CL·vor 29T

MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

MELD ist ein neuer einsetzbarer Detektor für KI-generierten Text, der die binäre Erkennung durch zusätzliche Multi-Task-Überwachung verbessert. Er strebt Robustheit gegenüber Angriffen, Übertragbarkeit auf unbekannte Generatoren und niedrige Fehlerraten an.

security large language models AI-generated text detection

RESEARCHarXiv CS.AI·vor 29T

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Eine neue Forschung zeigt, dass die Positionsverzerrung in Schlussfolgerungsmodellen, wie Chain-of-thought, mit der Länge der Schlussfolgerungstrajektorie skaliert. Dieser Effekt wurde über verschiedene Modellkonfigurationen und Benchmarks hinweg beobachtet, was darauf hindeutet, dass „mehr Nachdenken“ bestimmte Verzerrungen verstärken kann.

AI bias Natural Language Processing reasoning models Machine learning research

RESEARCHarXiv CS.CL·4/7/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

RESEARCHarXiv CS.AI·5/1/2026

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

Dieses Papier stellt eine einheitliche Multi-Agenten-KI-Architektur vor, die die End-to-End-Generierung von Machine-Learning (ML)-Pipelines aus Datensätzen und natürlichsprachlichen Zielen automatisiert. Das Fünf-Agenten-System integriert RAG, einen erklärbaren hybriden Recommender und einen selbstheilenden Mechanismus basierend auf LLM, wodurch eine Erfolgsquote von 84,7% und verbesserte Robustheit erzielt werden.

Retrieval Augmented Generation multi-agent AI large language models ML Automation

RESEARCHarXiv CS.AI·vor 6T

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Dieser Artikel bewertet "schädliches Überdenken" in großen Schlussfolgerungsmodellen, bei dem fortgesetztes Nachdenken nach einer korrekten Antwort die Flugbahn destabilisieren kann. Es wird ein Protokoll eingeführt, um redundantes von schädlichem Überdenken zu unterscheiden, wobei Probleme in multimodalen Benchmarks festgestellt werden.

multimodal AI Overthinking Model Evaluation AI Reasoning

RESEARCHarXiv CS.CL·vor 20T

MMoA: An AI-Agent framework with recurrence for Memoried Mixure-of-Agent

MMoA ist eine wiederkehrende Mixture-of-Agents (MoA)-Architektur, die LSTM-basiertes Routing für eine adaptive Agentenauswahl integriert. Es verbessert die LLM-Leistung, indem es dynamisch weniger Agenten aktiviert und dabei eine vergleichbare Genauigkeit auf Benchmarks wie AlpacaEval 2.0 erzielt.

Benchmarking Recurrence Mixture-of-Agents large language models

RESEARCHarXiv CS.CL·vor 21T

Language Acquisition Device in Large Language Models

Dieser Artikel schlägt ein vom Spracherwerbsgerät (LAD) inspiriertes Vortraining mit MP-STRUCT vor, einer formalen Sprache, die natürliche Sprachstrukturen widerspiegelt, um die Dateneffizienz großer Sprachmodelle zu verbessern. Ein kurzes Vortraining mit MP-STRUCT erreicht die Token-Effizienz starker formaler Sprach-Baselines und verleiht eine menschenähnliche Resistenz gegenüber strukturell unplausiblen Sprachen.

Formal Languages Pre-pretraining Language Acquisition MP-STRUCT

DOCDEV.to AI·vor 6T

One API Key to Rule All AI Models: A Developer's Guide to TokenEase

TokenEase ist ein KI-API-Aggregations-Gateway, das einen einzigen OpenAI-kompatiblen API-Schlüssel für den Zugriff auf mehrere führende Sprachmodelle bereitstellt. Es vereinfacht die Entwicklung von KI-Anwendungen, indem es die Verwaltung unterschiedlicher Schlüssel, Endpunkte und Ratenbegrenzungen für jedes Modell überflüssig macht.

AI integration API Management large language models developer tools

NEWSDEV.to AI·vor 18T

Qwen3-Coder-Next: 80B total, 3B active, 70.6 on SWE-Bench

Qwen3-Coder-Next ist ein spärliches Mixture-of-Experts (MoE)-Modell mit 80B Gesamt- und 3B aktiven Parametern, das einen Score von 70.6 auf SWE-Bench Verified erreicht. Es verfügt über einen hybriden Aufmerksamkeitsmechanismus und Apache 2.0-Gewichte, eine für das Codieren optimierte Variante.

Benchmarking code generation Mixture of Experts large language models

ARTICLEDEV.to AI·4/26/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 bietet einen tatsächlich nutzbaren Kontext von 1 Million Token, indem es das GPU-Speicherproblem mit einer hybriden Aufmerksamkeitsarchitektur löst, die den KV-Cache um fast das Neunfache komprimiert. Dies macht es im Gegensatz zu vielen anderen Modellen zu einer praktischen Lösung für die Langkontext-Inferenz.

DeepSeek AI models Model Architecture large language models

RESEARCHDEV.to AI·vor 26T

Large Language Models are Few-Shot Health Learners

Dieser Inhalt untersucht die Fähigkeit von Großen Sprachmodellen (LLMs), gesundheitsbezogene Aufgaben mit wenigen Beispielen zu lernen. Es wird erörtert, wie Few-Shot-Lernen im Gesundheitsbereich mithilfe von LLMs effektiv angewendet werden kann.

learning AI Few-Shot Learning large language models

ARTICLEDEV.to AI·4/28/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, am 24. April 2026 eingeführt, ist ein 1.6T (MoE) Modell mit 1M Token Kontext und Think/Non-Think-Modi für KI-Agenten. Es bietet verbesserte mehrstufige Planung und zuverlässigere Funktionsaufrufe zu wettbewerbsfähigen Preisen, was es zu einer idealen Option für Agenten-Workloads macht.

DeepSeek model performance large language models AI agents

NEWSMIT Tech Review AI·4/27/2026

The Download: DeepSeek’s latest AI breakthrough, and the race to build world models

DeepSeek, ein chinesisches KI-Unternehmen, hat eine Vorschau seines neuen Flaggschiffmodells V4 veröffentlicht, das bemerkenswerterweise viel längere Prompts verarbeiten kann. Diese Entwicklung ist Teil des anhaltenden Wettlaufs um den Bau fortschrittlicher Weltmodelle in der KI-Branche.

AI models large language models AI development