← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·4/20/2026

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Große Sprachmodelle neigen dazu, faktisch inkorrekte Aussagen zu halluzinieren, ein Problem, das durch überwachtes Fine-Tuning (SFT) verstärkt wird, welches das vorab erworbene Wissen abbaut. Diese Forschung schlägt eine selbst-destillationsbasierte SFT-Methode vor, inspiriert vom kontinuierlichen Lernen, um Halluzinationen durch die Regularisierung der Ausgabe-Distributionsdrift zu mindern, während neue Fakten effektiv gelernt werden.

27
RESEARCHarXiv CS.AI·4/16/2026

ReSS: Learning Reasoning Models for Tabular Data Prediction via Symbolic Scaffold

ReSS ist ein Framework, das symbolische und neuronale Inferenzmodelle für die Vorhersage tabellarischer Daten verbindet, mit dem Ziel hoher Genauigkeit und nachvollziehbarer Begründungen. Es nutzt Entscheidungsbäume, um symbolische Gerüste zu extrahieren, die ein LLM zur Generierung natürlichsprachiger Begründungen anleiten, welche anschließend zur Feinabstimmung spezialisierter LLMs für tabellarisches Reasoning verwendet werden.

27
NEWSDEV.to AI·vor 18T

Google: Recaps Dialogues Stage at I/O 2026

Google hat eine Zusammenfassung der Dialog-Bühnen-Sitzungen seiner I/O 2026 Entwicklerkonferenz veröffentlicht, die Gespräche mit Sundar Pichai und anderen KI-Führungskräften hervorhebt. Der Rückblick konzentriert sich auf Googles Fortschritte in der künstlichen Intelligenz, deren Integration in Produkte und die verantwortungsvolle Entwicklung, einschließlich LLMs und Personalisierung von Nutzererfahrungen.

27
RESEARCHarXiv CS.CL·4/13/2026

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Dieses Papier bietet einen umfassenden Überblick über medizinisches Schlussfolgern mit großen Sprachmodellen (LLMs) und konzeptualisiert es als iterativen Prozess von Abduktion, Deduktion und Induktion. Es ordnet bestehende Methoden in sieben technische Ansätze ein und führt eine vereinheitlichte, benchmarkübergreifende Bewertung repräsentativer Modelle durch.

27
RESEARCHarXiv CS.AI·4/13/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO ist ein neuartiges Reinforcement-Learning-Framework, das entwickelt wurde, um die logische Konsistenz und strukturelle Kohärenz großer Sprachmodelle bei komplexen Denkaufgaben zu verbessern. Es integriert explizit Stabilitätsmetriken wie die Autokorrelationsfunktion und Pfadeffizienz, um die lokale Schritt-für-Schritt-Kohärenz und die globale Zielgerichtetheit des Denkprozesses zu bewerten.

27
RESEARCHarXiv CS.AI·vor 29T

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Eine neue Forschung zeigt, dass die Positionsverzerrung in Schlussfolgerungsmodellen, wie Chain-of-thought, mit der Länge der Schlussfolgerungstrajektorie skaliert. Dieser Effekt wurde über verschiedene Modellkonfigurationen und Benchmarks hinweg beobachtet, was darauf hindeutet, dass „mehr Nachdenken“ bestimmte Verzerrungen verstärken kann.

27
RESEARCHarXiv CS.CL·4/7/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
RESEARCHarXiv CS.AI·5/1/2026

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

Dieses Papier stellt eine einheitliche Multi-Agenten-KI-Architektur vor, die die End-to-End-Generierung von Machine-Learning (ML)-Pipelines aus Datensätzen und natürlichsprachlichen Zielen automatisiert. Das Fünf-Agenten-System integriert RAG, einen erklärbaren hybriden Recommender und einen selbstheilenden Mechanismus basierend auf LLM, wodurch eine Erfolgsquote von 84,7% und verbesserte Robustheit erzielt werden.

27
RESEARCHarXiv CS.AI·vor 6T

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Dieser Artikel bewertet "schädliches Überdenken" in großen Schlussfolgerungsmodellen, bei dem fortgesetztes Nachdenken nach einer korrekten Antwort die Flugbahn destabilisieren kann. Es wird ein Protokoll eingeführt, um redundantes von schädlichem Überdenken zu unterscheiden, wobei Probleme in multimodalen Benchmarks festgestellt werden.

27
RESEARCHarXiv CS.CL·vor 21T

Language Acquisition Device in Large Language Models

Dieser Artikel schlägt ein vom Spracherwerbsgerät (LAD) inspiriertes Vortraining mit MP-STRUCT vor, einer formalen Sprache, die natürliche Sprachstrukturen widerspiegelt, um die Dateneffizienz großer Sprachmodelle zu verbessern. Ein kurzes Vortraining mit MP-STRUCT erreicht die Token-Effizienz starker formaler Sprach-Baselines und verleiht eine menschenähnliche Resistenz gegenüber strukturell unplausiblen Sprachen.

27