large language models

265 items

RESEARCHarXiv CS.AI·4/30/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Diese Forschung untersucht die Zuverlässigkeit autonomer Sprachmodellagenten, die echte ETH in einem Onchain-Markt handeln, was durch einen 21-tägigen Einsatz mit Millionen von Aufrufen und 20 Millionen Dollar Volumen belegt wird. Die Studie zeigte eine Abwicklungserfolgsquote von 99,9 % und lieferte eine umfangreiche Spur zur Analyse der Robustheit dieser Systeme jenseits des Basismodells.

Blockchain Finance Reliability large language models

RESEARCHarXiv CS.CL·4/14/2026

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Diese Forschung stellt das Cognitive Synergy Framework vor, um die Herausforderung der Humor-Generierung in LLMs zu bewältigen, die im Widerspruch zu deren Standardziel der nächsten Wortvorhersage steht. Es nutzt einen Mixture-of-Thought-Ansatz mit sechs kognitiven Personas, um diverse komödiantische Perspektiven zu synthetisieren und ein theoretisch fundiertes Dataset zu erstellen, das zur Feinabstimmung eines 7B-Parameter-Modells verwendet wird, welches größere Baselines übertrifft.

Persona-Based AI Cognitive Synergy Framework Mixture-of-Thought large language models

RESEARCHarXiv CS.CL·4/30/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Diese Studie bewertet die Fähigkeit allgemeiner LLMs zur Informationsextraktion aus spanischen Stromrechnungen ohne Feinabstimmung und zeigt, dass die Prompt-Qualität wichtiger ist als die Hyperparameter-Optimierung. Few-shot-Strategien übertreffen Zero-shot-Ansätze um über 19 Prozentpunkte im F1-Score.

prompt-engineering Information Extraction benchmarking large language models

RESEARCHarXiv CS.CL·4/30/2026

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

CogRAG+ ist ein trainingsfreies Framework zur Diagnose und Behebung von Gedächtnis- und Denkdefiziten in großen Sprachmodellen bei professionellen Prüfungsfragen. Es entkoppelt und richtet Abruf und Schlussfolgerung an menschlichen kognitiven Hierarchien aus, indem es Reinforced Retrieval und kognitionsgeschichtetes Constrained Reasoning einsetzt, um Genauigkeit und Konsistenz zu verbessern.

Retrieval Augmented Generation Natural Language Processing AI Reasoning large language models

RESEARCHarXiv CS.CL·4/14/2026

Human vs. Machine Deception: Distinguishing AI-Generated and Human-Written Fake News Using Ensemble Learning

Diese Studie untersucht linguistische, strukturelle und emotionale Unterschiede zwischen KI-generierten und von Menschen verfassten Falschnachrichten. Sie bewertet maschinelles Lernen und ensemblebasierte Methoden zur Unterscheidung dieser Inhaltstypen, basierend auf einer detaillierten Merkmalsdarstellung.

ensemble learning fake news large language models misinformation

RESEARCHarXiv CS.CL·4/17/2026

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Diese Forschung schlägt TESSY, ein Framework zur Datensynthese durch Lehrer-Schüler-Kooperation, vor, um Leistungsabfälle beim Fine-Tuning von Reasoning-Modellen mit von Lehrern generierten Daten zu beheben. TESSY ermöglicht die Generierung synthetischer Sequenzen, die fortschrittliches Reasoning vom Lehrer erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Schülermodells beibehalten.

data synthesis machine learning code generation large language models

RESEARCHarXiv CS.CL·5/1/2026

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

Diese Studie untersucht die Existenz aufgabenspezifischer Neuronen in großen Sprachmodellen, insbesondere für mathematisches Denken und Codegenerierung. Sie führt eine aktivierungsbasierte Selektivitätsmetrik für das Neuronpruning ein, die das zufällige Pruning bei der Reduzierung der Rechenkosten und der Aufrechterhaltung der Aufgabengenauigkeit übertrifft und einen Leistungskollaps verhindert.

Pruning AI optimization model collapse large language models

RESEARCHarXiv CS.LG·vor 20T

LEAP: A closed-loop framework for perovskite precursor additive discovery

LEAP ist ein geschlossenes Framework, das ein domänenspezifisches großes Sprachmodell (LLM) mit aktivem Lernen zur iterativen Additivpriorisierung in Perowskit-Solarzellen koppelt. Es extrahiert Wissen aus der Literatur und repräsentiert Moleküle für die Bayes'sche Optimierung, übertrifft Allzweckmodelle und wurde experimentell validiert.

material discovery AI in materials science perovskite solar cells large language models

DOCDEV.to AI·4/21/2026

Fine-Tuning a Model in 2026: A Step-by-Step Guide

Fine-Tuning ist ein entscheidender Schritt zur Anpassung vortrainierter Modelle an spezifische Aufgaben, was die Leistung verbessert und die Trainingszeit verkürzt. Dieser Leitfaden definiert Fine-Tuning, seine Vorteile und den Unterschied zwischen vollständigem und parametereffizientem Fine-Tuning, wobei die Rolle vortrainierter Modelle hervorgehoben wird.

machine learning pre-trained-models large language models fine-tuning

RESEARCHarXiv CS.CL·vor 20T

Leveraging Large Language Models for Sentiment Analysis: Multi-Modal Analysis of Decentraland's MANA Token

Diese Studie untersucht die Integration der Sentimentanalyse der Decentraland Discord-Community, unter Verwendung eines BERT-basierten großen Sprachmodells, mit multimodalen Finanzdaten zur Vorhersage des MANA-Token-Preises. Die Ergebnisse zeigen, dass ein multimodales Modell, das Sentiment, Handelsvolumen und Marktkapitalisierung berücksichtigt, eine rein preisbasierte Vorhersagegrundlage deutlich übertrifft.

cryptocurrency Decentraland Price Prediction sentiment analysis

RESEARCHarXiv CS.CL·4/17/2026

Decoupling Scores and Text: The Politeness Principle in Peer Review

Diese Studie untersucht die Schwierigkeit, Peer-Review-Feedback zu interpretieren, indem sie die Effektivität numerischer Bewertungen gegenüber Text bei der Vorhersage der Annahme vergleicht. Die Forschung zeigt, dass score-basierte Modelle (91%) signifikant genauer sind als textbasierte Modelle (81% selbst mit LLMs), was darauf hindeutet, dass textuelle Informationen erheblich weniger zuverlässig sind.

machine learning Natural Language Processing large language models peer review

RESEARCHarXiv CS.CL·4/17/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Diese Forschung untersucht, ob Große Sprachmodelle (LLMs) methodologische Mängel, wie Datenlecks, in veröffentlichten maschinellen Lernstudien identifizieren können. Eine Fallstudie zeigte, dass sechs hochmoderne LLMs konsistent Bewertungsfehler in einem Paper zur Gestenerkennung aufgrund nicht-unabhängiger Datenpartitionierung aufdeckten.

deep learning machine learning large language models AI evaluation

RESEARCHarXiv CS.LG·4/24/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Dieses Papier stellt Gist Sparse Attention (GSA) vor, eine end-to-end lernbare Methode zur Skalierung großer Sprachmodelle auf lange Kontexte ohne Architekturmodifikationen. GSA komprimiert den Kontext in 'Gist-Tokens' zur Zusammenfassung und stellt dann selektiv relevante Rohabschnitte für detaillierte Aufmerksamkeit wieder her, wodurch kompakte globale Repräsentationen mit gezieltem Zugriff auf feinkörnige Details kombiniert werden.

neural networks model efficiency Attention Mechanisms large language models

RESEARCHarXiv CS.AI·4/20/2026

Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

Diese Forschung stellt einen zweistufigen Optimierungsrahmen zur systematischen Verbesserung von „Agentenfähigkeiten“ in großen Sprachmodellen (LLM) vor. Sie nutzt eine äußere Schleife der Monte Carlo Tree Search, um Struktur und Inhalt dieser Fähigkeiten gemeinsam zu optimieren und die Aufgabenleistung zu verbessern.

Optimization Monte Carlo Tree Search large language models AI agents

RESEARCHarXiv CS.CL·4/20/2026

Applied Explainability for Large Language Models: A Comparative Study

Diese Studie vergleicht drei Erklärbarkeitstechniken (Integrated Gradients, Attention Rollout und SHAP) an einem fein abgestimmten DistilBERT-Modell für die Sentimentklassifikation. Die Ergebnisse zeigen, dass gradientenbasierte Ansätze stabilere und intuitivere Erklärungen liefern, während auf Aufmerksamkeit basierende Methoden zwar effizient, aber weniger auf vorhersagerelevante Merkmale abgestimmt sind.

Comparative Study Natural Language Processing Explainable AI large language models

RESEARCHarXiv CS.CL·5/4/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Dieser Artikel stellt ViLegalNLI vor, den ersten groß angelegten vietnamesischen Natural Language Inference (NLI)-Datensatz speziell für den Rechtsbereich. Er umfasst 42.012 Prämissen-Hypothesen-Paare aus offiziellen Gesetzestexten, erstellt mit einem halbautomatischen Framework, das große Sprachmodelle für die Hypothesengenerierung und Validierung integriert.

Dataset Legal AI Natural Language Inference Vietnamese NLI

RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.LG·4/24/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformatoren leiden unter hohen Rechenkosten und Speicherverbrauch bei langen Sequenzen, während Alternativen Langzeitabhängigkeiten verlieren. Absorber LLM schlägt eine selbstüberwachte kausale Synchronisation vor, um historische Kontexte in Modellparameter zu absorbieren, sodass ein kontextloses Modell zukünftige Generierungen eines Modells mit vollständigem Kontext erreichen kann.

AI architecture Natural Language Processing Machine Learning Optimization large language models

RESEARCHarXiv CS.LG·vor 22T

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Diese Forschung befasst sich mit dem Problem der schlechten Kreditzuweisung im Reinforcement Learning für mehrstufiges Denken mit großen Sprachmodellen, verursacht durch spärliche Endbelohnungen, die zu hoher Gradientenvarianz und instabilem Training führen. Sie schlägt einen kontrafaktischen Vergleichs-basierten Kreditzuweisungsrahmen und die Implizite Verhaltensrichtlinienoptimierung (IBPO) vor, um schrittsensitive Lernsignale zu erzeugen, was die Trainingsstabilität und Leistung erheblich verbessert.

reinforcement learning AI Training Machine learning research large language models

RESEARCHarXiv CS.CL·vor 26T

Distribution Corrected Offline Data Distillation for Large Language Models

Diese Forschung schlägt ein Offline-Argumentationsdestillations-Framework für Große Sprachmodelle (LLMs) vor, um die Intelligenz in ressourcenbeschränkten Umgebungen zu verbessern. Die Methode behebt das Problem der Verteilungsdrift bei bestehenden Offline-Ansätzen, indem sie Lehrer-Schüler-Diskrepanzen korrigiert, während Effizienz und Überwachungsqualität erhalten bleiben.

Data Distillation Offline Distillation machine learning large language models