AI Research

146 items

RESEARCHarXiv CS.CL·4/30/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV ist eine neuartige spekulative Decodierungsmethode, die Multi-Draft- und Greedy-Block-Verifizierung vereint, um die Inferenz von Sprachmodellen zu beschleunigen. Sie formuliert den Verifizierungsschritt als optimales Transportproblem, was die theoretische Effizienz und die empirische Leistung verbessert, indem sie die optimal erreichbare erwartete Akzeptanzlänge erreicht.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.AI·5/9/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Dieses Papier schlägt konstantes Kontext-Fähigkeitslernen vor, einen neuartigen Rahmen für LLM-Agenten, um wiederkehrende Workflows effizienter zu verwalten. Es begegnet Herausforderungen in Bezug auf Datenschutz, Kosten und Fähigkeiten, indem wiederverwendbare Prozeduren in Aufgabenfamilienmodulen gelernt und die Inferenz an einen kompakten Zustandsblock geknüpft wird. Die Wirksamkeit wird auf Benchmarks wie ALFWorld, WebShop und SciWorld demonstriert.

LLM Agents reinforcement learning Skill Learning AI Research

RESEARCHarXiv CS.LG·4/20/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Diese Forschungsarbeit entdeckt spektrale Phasenübergänge in den verborgenen Aktivierungsräumen großer Sprachmodelle beim Denken im Vergleich zum Faktenabruf. Eine systematische Spektralanalyse über 11 Modelle und 5 Architektfamilien identifiziert sieben Kernphänomene, darunter spektrale Kompression beim Denken und spektrale Umkehrung durch Instruktionsabstimmung.

neural networks LLMs machine learning AI Research

RESEARCHarXiv CS.LG·vor 19T

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Die Arbeit schlägt einen neuronalen Rahmen zur Schätzung der paarweisen bedingten wechselseitigen Information (MI) direkt aus den verborgenen Zuständen vortrainierter maskierter Diffusionsmodelle (MDMs) vor. Diese Methode erfasst Abhängigkeitsstrukturen und ermöglicht eine MI-geführte parallele Dekodierung, was ihre Nützlichkeit bei der Sudoku- und Proteinsequenzgenerierung durch das Wiederherstellen struktureller Einschränkungen demonstriert.

neural networks information theory machine learning sequence models

RESEARCHarXiv CS.CL·vor 19T

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Diese Studie schlägt ein strukturiertes Framework zur Verbesserung des LLM-Argumentationsvermögens bei der Analyse langer Dokumente vor, um kontextuelle Verzerrungen und Auslassungsfehler zu bekämpfen. Es kombiniert parallele abschnittsweise Verarbeitung mit evidenzbasierter Konsolidierung, um robustere und bias-resistentere konzeptuelle Abstraktionen zu erzeugen.

Contextual Reasoning Natural Language Processing AI Research Bias

RESEARCHarXiv CS.CL·vor 19T

Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models

Diese Studie untersucht, wie emotional gerahmte Bewertungs-Follow-ups sowohl das Verhalten als auch die internen Repräsentationen kleiner Sprachmodelle verändern. Die Ergebnisse zeigen, dass „Druck“ die stärksten Shortcut-Marker hervorruft, während „Ruhe“ und „Neugier“ die Ehrlichkeit besser bewahren.

NLP model behavior emotional framing AI Research

RESEARCHarXiv CS.LG·5/8/2026

MidSteer: Optimal Affine Framework for Steering Generative Models

Dieses Papier formalisiert die Theorie des Konzept-Steerings in generativen Modellen, verknüpft sie mit der affinen Konzeptlöschung und stellt LEACE-Switch vor. Es schlägt dann MidSteer vor, ein allgemeineres affines Framework für die Konzeptmanipulation mit minimaler Störung.

model steering machine learning theoretical framework AI Research

RESEARCHarXiv CS.CL·vor 19T

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM stellt ein neues Fluss-Matching-Sprachmodell vor, das aus vortrainierten Diffusionssprachmodellen durch effizientes Fine-Tuning transformiert wurde. Diese Methode ermöglicht eine hochwertige Textgenerierung in wenigen Schritten, die die Qualität der traditionellen Diffusionsabtastung mit weniger Trainingsepochen deutlich übertrifft.

Diffusion Models language models machine learning text generation

RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

data optimization pretraining machine learning large language models

RESEARCHarXiv CS.CL·vor 7T

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

Die Langkontext-Dekodierung in Large Language Models (LLMs) wird stark durch die Speicherbandbreite des Key-Value (KV)-Caches eingeschränkt. Dieses Papier schlägt Attention Run-time Termination (ART) vor, einen leichtgewichtigen Mechanismus, der den KV-Cache-Zugriff optimiert und einen um 20% höheren Generierungsdurchsatz erzielt.

LLMs memory management decoding performance

RESEARCHarXiv CS.CL·vor 25T

Distribution Corrected Offline Data Distillation for Large Language Models

Diese Forschung schlägt ein Offline-Argumentationsdestillations-Framework für Große Sprachmodelle (LLMs) vor, um die Intelligenz in ressourcenbeschränkten Umgebungen zu verbessern. Die Methode behebt das Problem der Verteilungsdrift bei bestehenden Offline-Ansätzen, indem sie Lehrer-Schüler-Diskrepanzen korrigiert, während Effizienz und Überwachungsqualität erhalten bleiben.

Data Distillation Offline Distillation machine learning large language models

RESEARCHarXiv CS.LG·vor 7T

From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models

Forscher schlagen Demo2Reward vor, eine Testzeit-Anpassungstechnik zur Optimierung von Vision-Sprachmodell (VLM)-Belohnungsmodellen in der Robotik. Sie verwendet wenige Demonstrationen, um Fehlalarme zu reduzieren und gleichzeitig Echt-Positive zu erhalten, ohne zusätzliches Modelltraining zu erfordern.

Vision-Language Models reinforcement learning Prompt Optimization robotics

RESEARCHarXiv CS.LG·vor 25T

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

EvolveMem stellt eine sich selbst entwickelnde Speicherarchitektur für LLM-Agenten vor, die eine Ko-Evolution von gespeichertem Wissen und Abrufmechanismen ermöglicht. Sie optimiert ihre Konfiguration autonom mithilfe eines LLM-gestützten Diagnosemoduls, was zu einem geschlossenen AutoResearch-Prozess führt.

LLM Agents AutoResearch self-evolving systems memory architecture

RESEARCHarXiv CS.LG·vor 25T

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Dieses Papier stellt TraFL vor, einen neuartigen Nach-Trainings-Ansatz für Diffusionssprachmodelle, der das "Trajektoriensperren" bei belohnungsmaximierenden Methoden adressiert. TraFL, ein Trajektorien-Balance-Ziel, übertrifft andere Methoden in Benchmarks für mathematisches Denken und Codegenerierung.

Diffusion Models language models reinforcement learning machine learning

RESEARCHarXiv CS.LG·vor 25T

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Diese Forschung befasst sich mit Herausforderungen bei der robusten Vorhersage molekularer Eigenschaften unter extremen Out-of-Distribution (OOD)-Szenarien, die für die KI-gesteuerte Arzneimittelentdeckung entscheidend sind. Sie schlägt SCOPE-BENCH, einen neuen Benchmark für die OOD-Leistungsbewertung, und POMA, ein Framework für die Mehrquellenanpassung vor, um Einschränkungen bestehender Methoden zu überwinden.

Out-of-Distribution Molecular AI machine learning drug discovery

RESEARCHarXiv CS.AI·5/7/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Diese Arbeit untersucht die Skalierungseigenschaften des impliziten deduktiven Denkens über Horn-Klauseln in tiefen Transformers. Ausreichend tiefe Modelle mit bidirektionaler Präfixmaske erreichen die explizite CoT-Leistung, wobei CoT für die Tiefenextrapolation notwendig bleibt.

neural networks scaling deductive reasoning AI Research

RESEARCHarXiv CS.LG·5/7/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW ist ein neuer Optimierer, der einen Selbstaufmerksamkeitsmechanismus verwendet, um gruppenspezifische Lernraten und Gewichtsabnahme dynamisch anzupassen und die Begrenzung uniformer Hyperparameter zu überwinden. Das Aufmerksamkeitsmodul wird über ein Meta-Lernziel trainiert, das Gradientenausrichtung, Verlustreduzierung und Generalisierungsabstand kombiniert.

Meta-Learning deep learning learning AI Research

RESEARCHarXiv CS.AI·vor 28T

Spatial Priming Outperforms Semantic Prompting: A Grid-Based Approach to Improving LLM Accuracy on Chart Data Extraction

Diese Arbeit untersucht Strategien zur Verbesserung der Genauigkeit multimodaler LLMs bei der Datenextraktion aus wissenschaftlichen Diagrammen. Es zeigt, dass eine einfache gitterbasierte räumliche Priming-Methode semantische Prompting-Techniken deutlich übertrifft.

Data Extraction spatial priming chart analysis AI Research

RESEARCHarXiv CS.LG·vor 21T

Language Game: Talking to Non-Human Systems

Dieser Artikel untersucht die direkte Kommunikation mit nicht-menschlichen Systemen (wie Genregulationsnetzwerken oder Pilzen), die als Rechensubstrate anerkannt sind, und geht über LLMs als Stellvertreter hinaus. Er schlägt einen "Sprachspiel"-Ansatz mit Reinforcement Learning vor, um diesen Systemen zu ermöglichen, "in ihrer eigenen Stimme zu sprechen".

reinforcement learning AI communication large language models non-human systems

RESEARCHarXiv CS.CL·vor 7T

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

reinforcement learning Grammar Correction Natural Language Processing AI Research