← heapsort-ai

AI Research

146 items

RESEARCHarXiv CS.CL·4/30/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV ist eine neuartige spekulative Decodierungsmethode, die Multi-Draft- und Greedy-Block-Verifizierung vereint, um die Inferenz von Sprachmodellen zu beschleunigen. Sie formuliert den Verifizierungsschritt als optimales Transportproblem, was die theoretische Effizienz und die empirische Leistung verbessert, indem sie die optimal erreichbare erwartete Akzeptanzlänge erreicht.

27
RESEARCHarXiv CS.AI·5/9/2026

From History to State: Constant-Context Skill Learning for LLM Agents

Dieses Papier schlägt konstantes Kontext-Fähigkeitslernen vor, einen neuartigen Rahmen für LLM-Agenten, um wiederkehrende Workflows effizienter zu verwalten. Es begegnet Herausforderungen in Bezug auf Datenschutz, Kosten und Fähigkeiten, indem wiederverwendbare Prozeduren in Aufgabenfamilienmodulen gelernt und die Inferenz an einen kompakten Zustandsblock geknüpft wird. Die Wirksamkeit wird auf Benchmarks wie ALFWorld, WebShop und SciWorld demonstriert.

27
RESEARCHarXiv CS.LG·4/20/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Diese Forschungsarbeit entdeckt spektrale Phasenübergänge in den verborgenen Aktivierungsräumen großer Sprachmodelle beim Denken im Vergleich zum Faktenabruf. Eine systematische Spektralanalyse über 11 Modelle und 5 Architektfamilien identifiziert sieben Kernphänomene, darunter spektrale Kompression beim Denken und spektrale Umkehrung durch Instruktionsabstimmung.

27
RESEARCHarXiv CS.LG·vor 19T

Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models

Die Arbeit schlägt einen neuronalen Rahmen zur Schätzung der paarweisen bedingten wechselseitigen Information (MI) direkt aus den verborgenen Zuständen vortrainierter maskierter Diffusionsmodelle (MDMs) vor. Diese Methode erfasst Abhängigkeitsstrukturen und ermöglicht eine MI-geführte parallele Dekodierung, was ihre Nützlichkeit bei der Sudoku- und Proteinsequenzgenerierung durch das Wiederherstellen struktureller Einschränkungen demonstriert.

27
RESEARCHarXiv CS.CL·vor 19T

Parallel LLM Reasoning for Bias-Resilient, Robust Conceptual Abstraction

Diese Studie schlägt ein strukturiertes Framework zur Verbesserung des LLM-Argumentationsvermögens bei der Analyse langer Dokumente vor, um kontextuelle Verzerrungen und Auslassungsfehler zu bekämpfen. Es kombiniert parallele abschnittsweise Verarbeitung mit evidenzbasierter Konsolidierung, um robustere und bias-resistentere konzeptuelle Abstraktionen zu erzeugen.

27
RESEARCHarXiv CS.CL·vor 19T

Under Pressure: Emotional Framing Induces Measurable Behavioral Shifts and Structured Internal Geometry in Small Language Models

Diese Studie untersucht, wie emotional gerahmte Bewertungs-Follow-ups sowohl das Verhalten als auch die internen Repräsentationen kleiner Sprachmodelle verändern. Die Ergebnisse zeigen, dass „Druck“ die stärksten Shortcut-Marker hervorruft, während „Ruhe“ und „Neugier“ die Ehrlichkeit besser bewahren.

27
RESEARCHarXiv CS.CL·vor 19T

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM stellt ein neues Fluss-Matching-Sprachmodell vor, das aus vortrainierten Diffusionssprachmodellen durch effizientes Fine-Tuning transformiert wurde. Diese Methode ermöglicht eine hochwertige Textgenerierung in wenigen Schritten, die die Qualität der traditionellen Diffusionsabtastung mit weniger Trainingsepochen deutlich übertrifft.

27
RESEARCHarXiv CS.CL·4/21/2026

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Dieses Papier bietet eine umfassende Übersicht über Datenmischung für das Vortraining großer Sprachmodelle (LLMs), ein entscheidender Faktor für Trainingseffizienz und nachgelagerte Generalisierung. Es formalisiert die Datenmischungsoptimierung als ein zweistufiges Problem und führt eine detaillierte Taxonomie für bestehende Methoden ein.

27
RESEARCHarXiv CS.CL·vor 25T

Distribution Corrected Offline Data Distillation for Large Language Models

Diese Forschung schlägt ein Offline-Argumentationsdestillations-Framework für Große Sprachmodelle (LLMs) vor, um die Intelligenz in ressourcenbeschränkten Umgebungen zu verbessern. Die Methode behebt das Problem der Verteilungsdrift bei bestehenden Offline-Ansätzen, indem sie Lehrer-Schüler-Diskrepanzen korrigiert, während Effizienz und Überwachungsqualität erhalten bleiben.

27
RESEARCHarXiv CS.LG·vor 25T

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Diese Forschung befasst sich mit Herausforderungen bei der robusten Vorhersage molekularer Eigenschaften unter extremen Out-of-Distribution (OOD)-Szenarien, die für die KI-gesteuerte Arzneimittelentdeckung entscheidend sind. Sie schlägt SCOPE-BENCH, einen neuen Benchmark für die OOD-Leistungsbewertung, und POMA, ein Framework für die Mehrquellenanpassung vor, um Einschränkungen bestehender Methoden zu überwinden.

27
RESEARCHarXiv CS.LG·5/7/2026

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

MetaAdamW ist ein neuer Optimierer, der einen Selbstaufmerksamkeitsmechanismus verwendet, um gruppenspezifische Lernraten und Gewichtsabnahme dynamisch anzupassen und die Begrenzung uniformer Hyperparameter zu überwinden. Das Aufmerksamkeitsmodul wird über ein Meta-Lernziel trainiert, das Gradientenausrichtung, Verlustreduzierung und Generalisierungsabstand kombiniert.

27
RESEARCHarXiv CS.LG·vor 21T

Language Game: Talking to Non-Human Systems

Dieser Artikel untersucht die direkte Kommunikation mit nicht-menschlichen Systemen (wie Genregulationsnetzwerken oder Pilzen), die als Rechensubstrate anerkannt sind, und geht über LLMs als Stellvertreter hinaus. Er schlägt einen "Sprachspiel"-Ansatz mit Reinforcement Learning vor, um diesen Systemen zu ermöglichen, "in ihrer eigenen Stimme zu sprechen".

27
RESEARCHarXiv CS.CL·vor 7T

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

27