← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.AI·vor 23T

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL schlägt ein neuartiges Framework vor, um große Sprachmodellagenten zu trainieren, Selbstkritik zu internalisieren und Feedback in unassistierte Problemlösungsfähigkeiten umzuwandeln. Es trainiert gemeinsam einen Solver und einen Kritiker aus einem gemeinsamen Backbone und belohnt den Kritiker für umsetzbares Feedback, um iterative Selbstverbesserung zu fördern.

27
RESEARCHarXiv CS.LG·vor 27T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

27
RESEARCHarXiv CS.CL·vor 27T

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner ist ein neuartiges Framework, das große Reasoning-Modelle (LRMs) nutzt, um die Zeitstrahl-Zusammenfassung zu verbessern und passive Ansätze von großen Sprachmodellen (LLMs) zu überwinden. Es verwendet einen aktiven, auf Reasoning basierenden zweistufigen Prozess – Globale Kognition und Detail-Exploration – um strukturierte Zeitstrahlen aus unstrukturierten Online-Nachrichten aktiv zu extrahieren und zu verfeinern.

27
RESEARCHarXiv CS.CL·vor 28T

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Diese Arbeit zerlegt ein evolutionäres Mixture-of-LoRA-System und untersucht Faktoren wie die Neuschreibung des Routers, die domänenweise Bewertung und einen Adaptationslebenszyklus. Die Ergebnisse zeigen, dass die Neuschreibung des Routers allein für die beobachtete Verbesserung des ausgewogenen Log-PPL verantwortlich ist.

27
RESEARCHarXiv CS.LG·vor 28T

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Diffusions-Sprachmodelle (dLLMs) stoßen aufgrund übermäßig konservativer Konfidenzschwellen, die ihr Potenzial für hochparallele Verarbeitung einschränken, an Skalierbarkeitsgrenzen im Parallelismus. Dieses Papier stellt LEAP vor, eine trainingsfreie Plug-and-Play-Methode, die den dLLM-Parallelismus durch Erkennung früh konvergierender Token verbessert und somit die Dekodierung beschleunigt.

27
RESEARCHarXiv CS.AI·vor 28T

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Dieses Forschungspapier schlägt einen spezialisierten LLMOps-Stack für Betrugserkennung und AML-Compliance vor, der deren spezifische Serving-Anforderungen im Vergleich zu generischen Chat-Workloads berücksichtigt. Der Stack integriert verschiedene fortschrittliche Techniken, um evidenzreiche, schemabezogene Prompts effizient zu verarbeiten und eine Compliance-gerechte Leistung mit selbst gehosteten Open-Weight-LLMs zu gewährleisten.

27
ARTICLEDEV.to AI·4/15/2026

GPT-6 just merged ChatGPT, Codex, and a browser into one agent.

OpenAIs neues GPT-6 vereint Chat, Codegenerierung und Web-Browsing in einem einzigen Agenten, basierend auf einem leistungsstarken Basismodell und einer zweistufigen Denkarchitektur. Dieses Modell verfügt über ein echtes und nutzbares 2M-Token-Kontextfenster, was seinen Nutzen für komplexe Aufgaben wie IoT-Telemetrie ohne umfangreiches Daten-Chunking erheblich verbessert.

27
RESEARCHarXiv CS.LG·vor 12T

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Dieses Papier stellt COM (Continuity and Ordinality Matter) vor, eine Strategie, die geometrische Einschränkungen in die Initialisierungs- und Trainingsphasen von tokenbasierten Zeitreihen-Sprachmodellen (TS-LLMs) integriert. Die Forschung zeigt, dass die Beibehaltung von Kontinuität und Ordinalität in den Zeitreihen-Token-Embeddings die Modellleistung und Generalisierbarkeit erheblich verbessert.

27
RESEARCHarXiv CS.CL·vor 15T

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Diese Studie entwickelt einen auf großen Sprachmodellen basierenden Rahmen, um Segmentoffenlegungen, einschließlich verschachtelter Informationen, direkt aus 10-K-Einreichungen zu extrahieren und zu bewahren. Zusätzlich wird ein Retrieval-Augmented-System entworfen, das die Vergleichbarkeit über mehrere Einreichungen hinweg unterstützt.

27
RESEARCHarXiv CS.CL·vor 15T

TriVAL: A Tri-Validation Framework for Faithful Automatic Optimization Modeling

TriVAL ist ein neuartiger Dreifach-Validierungsrahmen, der entwickelt wurde, um die Genauigkeit der automatischen Optimierungsmodellierung zu verbessern, indem er den Mangel an expliziter Validierung in bestehenden Methoden behebt. Er implementiert einen Konstruieren-Validieren-Revidieren-Zyklus über die Phasen der semantischen Spezifikation, mathematischen Formulierung und Codegenerierung, um Fehler zu mindern und die Gesamtgenauigkeit der Modellierung zu erhöhen.

27
RESEARCHarXiv CS.AI·vor 15T

Confidence Calibration in Large Language Models

Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.

27
RESEARCHarXiv CS.CL·vor 15T

Raon-Speech Technical Report

Raon-Speech ist ein leistungsstarkes Sprachmodell (SpeechLM) mit 9 Milliarden Parametern für das Verständnis, die Beantwortung und die Generierung von englischer und koreanischer Sprache, das bei 42 Benchmarks hervorragende Ergebnisse erzielt. Es verwandelt erfolgreich ein vortrainiertes LLM in ein SpeechLM, wobei starke Textfähigkeiten durch spezifische Trainingsphasen erhalten bleiben.

27
RESEARCHarXiv CS.AI·vor 7T

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI schlägt ein multimodales Framework vor, um strukturierte elektronische Patientenakten (EHR)-Darstellungen mit großen Sprachmodellen (LLMs) abzugleichen. Diese Integration ermöglicht klinisch fundiertes natürlichsprachliches Denken und genaue Patientenprädiktion, wodurch die Lücke zwischen prädiktiven EHR-Modellen und interpretierbarem LLM-Denken geschlossen wird.

27
RESEARCHarXiv CS.AI·vor 16T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

27
RESEARCHarXiv CS.CL·vor 9T

Configurable Reward Model for Balanced Safety Alignment

Dieses Papier stellt das Konfigurierbare Sicherheitsbelohnungsmodell (CSRM) vor, um die Herausforderung der Ausrichtung von LLMs an heterogene und sich schnell entwickelnde Sicherheitsanforderungen zu bewältigen. CSRM verbessert die Generalisierung auf zuvor ungesehene Sicherheitskonfigurationen erheblich, indem es für kalibrierte Sicherheitskonformität und Belohnungsmodellierung optimiert wird, und erzielt dabei eine hochmoderne Leistung auf Benchmarks.

27
RESEARCHarXiv CS.AI·vor 9T

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen ist eine neuro-symbolische Pipeline zur Generierung physikalisch korrekter Diagramme aus natürlicher Sprache, die bestehende Modelle bei der Einhaltung physikalischer Gesetze übertrifft. Sie nutzt ein großes Sprachmodell zur Szenengraphenextraktion und einen deterministischen Solver zur Erfüllung physikalischer und geometrischer Beschränkungen.

27
RESEARCHarXiv CS.CL·vor 9T

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Diese Forschungsarbeit untersucht die globale Narrativdominanz in Großen Sprachmodellen (LLMs), bei der lokales kulturelles Wissen oft von globalen Narrativen überschattet wird. Sie stellt den CulturalNB-Datensatz für bengalische Kulturkontexte vor und zeigt, dass in Englisch gestellte Fragen die globale Substitution und institutionelle Rahmung verstärken und die Abdeckung lokaler Perspektiven reduzieren.

27
RESEARCHarXiv CS.CL·vor 16T

Evaluating Large Language Models in a Complex Hidden Role Game

Diese Forschung quantifiziert das Täuschungspotenzial großer Sprachmodelle (LLMs) im sozialen Deduktionsspiel Secret Hitler und führt neue Metriken sowie ein Open-Source-Framework ein. Die Studie vergleicht LLMs mit regelbasierten Algorithmen und menschlichen Spielen, deckt eine Lücke zwischen Konversationsfähigkeit und strategischer Tiefe auf und zeigt, dass Denkverbesserungstechniken die Leistung für faschistische Rollen verschlechtern können.

27
RESEARCHarXiv CS.CL·vor 13T

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec stellt ein Framework für die Echtzeitentwicklung von Entwurfsmodellen in der spekulativen Dekodierung für große Sprachmodelle vor, das das Problem großer Vokabulargrößen angeht. Es verwendet dynamische Vokabular- und Parameteranpassung mittels eines kontextsensitiven Mechanismus und einer leichten Online-Abgleichstrategie zur Verbesserung der Akzeptanzraten und Minimierung von Verteilungsunterschieden.

27