large language models

262 items

RESEARCHarXiv CS.AI·vor 23T

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL schlägt ein neuartiges Framework vor, um große Sprachmodellagenten zu trainieren, Selbstkritik zu internalisieren und Feedback in unassistierte Problemlösungsfähigkeiten umzuwandeln. Es trainiert gemeinsam einen Solver und einen Kritiker aus einem gemeinsamen Backbone und belohnt den Kritiker für umsetzbares Feedback, um iterative Selbstverbesserung zu fördern.

reinforcement learning learning self-critique large language models

RESEARCHarXiv CS.LG·vor 27T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.CL·vor 27T

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

TimelineReasoner ist ein neuartiges Framework, das große Reasoning-Modelle (LRMs) nutzt, um die Zeitstrahl-Zusammenfassung zu verbessern und passive Ansätze von großen Sprachmodellen (LLMs) zu überwinden. Es verwendet einen aktiven, auf Reasoning basierenden zweistufigen Prozess – Globale Kognition und Detail-Exploration – um strukturierte Zeitstrahlen aus unstrukturierten Online-Nachrichten aktiv zu extrahieren und zu verfeinern.

timeline-summarization Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·vor 28T

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Diese Arbeit zerlegt ein evolutionäres Mixture-of-LoRA-System und untersucht Faktoren wie die Neuschreibung des Routers, die domänenweise Bewertung und einen Adaptationslebenszyklus. Die Ergebnisse zeigen, dass die Neuschreibung des Routers allein für die beobachtete Verbesserung des ausgewogenen Log-PPL verantwortlich ist.

neural networks machine learning large language models LoRA

RESEARCHarXiv CS.LG·vor 28T

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Diffusions-Sprachmodelle (dLLMs) stoßen aufgrund übermäßig konservativer Konfidenzschwellen, die ihr Potenzial für hochparallele Verarbeitung einschränken, an Skalierbarkeitsgrenzen im Parallelismus. Dieses Papier stellt LEAP vor, eine trainingsfreie Plug-and-Play-Methode, die den dLLM-Parallelismus durch Erkennung früh konvergierender Token verbessert und somit die Dekodierung beschleunigt.

Diffusion Models Parallel Computing AI large language models

RESEARCHarXiv CS.AI·vor 28T

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Dieses Forschungspapier schlägt einen spezialisierten LLMOps-Stack für Betrugserkennung und AML-Compliance vor, der deren spezifische Serving-Anforderungen im Vergleich zu generischen Chat-Workloads berücksichtigt. Der Stack integriert verschiedene fortschrittliche Techniken, um evidenzreiche, schemabezogene Prompts effizient zu verarbeiten und eine Compliance-gerechte Leistung mit selbst gehosteten Open-Weight-LLMs zu gewährleisten.

LLMOps security AML Compliance fraud detection

ARTICLEDEV.to AI·4/15/2026

GPT-6 just merged ChatGPT, Codex, and a browser into one agent.

OpenAIs neues GPT-6 vereint Chat, Codegenerierung und Web-Browsing in einem einzigen Agenten, basierend auf einem leistungsstarken Basismodell und einer zweistufigen Denkarchitektur. Dieses Modell verfügt über ein echtes und nutzbares 2M-Token-Kontextfenster, was seinen Nutzen für komplexe Aufgaben wie IoT-Telemetrie ohne umfangreiches Daten-Chunking erheblich verbessert.

OpenAI GPT-6 Context window large language models

RESEARCHarXiv CS.CL·vor 19T

Probabilistic Attribution For Large Language Models

Diese Arbeit nutzt die bedingten Wahrscheinlichkeiten von LLMs, um sie in die mathematische Theorie der stochastischen Prozesse einzuordnen. Es wird ein modellunabhängiges probabilistisches Token-Attributionsmaß vorgestellt, das die Bayes-Regel verwendet, um die interne Darstellung der Verteilung über Token-Sequenzen des Modells zu erfassen.

AI Theory Token Attribution Probabilistic Attribution Stochastic Processes

RESEARCHarXiv CS.LG·vor 12T

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Dieses Papier stellt COM (Continuity and Ordinality Matter) vor, eine Strategie, die geometrische Einschränkungen in die Initialisierungs- und Trainingsphasen von tokenbasierten Zeitreihen-Sprachmodellen (TS-LLMs) integriert. Die Forschung zeigt, dass die Beibehaltung von Kontinuität und Ordinalität in den Zeitreihen-Token-Embeddings die Modellleistung und Generalisierbarkeit erheblich verbessert.

machine learning Tokenization large language models Time Series Analysis

RESEARCHarXiv CS.CL·vor 15T

Improving the Completeness and Comparability of Segment Disclosures: A Large Language Model Approach

Diese Studie entwickelt einen auf großen Sprachmodellen basierenden Rahmen, um Segmentoffenlegungen, einschließlich verschachtelter Informationen, direkt aus 10-K-Einreichungen zu extrahieren und zu bewahren. Zusätzlich wird ein Retrieval-Augmented-System entworfen, das die Vergleichbarkeit über mehrere Einreichungen hinweg unterstützt.

Financial Reporting Segment Disclosures Form 10-K Data Extraction

RESEARCHarXiv CS.CL·vor 15T

TriVAL: A Tri-Validation Framework for Faithful Automatic Optimization Modeling

TriVAL ist ein neuartiger Dreifach-Validierungsrahmen, der entwickelt wurde, um die Genauigkeit der automatischen Optimierungsmodellierung zu verbessern, indem er den Mangel an expliziter Validierung in bestehenden Methoden behebt. Er implementiert einen Konstruieren-Validieren-Revidieren-Zyklus über die Phasen der semantischen Spezifikation, mathematischen Formulierung und Codegenerierung, um Fehler zu mindern und die Gesamtgenauigkeit der Modellierung zu erhöhen.

AI accuracy validation framework optimization modeling operations research

RESEARCHarXiv CS.AI·vor 15T

Confidence Calibration in Large Language Models

Diese Studie untersucht die Konfidenzkalibrierung großer Sprachmodelle (LLMs) bei verschiedenen Aufgaben und zeigt, dass aktuelle LLMs bei schwierigen Tests überkonfident und bei einfachen Tests unterkonfident sind. Die Forscher entwickelten LifeEval, einen neuen Test zur Bewertung der Modellkalibrierung über verschiedene Schwierigkeitsgrade hinweg.

Confidence Calibration Overconfidence machine learning large language models

RESEARCHarXiv CS.CL·vor 15T

Raon-Speech Technical Report

Raon-Speech ist ein leistungsstarkes Sprachmodell (SpeechLM) mit 9 Milliarden Parametern für das Verständnis, die Beantwortung und die Generierung von englischer und koreanischer Sprache, das bei 42 Benchmarks hervorragende Ergebnisse erzielt. Es verwandelt erfolgreich ein vortrainiertes LLM in ein SpeechLM, wobei starke Textfähigkeiten durch spezifische Trainingsphasen erhalten bleiben.

multimodal AI Benchmarking Natural Language Processing large language models

RESEARCHarXiv CS.AI·vor 7T

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

ChatHealthAI schlägt ein multimodales Framework vor, um strukturierte elektronische Patientenakten (EHR)-Darstellungen mit großen Sprachmodellen (LLMs) abzugleichen. Diese Integration ermöglicht klinisch fundiertes natürlichsprachliches Denken und genaue Patientenprädiktion, wodurch die Lücke zwischen prädiktiven EHR-Modellen und interpretierbarem LLM-Denken geschlossen wird.

Clinical Reasoning multimodal AI Electronic Health Records large language models

RESEARCHarXiv CS.AI·vor 16T

PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning

Diese Forschungsarbeit stellt 'PathCal' vor, die die unterschiedlichen funktionalen Rollen und den Zeitpunkt von Reflexionsmarkern in den Chain-of-Thought-Trajektorien großer Reasoning Language Models untersucht. Es zeigt sich, dass Marker wie 'wait' oder 'but' erheblich in ihrem Einfluss auf Genauigkeit und Generierungslänge variieren, was frühere grobkörnige Ansätze in Frage stellt.

Natural Language Processing Chain-of-Thought Reasoning large language models

RESEARCHarXiv CS.CL·vor 9T

Configurable Reward Model for Balanced Safety Alignment

Dieses Papier stellt das Konfigurierbare Sicherheitsbelohnungsmodell (CSRM) vor, um die Herausforderung der Ausrichtung von LLMs an heterogene und sich schnell entwickelnde Sicherheitsanforderungen zu bewältigen. CSRM verbessert die Generalisierung auf zuvor ungesehene Sicherheitskonfigurationen erheblich, indem es für kalibrierte Sicherheitskonformität und Belohnungsmodellierung optimiert wird, und erzielt dabei eine hochmoderne Leistung auf Benchmarks.

Generalization machine learning large language models Reward Models

RESEARCHarXiv CS.AI·vor 9T

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

PhyDrawGen ist eine neuro-symbolische Pipeline zur Generierung physikalisch korrekter Diagramme aus natürlicher Sprache, die bestehende Modelle bei der Einhaltung physikalischer Gesetze übertrifft. Sie nutzt ein großes Sprachmodell zur Szenengraphenextraktion und einen deterministischen Solver zur Erfüllung physikalischer und geometrischer Beschränkungen.

Diagram Generation Physics AI large language models

RESEARCHarXiv CS.CL·vor 9T

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Diese Forschungsarbeit untersucht die globale Narrativdominanz in Großen Sprachmodellen (LLMs), bei der lokales kulturelles Wissen oft von globalen Narrativen überschattet wird. Sie stellt den CulturalNB-Datensatz für bengalische Kulturkontexte vor und zeigt, dass in Englisch gestellte Fragen die globale Substitution und institutionelle Rahmung verstärken und die Abdeckung lokaler Perspektiven reduzieren.

Dataset Cross-lingual Cultural Bias Natural Language Processing

RESEARCHarXiv CS.CL·vor 16T

Evaluating Large Language Models in a Complex Hidden Role Game

Diese Forschung quantifiziert das Täuschungspotenzial großer Sprachmodelle (LLMs) im sozialen Deduktionsspiel Secret Hitler und führt neue Metriken sowie ein Open-Source-Framework ein. Die Studie vergleicht LLMs mit regelbasierten Algorithmen und menschlichen Spielen, deckt eine Lücke zwischen Konversationsfähigkeit und strategischer Tiefe auf und zeigt, dass Denkverbesserungstechniken die Leistung für faschistische Rollen verschlechtern können.

Game AI Benchmarking deception large language models

RESEARCHarXiv CS.CL·vor 13T

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec stellt ein Framework für die Echtzeitentwicklung von Entwurfsmodellen in der spekulativen Dekodierung für große Sprachmodelle vor, das das Problem großer Vokabulargrößen angeht. Es verwendet dynamische Vokabular- und Parameteranpassung mittels eines kontextsensitiven Mechanismus und einer leichten Online-Abgleichstrategie zur Verbesserung der Akzeptanzraten und Minimierung von Verteilungsunterschieden.

Optimization machine learning large language models AI inference