← heapsort-ai

language models

105 items

ARTICLEDEV.to AI·4/24/2026

Architecting Your AI Stack for Instant HS Codes and Customs Docs

Dieser Inhalt beschreibt einen mehrschichtigen KI-Workflow zur Automatisierung komplexer Zollunterlagen und der HS-Code-Generierung, wodurch manuelle Verwaltungsaufgaben entfallen und die Skalierbarkeit im internationalen Handel verbessert wird. Er nutzt fortschrittliche Sprachmodelle für die Datenextraktion und Workflow-Automatisierungsplattformen für die Dokumentengenerierung.

27
RESEARCHarXiv CS.LG·5/5/2026

StyleShield: Exposing the Fragility of AIGC Detectors through Continuous Controllable Style Transfer

Der Artikel stellt StyleShield vor, ein neuartiges Flow-Matching-Framework für die bedingte Textstilübertragung, das die Anfälligkeit von KI-generierten Inhaltsdetektoren (AIGC) aufzeigt. Es arbeitet im kontinuierlichen Token-Einbettungsraum, um die statistische Grenze zwischen menschlichem und KI-Text zu verwischen und die Zuverlässigkeit aktueller Detektionsdienste in Frage zu stellen.

27
RESEARCHarXiv CS.CL·5/5/2026

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Diese Arbeit stellt H-Probes vor, lineare Sonden zur Extraktion hierarchischer Strukturen, insbesondere Tiefe und paarweiser Abstand, aus latenten Repräsentationen großer Sprachmodelle. Die Forschung zeigt, dass diese Sonden robust niederdimensionale Unterräume finden, die für die Leistung bei synthetischen Baumdurchlaufaufgaben entscheidend sind und gut innerhalb sowie außerhalb des Bereichs generalisieren.

27
RESEARCHarXiv CS.LG·4/9/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

27
RESEARCHarXiv CS.CL·4/13/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Diese Forschung untersucht Exponential Moving Average (EMA)-Spuren als minimalen rekurrenten Kontext, um die Fähigkeiten und Grenzen der Akkumulation mit festen Koeffizienten in Sequenzmodellen abzugrenzen. Es zeigt sich, dass EMA-Spuren hervorragend die zeitliche Struktur kodieren und bei strukturellen Aufgaben mit fortgeschrittenen Modellen mithalten können, jedoch grundsätzlich die Token-Identität nicht erfassen, was zu einer deutlich reduzierten Leistung beim Sprachmodellieren führt.

27
RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

27
RESEARCHarXiv CS.CL·4/16/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU ist ein neuer, nativer koreanischer Benchmark zur Bewertung des multimodalen Verständnisses in koreanischen kulturellen und institutionellen Kontexten, der 3.466 Fragen aus nativen Prüfungen enthält. Die Studie zeigt, dass aktuelle KI-Modelle auf dem gesamten Datensatz nur 42,05 % Genauigkeit erreichen, mit erheblichen Fehlern bei kulturell und fachspezifisch relevanten Problemen.

27
RESEARCHarXiv CS.AI·4/27/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Dieses Papier stellt Math Takes Two vor, einen neuen Benchmark zur Bewertung des emergenten mathematischen Denkens in Sprachmodellen durch Kommunikation. Es testet, ob zwei Agenten ohne mathematisches Vorwissen ein geteiltes symbolisches Protokoll entwickeln können, um eine visuell verankerte Aufgabe zu lösen, bei der ein Zahlensystem die Extrapolation erleichtert.

27
RESEARCHarXiv CS.CL·4/8/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

27
RESEARCHarXiv CS.CL·5/8/2026

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

Diese Studie untersucht mehrstufige Umschreibungsangriffe auf Wasserzeichen von Diffusions-Sprachmodellen, die zur Überprüfung der KI-Textherkunft verwendet werden. Die Ergebnisse zeigen, dass wasserzeichenversehene Texte nach mehrfachem Umschreiben durch andere Sprachmodelle, selbst ohne Kenntnis des Wasserzeichenschlüssels, ihre Erkennung beeinträchtigen können.

27
RESEARCHarXiv CS.CL·vor 20T

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM stellt ein neues Fluss-Matching-Sprachmodell vor, das aus vortrainierten Diffusionssprachmodellen durch effizientes Fine-Tuning transformiert wurde. Diese Methode ermöglicht eine hochwertige Textgenerierung in wenigen Schritten, die die Qualität der traditionellen Diffusionsabtastung mit weniger Trainingsepochen deutlich übertrifft.

27
RESEARCHarXiv CS.AI·vor 8T

Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs

Grokers ist eine innovative Architektur zur persistenten, strukturierten Verständnisfindung von typisierten Wissensgraphen durch induktive Bottom-up-Traversal. Im Gegensatz zu RAG verlagert es die Intelligenz in die Schreibzeit, wo autonome Groker-Agenten Attribute über Sprachmodelle analysieren und anreichern, um alle zukünftigen Abfragen ohne zusätzliche Kosten zu bedienen.

27
RESEARCHarXiv CS.AI·vor 29T

CoCoDA: Co-evolving Compositional DAG for Tool-Augmented Agents

CoCoDA schlägt ein Framework für Werkzeug-erweiterte Sprachmodelle vor, das einen ko-evolvierenden kompositionellen Code-DAG verwendet, um Werkzeuge effizient zu verwalten und abzurufen. Dieser Ansatz adressiert Herausforderungen bei der Skalierung von Werkzeugbibliotheken, indem er typisierte, kompositionelle Strukturen kodiert und Kandidaten durch symbolische Signaturvereinigung beschneidet.

27
RESEARCHarXiv CS.CL·vor 23T

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Diese Forschung stellt OP-Mix vor, einen neuartigen Algorithmus zur effizienten Datenmischung über den gesamten Lebenszyklus des Sprachmodelltrainings. Er adressiert die Herausforderung der Kombination verschiedener Datenquellen für Vortraining, kontinuierliches Lernen und Anpassung und schlägt eine einheitliche Online-Entscheidungslösung vor.

27
RESEARCHarXiv CS.AI·vor 27T

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench stellt ein partizipatives Bewertungsrahmenwerk vor, um behinderungsbezogene Schäden in großen Sprachmodellen zu bewerten und die Unzulänglichkeit allgemeiner Sicherheits-Benchmarks zu adressieren. Es umfasst eine gemeinsam entwickelte Taxonomie von zwölf Schadenskategorien, eine Methodik, die gutartige und gegnerische Prompts paart, sowie einen Datensatz mit menschlich annotierten Labels, der subtile Schäden aufzeigt, die von Standardbewertungen oft übersehen werden.

27