language models

105 items

ARTICLEDEV.to AI·4/24/2026

Architecting Your AI Stack for Instant HS Codes and Customs Docs

Dieser Inhalt beschreibt einen mehrschichtigen KI-Workflow zur Automatisierung komplexer Zollunterlagen und der HS-Code-Generierung, wodurch manuelle Verwaltungsaufgaben entfallen und die Skalierbarkeit im internationalen Handel verbessert wird. Er nutzt fortschrittliche Sprachmodelle für die Datenextraktion und Workflow-Automatisierungsplattformen für die Dokumentengenerierung.

language models workflow automation customs clearance international trade

RESEARCHarXiv CS.CL·4/10/2026

CAMO: A Class-Aware Minority-Optimized Ensemble for Robust Language Model Evaluation on Imbalanced Data

CAMO é uma nova técnica de ensemble otimizada para dados desbalanceados, que impulsiona classes minoritárias e melhora o desempenho geral. Avaliada em benchmarks com diferentes modelos de linguagem, CAMO consistentemente atinge a maior pontuação F1 macro, estabelecendo um novo padrão.

language models ensemble methods F1-score class imbalance

RESEARCHarXiv CS.LG·5/5/2026

StyleShield: Exposing the Fragility of AIGC Detectors through Continuous Controllable Style Transfer

Der Artikel stellt StyleShield vor, ein neuartiges Flow-Matching-Framework für die bedingte Textstilübertragung, das die Anfälligkeit von KI-generierten Inhaltsdetektoren (AIGC) aufzeigt. Es arbeitet im kontinuierlichen Token-Einbettungsraum, um die statistische Grenze zwischen menschlichem und KI-Text zu verwischen und die Zuverlässigkeit aktueller Detektionsdienste in Frage zu stellen.

language models AI detection security style transfer

RESEARCHarXiv CS.CL·5/5/2026

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Diese Arbeit stellt H-Probes vor, lineare Sonden zur Extraktion hierarchischer Strukturen, insbesondere Tiefe und paarweiser Abstand, aus latenten Repräsentationen großer Sprachmodelle. Die Forschung zeigt, dass diese Sonden robust niederdimensionale Unterräume finden, die für die Leistung bei synthetischen Baumdurchlaufaufgaben entscheidend sind und gut innerhalb sowie außerhalb des Bereichs generalisieren.

language models hierarchical reasoning representation learning AI research

RESEARCHarXiv CS.LG·4/9/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

Diffusion Models search algorithms language models inference

RESEARCHarXiv CS.CL·4/13/2026

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Diese Forschung untersucht Exponential Moving Average (EMA)-Spuren als minimalen rekurrenten Kontext, um die Fähigkeiten und Grenzen der Akkumulation mit festen Koeffizienten in Sequenzmodellen abzugrenzen. Es zeigt sich, dass EMA-Spuren hervorragend die zeitliche Struktur kodieren und bei strukturellen Aufgaben mit fortgeschrittenen Modellen mithalten können, jedoch grundsätzlich die Token-Identität nicht erfassen, was zu einer deutlich reduzierten Leistung beim Sprachmodellieren führt.

language models Recurrent Context Temporal Structure sequence models

RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

language models model robustness fine-tuning Adversarial Training

RESEARCHarXiv CS.CL·5/1/2026

CL-bench Life: Can Language Models Learn from Real-Life Context?

CL-bench Life ist ein neuer, von Menschen kuratierter Benchmark, der bewerten soll, ob aktuelle Sprachmodelle effektiv aus komplexen, unübersichtlichen Alltagskontexten lernen können. Er umfasst 405 Kontext-Aufgaben-Paare, um die Fähigkeit der Modelle zu testen, über persönliche und soziale Erfahrungen zu argumentieren.

context-learning language models benchmarks

RESEARCHarXiv CS.CL·4/16/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU ist ein neuer, nativer koreanischer Benchmark zur Bewertung des multimodalen Verständnisses in koreanischen kulturellen und institutionellen Kontexten, der 3.466 Fragen aus nativen Prüfungen enthält. Die Studie zeigt, dass aktuelle KI-Modelle auf dem gesamten Datensatz nur 42,05 % Genauigkeit erreichen, mit erheblichen Fehlern bei kulturell und fachspezifisch relevanten Problemen.

language models multimodal AI evaluation benchmarking

RESEARCHarXiv CS.AI·4/27/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Dieses Papier stellt Math Takes Two vor, einen neuen Benchmark zur Bewertung des emergenten mathematischen Denkens in Sprachmodellen durch Kommunikation. Es testet, ob zwei Agenten ohne mathematisches Vorwissen ein geteiltes symbolisches Protokoll entwickeln können, um eine visuell verankerte Aufgabe zu lösen, bei der ein Zahlensystem die Extrapolation erleichtert.

language models mathematical reasoning AI communication benchmarks

RESEARCHarXiv CS.CL·4/8/2026

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Este artigo de pesquisa propõe uma nova abordagem para otimização de documentos, transformando-os para melhor alinhamento com sistemas de recuperação via Reinforcement Learning (GRPO), utilizando melhorias de ranking como recompensa. O método, aplicável a retrievers de caixa preta, demonstrou ganhos em tarefas de recuperação de código e documentos visuais.

language models Vision-Language Models reinforcement learning document optimization

RESEARCHarXiv CS.CL·5/8/2026

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

Diese Studie untersucht mehrstufige Umschreibungsangriffe auf Wasserzeichen von Diffusions-Sprachmodellen, die zur Überprüfung der KI-Textherkunft verwendet werden. Die Ergebnisse zeigen, dass wasserzeichenversehene Texte nach mehrfachem Umschreiben durch andere Sprachmodelle, selbst ohne Kenntnis des Wasserzeichenschlüssels, ihre Erkennung beeinträchtigen können.

Diffusion Models language models AI watermarking security

RESEARCHarXiv CS.CL·vor 20T

FlowLM: Few-Step Language Modeling via Diffusion-to-Flow Adaptation

FlowLM stellt ein neues Fluss-Matching-Sprachmodell vor, das aus vortrainierten Diffusionssprachmodellen durch effizientes Fine-Tuning transformiert wurde. Diese Methode ermöglicht eine hochwertige Textgenerierung in wenigen Schritten, die die Qualität der traditionellen Diffusionsabtastung mit weniger Trainingsepochen deutlich übertrifft.

Diffusion Models language models machine learning text generation

RESEARCHarXiv CS.LG·vor 26T

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Dieses Papier stellt TraFL vor, einen neuartigen Nach-Trainings-Ansatz für Diffusionssprachmodelle, der das "Trajektoriensperren" bei belohnungsmaximierenden Methoden adressiert. TraFL, ein Trajektorien-Balance-Ziel, übertrifft andere Methoden in Benchmarks für mathematisches Denken und Codegenerierung.

Diffusion Models language models reinforcement learning machine learning

RESEARCHarXiv CS.AI·5/7/2026

Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

Agent Island ist eine neue Multiagenten-Simulationsumgebung für Sprachmodelle, die als dynamischer Benchmark zur Minderung von Sättigung und Kontamination dient. Modelle wie openai/gpt-5.5 werden basierend auf ihrer Leistung in Spielen mit Kooperation, Konflikt und Überzeugung eingestuft.

language models benchmarking multiagent games AI

RESEARCHarXiv CS.AI·vor 8T

Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs

Grokers ist eine innovative Architektur zur persistenten, strukturierten Verständnisfindung von typisierten Wissensgraphen durch induktive Bottom-up-Traversal. Im Gegensatz zu RAG verlagert es die Intelligenz in die Schreibzeit, wo autonome Groker-Agenten Attribute über Sprachmodelle analysieren und anreichern, um alle zukünftigen Abfragen ohne zusätzliche Kosten zu bedienen.

language models AI architecture knowledge graphs Data Comprehension

RESEARCHarXiv CS.LG·vor 18T

Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation

Dieser Artikel untersucht das Training von Sprachmodellen zur Vorhersage des empirischen Erfolgs von Forschungsideen durch vergleichende Ideenbewertung. SFT verbessert die Leistung erheblich über GPT-5 hinaus, und RLVR kann Modelle trainieren, interpretierbare Denkpfade für diese Vorhersageaufgabe zu entdecken.

language models research evaluation machine learning AI forecasting

RESEARCHarXiv CS.AI·vor 29T

CoCoDA: Co-evolving Compositional DAG for Tool-Augmented Agents

CoCoDA schlägt ein Framework für Werkzeug-erweiterte Sprachmodelle vor, das einen ko-evolvierenden kompositionellen Code-DAG verwendet, um Werkzeuge effizient zu verwalten und abzurufen. Dieser Ansatz adressiert Herausforderungen bei der Skalierung von Werkzeugbibliotheken, indem er typisierte, kompositionelle Strukturen kodiert und Kandidaten durch symbolische Signaturvereinigung beschneidet.

language models Tool-Augmented Agents Compositional AI AI

RESEARCHarXiv CS.CL·vor 23T

Always Learning, Always Mixing: Efficient and Simple Data Mixing All The Time

Diese Forschung stellt OP-Mix vor, einen neuartigen Algorithmus zur effizienten Datenmischung über den gesamten Lebenszyklus des Sprachmodelltrainings. Er adressiert die Herausforderung der Kombination verschiedener Datenquellen für Vortraining, kontinuierliches Lernen und Anpassung und schlägt eine einheitliche Online-Entscheidungslösung vor.

language models learning data mixing machine learning

RESEARCHarXiv CS.AI·vor 27T

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

DisaBench stellt ein partizipatives Bewertungsrahmenwerk vor, um behinderungsbezogene Schäden in großen Sprachmodellen zu bewerten und die Unzulänglichkeit allgemeiner Sicherheits-Benchmarks zu adressieren. Es umfasst eine gemeinsam entwickelte Taxonomie von zwölf Schadenskategorien, eine Methodik, die gutartige und gegnerische Prompts paart, sowie einen Datensatz mit menschlich annotierten Labels, der subtile Schäden aufzeigt, die von Standardbewertungen oft übersehen werden.

language models benchmarking AI ethics disability harms