LLMs

723 items

RESEARCHarXiv CS.LG·4/13/2026

Distributionally Robust Token Optimization in RLHF

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.LG·4/13/2026

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

QuanBench+ ist ein neuer vereinheitlichter Multi-Framework-Benchmark zur Bewertung von Large Language Models (LLMs) bei der Generierung von Quantencode, der Qiskit, PennyLane und Cirq abdeckt. Er bewertet Modelle über 42 Aufgaben hinweg und zeigt signifikante Verbesserungen durch feedbackbasierte Reparatur auf.

LLMs PennyLane Quantum Code Generation benchmarking

RESEARCHarXiv CS.CL·4/14/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Diese Forschung führt die „100-Endings-Metrik“ ein, um das Versagen von LLMs beim Generieren fesselnder Geschichten und beim Erkennen ihrer eigenen Qualitätsprobleme zu adressieren. Die Metrik misst die narrative Spannung durch satzweise Vorhersage von Story-Enden und erweist sich als effektiver als aktuelle Rubriken bei der Unterscheidung hochwertiger menschlicher Erzählungen von KI-Outputs.

LLMs storytelling Evaluation Metrics Narrative Tension

RESEARCHarXiv CS.CL·4/10/2026

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma

O conteúdo descreve o DFR-Gemma, um novo framework que permite que LLMs raciocinem diretamente sobre embeddings geoespaciais densos. Ele alinha embeddings de alta dimensão com o espaço latente de um LLM através de um projetor leve, injetando-os como tokens semânticos.

Geospatial AI LLMs Geospatial Embeddings Spatio-temporal Data

RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

Ambiguity LLMs evaluation reliability

RESEARCHarXiv CS.CL·5/1/2026

Semantic Structure of Feature Space in Large Language Models

Diese Studie zeigt, dass die geometrischen Beziehungen zwischen semantischen Merkmalen in den verborgenen Zuständen großer Sprachmodelle menschliche psychologische Assoziationen widerspiegeln. Es wird demonstriert, dass Wortvektorprojektionen auf semantische Achsen mit menschlichen Bewertungen korrelieren und die Ähnlichkeit zwischen diesen Achsen die Zusammenhänge von semantischen Skalen vorhersagt.

LLMs cognitive science semantic representation NLP

RESEARCHarXiv CS.AI·5/9/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Dieses Papier stellt BALAR (Bayesian Agentic Loop for Active Reasoning) vor, einen aufgabenunabhängigen Outer-Loop-Algorithmus, der eine strukturierte Interaktion über mehrere Runden zwischen einem LLM-Agenten und einem Benutzer ermöglicht. BALAR pflegt eine strukturierte Überzeugung über latente Zustände, wählt klärende Fragen durch Maximierung der erwarteten gegenseitigen Information und übertrifft Baselines in verschiedenen Reasoning-Benchmarks signifikant.

LLMs interactive AI Reasoning Bayesian models

RESEARCHarXiv CS.CL·4/9/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

Distributional Information Reading Comprehension LLMs benchmarking

RESEARCHarXiv CS.AI·4/25/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Dieses Papier stellt ein neues Framework zur Bewertung regelbasierter KI vor, insbesondere in der Inhaltsmoderation, das über einfache Übereinstimmungsmetriken hinausgeht. Es schlägt den Defensibility Index (DI), Ambiguity Index (AI) und Probabilistic Defensibility Signal (PDS) vor, um die politikbasierte Korrektheit und die Stabilität des Denkens zu bewerten, indem LLM-Begründungsspuren zur Überprüfung der logischen Ableitbarkeit aus Regeln genutzt werden.

LLMs content moderation AI ethics AI evaluation

RESEARCHarXiv CS.LG·4/14/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.

Entropy Control Policy Entropy LLMs reinforcement learning

RESEARCHarXiv CS.CL·4/9/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMs Turkic languages cross-lingual transfer Parameter-efficient adaptation

RESEARCHarXiv CS.CL·4/30/2026

LLMs Generate Kitsch

Dieser Artikel legt nahe, dass Large Language Models (LLMs) aufgrund ihrer Trainingsmethode systematisch Kitsch generieren. Empirisch zeigt die Studie, dass Leser von LLM generierte Geschichten als kitschiger empfinden, was Auswirkungen auf zukünftige Studiendesigns und kreative Aufgaben hat.

LLMs Content Generation AI creativity

RESEARCHarXiv CS.AI·4/27/2026

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

Dieser Inhalt stellt ein neues Konzept, die 'Hintergrundtemperatur', vor, um die verborgene Zufälligkeit in Großen Sprachmodellen zu charakterisieren.

LLMs machine learning randomness large language models

RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics

RESEARCHarXiv CS.LG·5/1/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Diese Forschung schlägt den Einsatz von LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) zur Augmentierung synthetischer Daten im Bereich psychische Gesundheit vor, um Datenknappheit und Datenschutzbestimmungen zu begegnen. Es wird ein umfassendes Bewertungsrahmenwerk eingeführt, das semantische Treue, lexikalische Diversität und Datenschutz/Plagiat bewertet, um Risiken wie Modus-Kollaps oder Memorisation zu mindern.

synthetic data LLMs security Data Augmentation

RESEARCHarXiv CS.CL·4/30/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.

Dataset mathematical reasoning LLMs benchmarking

RESEARCHarXiv CS.CL·5/1/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Dieses Papier stellt einen ILR-informierten Bewertungsrahmen vor, um die sprachübergreifende Antwortkonsistenz von Claude (Sonnet 4.6) in sechs Sprachen zu evaluieren. Die quantitative und qualitative Analyse zeigt sprachspezifische Variationen auf, wie z.B. Unterschiede in der Antwortlänge und oberflächliche Divergenzen in kreativen Clustern.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.CL·4/30/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Diese Forschung untersucht den Einsatz leichter Large Language Models (LLMs) für die biomedizinische Named Entity Recognition und zeigt deren wettbewerbsfähige Leistung im Vergleich zu größeren Modellen. Die Studie hebt ihr Potenzial als ressourcenschonende Alternativen hervor und identifiziert spezifische Ausgabeformate, die die Leistung konsistent verbessern.

LLMs named entity recognition Model Evaluation NLP

RESEARCHarXiv CS.LG·5/1/2026

Automatic Causal Fairness Analysis with LLM-Generated Reporting

Der Softwareprototyp `FairMind` automatisiert die kausale Fairnessanalyse auf Datensatzebene und adressiert die mangelnde Fairnessberücksichtigung in den meisten AutoML-Frameworks. Er nutzt das Standard-Fairnessmodell und LLMs, um genaue Berichte über Fairness basierend auf kontrafaktischen kausalen Effekten zu erstellen.

LLMs causal AI AI ethics fairness

RESEARCHarXiv CS.CL·4/16/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Diese Arbeit argumentiert, dass der primäre Engpass beim multimodalen Skalieren von MLLMs die Wissensdichte in den Trainingsdaten und nicht das Aufgabenformat ist. Es demonstriert, dass aufgabenspezifische Supervision wie VQA kaum inkrementelle semantische Informationen über Bildunterschriften hinaus liefert und dass eine Erhöhung der Wissensdichte zu konsistenten Leistungsverbesserungen führt.

multimodal AI LLMs machine learning Research Paper