← heapsort-ai

LLMs

723 items

RESEARCHarXiv CS.LG·4/13/2026

Distributionally Robust Token Optimization in RLHF

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

27
RESEARCHarXiv CS.CL·4/14/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Diese Forschung führt die „100-Endings-Metrik“ ein, um das Versagen von LLMs beim Generieren fesselnder Geschichten und beim Erkennen ihrer eigenen Qualitätsprobleme zu adressieren. Die Metrik misst die narrative Spannung durch satzweise Vorhersage von Story-Enden und erweist sich als effektiver als aktuelle Rubriken bei der Unterscheidung hochwertiger menschlicher Erzählungen von KI-Outputs.

27
RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

27
RESEARCHarXiv CS.CL·5/1/2026

Semantic Structure of Feature Space in Large Language Models

Diese Studie zeigt, dass die geometrischen Beziehungen zwischen semantischen Merkmalen in den verborgenen Zuständen großer Sprachmodelle menschliche psychologische Assoziationen widerspiegeln. Es wird demonstriert, dass Wortvektorprojektionen auf semantische Achsen mit menschlichen Bewertungen korrelieren und die Ähnlichkeit zwischen diesen Achsen die Zusammenhänge von semantischen Skalen vorhersagt.

27
RESEARCHarXiv CS.AI·5/9/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Dieses Papier stellt BALAR (Bayesian Agentic Loop for Active Reasoning) vor, einen aufgabenunabhängigen Outer-Loop-Algorithmus, der eine strukturierte Interaktion über mehrere Runden zwischen einem LLM-Agenten und einem Benutzer ermöglicht. BALAR pflegt eine strukturierte Überzeugung über latente Zustände, wählt klärende Fragen durch Maximierung der erwarteten gegenseitigen Information und übertrifft Baselines in verschiedenen Reasoning-Benchmarks signifikant.

27
RESEARCHarXiv CS.CL·4/9/2026

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

27
RESEARCHarXiv CS.AI·4/25/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Dieses Papier stellt ein neues Framework zur Bewertung regelbasierter KI vor, insbesondere in der Inhaltsmoderation, das über einfache Übereinstimmungsmetriken hinausgeht. Es schlägt den Defensibility Index (DI), Ambiguity Index (AI) und Probabilistic Defensibility Signal (PDS) vor, um die politikbasierte Korrektheit und die Stabilität des Denkens zu bewerten, indem LLM-Begründungsspuren zur Überprüfung der logischen Ableitbarkeit aus Regeln genutzt werden.

27
RESEARCHarXiv CS.LG·4/14/2026

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Diese Arbeit bietet eine vergleichende theoretische Analyse von Entropie-Kontrollstrategien im Reinforcement Learning, die traditionelle Regularisierung mit einem neuartigen kovarianzbasierten Mechanismus für das LLM-Training vergleicht. Sie zeigt, dass kovarianzbasierte Methoden durch selektive Regularisierung hochkovarianter Tokens asymptotische Unvoreingenommenheit erreichen, im Gegensatz zu traditionellen Methoden, die eine persistente Verzerrung einführen.

27
RESEARCHarXiv CS.CL·4/9/2026

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

27
RESEARCHarXiv CS.CL·4/30/2026

LLMs Generate Kitsch

Dieser Artikel legt nahe, dass Large Language Models (LLMs) aufgrund ihrer Trainingsmethode systematisch Kitsch generieren. Empirisch zeigt die Studie, dass Leser von LLM generierte Geschichten als kitschiger empfinden, was Auswirkungen auf zukünftige Studiendesigns und kreative Aufgaben hat.

27
RESEARCHarXiv CS.LG·4/9/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27
RESEARCHarXiv CS.LG·5/1/2026

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Diese Forschung schlägt den Einsatz von LLMs (DeepSeek-R1, OpenBioLLM-Llama3, Qwen 3.5) zur Augmentierung synthetischer Daten im Bereich psychische Gesundheit vor, um Datenknappheit und Datenschutzbestimmungen zu begegnen. Es wird ein umfassendes Bewertungsrahmenwerk eingeführt, das semantische Treue, lexikalische Diversität und Datenschutz/Plagiat bewertet, um Risiken wie Modus-Kollaps oder Memorisation zu mindern.

27
RESEARCHarXiv CS.CL·4/30/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.

27
RESEARCHarXiv CS.CL·5/1/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Dieses Papier stellt einen ILR-informierten Bewertungsrahmen vor, um die sprachübergreifende Antwortkonsistenz von Claude (Sonnet 4.6) in sechs Sprachen zu evaluieren. Die quantitative und qualitative Analyse zeigt sprachspezifische Variationen auf, wie z.B. Unterschiede in der Antwortlänge und oberflächliche Divergenzen in kreativen Clustern.

27
RESEARCHarXiv CS.CL·4/30/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Diese Forschung untersucht den Einsatz leichter Large Language Models (LLMs) für die biomedizinische Named Entity Recognition und zeigt deren wettbewerbsfähige Leistung im Vergleich zu größeren Modellen. Die Studie hebt ihr Potenzial als ressourcenschonende Alternativen hervor und identifiziert spezifische Ausgabeformate, die die Leistung konsistent verbessern.

27
RESEARCHarXiv CS.CL·4/16/2026

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Diese Arbeit argumentiert, dass der primäre Engpass beim multimodalen Skalieren von MLLMs die Wissensdichte in den Trainingsdaten und nicht das Aufgabenformat ist. Es demonstriert, dass aufgabenspezifische Supervision wie VQA kaum inkrementelle semantische Informationen über Bildunterschriften hinaus liefert und dass eine Erhöhung der Wissensdichte zu konsistenten Leistungsverbesserungen führt.

27