large language models

262 items

RESEARCHarXiv CS.CL·5/4/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo ist ein neues ModernBERT-Modell, das mit einem 331 Milliarden Token umfassenden brasilianischen Portugiesisch-Korpus (Aurora-PT) trainiert wurde und für Langkontextunterstützung und effiziente Aufmerksamkeitsmechanismen entwickelt wurde. Es erzielt die besten Ergebnisse unter den evaluierten Encoder-Modellen bei Aufgaben der semantischen Ähnlichkeit, textuellen Implikation und Klassifizierung unter Verwendung von Datensätzen wie ASSIN 2 und PLUE.

AI models BERT Portuguese NLP

RESEARCHarXiv CS.AI·vor 29T

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Dieses Papier stellt SCALAR (Structured Critic--Actor Loop for AI Reasoning) vor, eine Actor--Critic--Judge-Pipeline, die auf theoretische Physikprobleme angewendet wird. Es untersucht, wie die Interaktion zwischen Forschern und KI-Agenten die Ergebnisse bei physikalischen Denkaufgaben beeinflusst und zeigt, dass mehrstufige Dialoge Einzelschussversuche erheblich verbessern.

theoretical physics AI Reasoning Agentic AI large language models

RESEARCHarXiv CS.LG·4/23/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Diese Arbeit bewertet spekulatives Decoding mit EAGLE3 zur Optimierung des PayPal Commerce Agenten, der auf feinabgestimmten Nemotron-Modellen basiert. Die Studie zeigt signifikante Leistungsverbesserungen, darunter eine Steigerung des Durchsatzes um 22-49% und eine Latenzreduktion um 18-33% ohne zusätzliche Hardwarekosten.

Performance benchmarking LLM optimization Inference acceleration large language models

RESEARCHarXiv CS.CL·4/23/2026

CoAuthorAI: A Human in the Loop System For Scientific Book Writing

CoAuthorAI ist ein Human-in-the-Loop-System für wissenschaftliches Buchschreiben, das LLM-Herausforderungen wie Inkonsistenz und unzuverlässige Zitate löst. Es kombiniert Retrieval-Augmented Generation, Experten-Gliederungen und automatische Referenzverknüpfung, was durch hohe Zufriedenheit und ein veröffentlichtes Buch belegt wird.

human-in-the-loop Content Generation AI tools Scientific Writing

RESEARCHarXiv CS.LG·4/23/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Diese Forschung stellt den Tool-Augmented Markov Decision Process (TA-MDP) vor, um multimodale agentische Entscheidungsfindung formal zu modellieren und theoretische Lücken beim Reinforcement Fine-Tuning für Large Vision-Language Models (LVLMs) zu schließen. Sie untersucht, wie zusammengesetzte verifizierbare Belohnungen die GRPO-Konvergenz beeinflussen und warum das Training auf kleinen Datensätzen auf Out-of-Distribution-Domänen für agentische LVLMs übertragbar ist.

Theoretical AI reinforcement learning vision models large language models

RESEARCHarXiv CS.LG·4/23/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, ein 15 Milliarden Parameter großer Supernet, wurde veröffentlicht, der vier trainierte Mixer-Optionen pro Decoder-Schicht bietet, um mehrere Geschwindigkeits-/Qualitätseinstellungen aus einem einzigen Checkpoint zu ermöglichen. Dies führt zu einem 2.9x bis 10.7x höheren Decodierungsdurchsatz bei einer Qualitätserhaltung von 96% bis 77% und ermöglicht auch die spekulative Decodierung ohne ein separates Entwurfsmodell.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHarXiv CS.CL·vor 25T

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Diese umfassende Replikationsstudie bewertet die Wirksamkeit von DExperts, einer Inferenzzeit-Minderungstechnik, zur Reduzierung der Toxizität in großen Sprachmodellen. Die Forschung ermittelt Basiswerte für Toxizität, implementiert DExperts zur Minderung expliziter Toxizität und testet die Methode gegen implizite Hassrede.

DExperts security Toxicity large language models

RESEARCHarXiv CS.CL·vor 19T

Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning

Große Sprachmodelle zeigen trotz Unterstützung umfangreicher Eingaben schlechte Leistungen bei komplexen Langkontext-Argumentationsaufgaben. ProxyCoT ist ein neuer Trainingsansatz, der Argumentationsfähigkeiten von kurzen Proxy-Kontexten auf vollständige lange Kontexte überträgt und starke Baselines übertrifft.

machine learning Natural Language Processing Reasoning large language models

RESEARCHarXiv CS.CL·vor 12T

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID ist ein neues Framework, das autoregressive (AR) Backbones effizient an das Diffusionsparadigma zur parallelen Textgenerierung anpasst. Es ermöglicht die Initialisierung von GPT-Modellen und führt einen dynamischen Entrauschungsmechanismus ein, wodurch Spitzenleistungen bei erheblich reduzierten Trainingskosten erzielt werden.

Diffusion Models text generation large language models Autoregressive Models

ARTICLEDEV.to AI·4/14/2026

Best Qwen Models in 2026 — Alibaba's Open-Source AI Powerhouse

Dieser Artikel hebt Alibabas Qwen-Modellfamilie als das größte und umfassendste Open-Source-KI-Angebot im Jahr 2026 hervor, insbesondere die Qwen3-Serie und das fortschrittliche Qwen3.5. Dabei wird die starke Leistung des Flaggschiffs Qwen3-235B-A22B im Wettbewerb mit Gemini 2.5 Pro betont und Alibabas umfassendere KI-Strategie diskutiert.

AI models Alibaba open-source AI large language models

NEWSDEV.to AI·4/17/2026

GPT‑Rosalind for life sciences research

GPT-Rosalind, ein neues OpenAI-Tool, basierend auf GPT-4 und auf wissenschaftliche Daten feinabgestimmt, wurde eingeführt, um die Forschung in den Biowissenschaften zu beschleunigen. Es begegnet dem Datenengpass durch die Optimierung von Hypothesengenerierung, Literaturanalyse und experimentellem Design, mit dem Potenzial, die Kosten und Zeitpläne der Arzneimittelentwicklung zu reduzieren.

Scientific Discovery Life Sciences AI large language models

RESEARCHarXiv CS.CL·4/16/2026

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Dental-TriageBench stellt den ersten experten-annotierten Benchmark für multimodales Reasoning in der hierarchischen zahnmedizinischen Triage vor, bestehend aus 246 authentischen, anonymisierten Fällen. Die Studie zeigt eine erhebliche Leistungslücke zwischen 19 MLLMs und Nachwuchszahnärzten auf, insbesondere bei Triage-Aufgaben auf Behandlungsebene, die mehrere Überweisungsbereiche erfordern.

multimodal AI Healthcare Benchmarking large language models

RESEARCHarXiv CS.AI·5/1/2026

End-to-end autonomous scientific discovery on a real optical platform

Der Text stellt die Qiushi Discovery Engine vor, ein LLM-basiertes Agentensystem für autonome wissenschaftliche Entdeckungen auf einer realen optischen Plattform. Es demonstriert eine End-to-End-Entdeckung durch die Kombination nichtlinearer Forschungsphasen, Meta-Trace-Speicher und einer Dual-Layer-Architektur, wodurch ein veröffentlichter Versuch erfolgreich reproduziert wird.

Autonomous systems Scientific Automation large language models robotics

RESEARCHarXiv CS.CL·vor 22T

Greedy or not, here I come: Language production under vocabulary constraints in humans and resource-rational models

Diese Forschung untersucht, wie Menschen mit begrenztem Wortschatz kommunizieren, und vergleicht ihre Strategien mit computationalen Stichprobenalgorithmen, die von großen Sprachmodellen angetrieben werden. Die Studie zeigt, dass die menschliche Sprachproduktion unter Einschränkungen oft dem Greedy-Sampling ähnelt, obwohl erfahrenere Personen nicht-greedy Revisionsverhalten zeigen.

cognitive science human behavior language production Natural Language Processing

RESEARCHarXiv CS.CL·vor 22T

Fluency and Faithfulness in Human and Machine Literary Translation

Diese Studie untersucht das Gleichgewicht zwischen Flüssigkeit und Treue in der literarischen Übersetzung, indem sie menschliche Übersetzungen, Google Translate und TranslateGemma von 106 Romanen in 16 Sprachen vergleicht. Sie zeigt eine konsistente negative Korrelation zwischen Flüssigkeit und Treue, die bei menschlichen und Google Translate Übersetzungen stärker ist, und betont, dass die Segmentlänge für die automatische Bewertung wichtig ist.

Literary Translation Translation Evaluation Natural Language Processing machine translation

RESEARCHarXiv CS.CL·vor 5T

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Eine groß angelegte Studie evaluiert die Retrieval-Augmented Generation (RAG) im Bereich der medizinischen Fragenbeantwortung neu und findet nur geringe und inkonsistente Verbesserungen gegenüber Baselines ohne Retrieval. Sie deutet darauf hin, dass die Wahl des Backbone-Modells entscheidender ist als die Retrieval-Methoden und der Hauptengpass in der Fähigkeit des Modells liegt, abgerufene Evidenz effektiv zu nutzen.

RAG Medical Question Answering Biomedical AI large language models

RESEARCHarXiv CS.LG·vor 5T

Unlocking Feature Learning in Gated Delta Networks at Scale

Dieses Papier leitet Skalierungsregeln für Gated Delta Networks ab, um das Training und die Skalierung von Large Language Models zu optimieren. Experimente bestätigen, dass die vorgeschlagenen Konfigurationen einen stabilen Lerntransfer über verschiedene Modellbreiten hinweg ermöglichen.

neural networks learning Hyperparameter Tuning machine learning

RESEARCHarXiv CS.AI·vor 5T

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Dieser Kommentar stellt PEEL vor, ein Arbeitsgerüst, das deterministisches Distant Reading mit LLM-Interpretation kombiniert, basierend auf Peirce'scher Semiotik und abduktivem Denken. Angewendet auf KI-generierte Zusammenfassungen, enthüllt PEEL systematische Verzerrungen, die ohne nicht-KI-Messung unsichtbar wären, was darauf hindeutet, dass deterministische Instrumente KI-Tools begleiten müssen, um Genauigkeit und epistemische Autorität zu gewährleisten.

Research methodology AI in research Epistemic accountability large language models

DOCDEV.to AI·vor 7T

The Developer's Guide to Slashing Your AI API Bill by 95%

Dieser Leitfaden zeigt Entwicklern, wie sie ihre KI-API-Kosten um bis zu 95 % senken können, indem sie günstigere Alternativen wie DeepSeek V4 Flash gegenüber GPT-4o bevorzugen. Er betont einen 40-fachen Preisunterschied bei ähnlicher Ausgabequalität, was Entwicklern hilft, Projektbudgets effektiv zu verwalten.

DeepSeek-V4-Flash AI API costs Cost Optimization developer guide

NEWSDEV.to AI·vor 20T

Google Sparks AI Race with Gemini 3.5 Flash’s Breakthrough Speed

Googles Gemini 3.5 Flash revolutioniert die KI-Geschwindigkeit und bietet sofortige, erstklassige Intelligenz für Codierungs- und mehrstufige Denkaufgaben. Dieses neue Modell setzt einen neuen Leistungsstandard, übertrifft frühere Versionen und fordert Konkurrenten heraus.

Google AI AI Speed Gemini large language models