← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·5/4/2026

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

NorBERTo ist ein neues ModernBERT-Modell, das mit einem 331 Milliarden Token umfassenden brasilianischen Portugiesisch-Korpus (Aurora-PT) trainiert wurde und für Langkontextunterstützung und effiziente Aufmerksamkeitsmechanismen entwickelt wurde. Es erzielt die besten Ergebnisse unter den evaluierten Encoder-Modellen bei Aufgaben der semantischen Ähnlichkeit, textuellen Implikation und Klassifizierung unter Verwendung von Datensätzen wie ASSIN 2 und PLUE.

28
RESEARCHarXiv CS.AI·vor 29T

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Dieses Papier stellt SCALAR (Structured Critic--Actor Loop for AI Reasoning) vor, eine Actor--Critic--Judge-Pipeline, die auf theoretische Physikprobleme angewendet wird. Es untersucht, wie die Interaktion zwischen Forschern und KI-Agenten die Ergebnisse bei physikalischen Denkaufgaben beeinflusst und zeigt, dass mehrstufige Dialoge Einzelschussversuche erheblich verbessern.

28
RESEARCHarXiv CS.LG·4/23/2026

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

Diese Arbeit bewertet spekulatives Decoding mit EAGLE3 zur Optimierung des PayPal Commerce Agenten, der auf feinabgestimmten Nemotron-Modellen basiert. Die Studie zeigt signifikante Leistungsverbesserungen, darunter eine Steigerung des Durchsatzes um 22-49% und eine Latenzreduktion um 18-33% ohne zusätzliche Hardwarekosten.

28
RESEARCHarXiv CS.LG·4/23/2026

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

Diese Forschung stellt den Tool-Augmented Markov Decision Process (TA-MDP) vor, um multimodale agentische Entscheidungsfindung formal zu modellieren und theoretische Lücken beim Reinforcement Fine-Tuning für Large Vision-Language Models (LVLMs) zu schließen. Sie untersucht, wie zusammengesetzte verifizierbare Belohnungen die GRPO-Konvergenz beeinflussen und warum das Training auf kleinen Datensätzen auf Out-of-Distribution-Domänen für agentische LVLMs übertragbar ist.

28
RESEARCHarXiv CS.LG·4/23/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, ein 15 Milliarden Parameter großer Supernet, wurde veröffentlicht, der vier trainierte Mixer-Optionen pro Decoder-Schicht bietet, um mehrere Geschwindigkeits-/Qualitätseinstellungen aus einem einzigen Checkpoint zu ermöglichen. Dies führt zu einem 2.9x bis 10.7x höheren Decodierungsdurchsatz bei einer Qualitätserhaltung von 96% bis 77% und ermöglicht auch die spekulative Decodierung ohne ein separates Entwurfsmodell.

28
RESEARCHarXiv CS.CL·vor 12T

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

FLUID ist ein neues Framework, das autoregressive (AR) Backbones effizient an das Diffusionsparadigma zur parallelen Textgenerierung anpasst. Es ermöglicht die Initialisierung von GPT-Modellen und führt einen dynamischen Entrauschungsmechanismus ein, wodurch Spitzenleistungen bei erheblich reduzierten Trainingskosten erzielt werden.

28
NEWSDEV.to AI·4/17/2026

GPT‑Rosalind for life sciences research

GPT-Rosalind, ein neues OpenAI-Tool, basierend auf GPT-4 und auf wissenschaftliche Daten feinabgestimmt, wurde eingeführt, um die Forschung in den Biowissenschaften zu beschleunigen. Es begegnet dem Datenengpass durch die Optimierung von Hypothesengenerierung, Literaturanalyse und experimentellem Design, mit dem Potenzial, die Kosten und Zeitpläne der Arzneimittelentwicklung zu reduzieren.

28
RESEARCHarXiv CS.CL·4/16/2026

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Dental-TriageBench stellt den ersten experten-annotierten Benchmark für multimodales Reasoning in der hierarchischen zahnmedizinischen Triage vor, bestehend aus 246 authentischen, anonymisierten Fällen. Die Studie zeigt eine erhebliche Leistungslücke zwischen 19 MLLMs und Nachwuchszahnärzten auf, insbesondere bei Triage-Aufgaben auf Behandlungsebene, die mehrere Überweisungsbereiche erfordern.

28
RESEARCHarXiv CS.AI·5/1/2026

End-to-end autonomous scientific discovery on a real optical platform

Der Text stellt die Qiushi Discovery Engine vor, ein LLM-basiertes Agentensystem für autonome wissenschaftliche Entdeckungen auf einer realen optischen Plattform. Es demonstriert eine End-to-End-Entdeckung durch die Kombination nichtlinearer Forschungsphasen, Meta-Trace-Speicher und einer Dual-Layer-Architektur, wodurch ein veröffentlichter Versuch erfolgreich reproduziert wird.

28
RESEARCHarXiv CS.CL·vor 22T

Greedy or not, here I come: Language production under vocabulary constraints in humans and resource-rational models

Diese Forschung untersucht, wie Menschen mit begrenztem Wortschatz kommunizieren, und vergleicht ihre Strategien mit computationalen Stichprobenalgorithmen, die von großen Sprachmodellen angetrieben werden. Die Studie zeigt, dass die menschliche Sprachproduktion unter Einschränkungen oft dem Greedy-Sampling ähnelt, obwohl erfahrenere Personen nicht-greedy Revisionsverhalten zeigen.

28
RESEARCHarXiv CS.CL·vor 22T

Fluency and Faithfulness in Human and Machine Literary Translation

Diese Studie untersucht das Gleichgewicht zwischen Flüssigkeit und Treue in der literarischen Übersetzung, indem sie menschliche Übersetzungen, Google Translate und TranslateGemma von 106 Romanen in 16 Sprachen vergleicht. Sie zeigt eine konsistente negative Korrelation zwischen Flüssigkeit und Treue, die bei menschlichen und Google Translate Übersetzungen stärker ist, und betont, dass die Segmentlänge für die automatische Bewertung wichtig ist.

28
RESEARCHarXiv CS.CL·vor 5T

When Retrieval Doesn't Help: A Large-Scale Study of Biomedical RAG

Eine groß angelegte Studie evaluiert die Retrieval-Augmented Generation (RAG) im Bereich der medizinischen Fragenbeantwortung neu und findet nur geringe und inkonsistente Verbesserungen gegenüber Baselines ohne Retrieval. Sie deutet darauf hin, dass die Wahl des Backbone-Modells entscheidender ist als die Retrieval-Methoden und der Hauptengpass in der Fähigkeit des Modells liegt, abgerufene Evidenz effektiv zu nutzen.

28
RESEARCHarXiv CS.AI·vor 5T

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

Dieser Kommentar stellt PEEL vor, ein Arbeitsgerüst, das deterministisches Distant Reading mit LLM-Interpretation kombiniert, basierend auf Peirce'scher Semiotik und abduktivem Denken. Angewendet auf KI-generierte Zusammenfassungen, enthüllt PEEL systematische Verzerrungen, die ohne nicht-KI-Messung unsichtbar wären, was darauf hindeutet, dass deterministische Instrumente KI-Tools begleiten müssen, um Genauigkeit und epistemische Autorität zu gewährleisten.

28