large language models

262 items

RESEARCHarXiv CS.CL·4/8/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

Single GPU Training Memory Optimization GPU Acceleration large language models

RESEARCHDEV.to AI·vor 18T

Hugging Face: New Research Highlights Value of Specialized AI Models

Hugging Face veröffentlichte am 22. Mai 2026 eine Studie von Dharma AI, die zeigt, dass spezialisierte KI-Modelle größere, allgemeine Modelle bei bestimmten Aufgaben übertreffen können. Die Studie schlägt eine strategische Verschiebung in der KI-Beschaffung vor, die aufgabenspezifische Leistung und Effizienz betont.

specialized AI models Hugging Face AI procurement large language models

RESEARCHarXiv CS.LG·vor 20T

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.

reinforcement learning learning Scientific Reasoning large language models

RESEARCHarXiv CS.CL·vor 15T

Can AI Guess What You Know? Performance Comparison of Large Language Models for Human Domain Knowledge Estimation From Communication Logs

Diese Forschung untersucht die Fähigkeit großer Sprachmodelle (LLMs), individuelles Domänenwissen direkt aus langfristigen Slack-Kommunikationsprotokollen abzuleiten. Bei der Bewertung von sieben Modellen im Vergleich zu selbstberichteten Fähigkeitsbewertungen erzielte Gemini 2.5 Flash den geringsten Fehler, was die Machbarkeit und die aktuellen Grenzen der automatisierten Expertisenkartierung aufzeigt.

future-of-work expertise mapping domain knowledge organizational productivity

RESEARCHarXiv CS.CL·vor 5T

Computational conceptual history of scientific concepts: From early digital methods to LLMs

Dieser Artikel ordnet Large Language Models (LLMs) in die längere Geschichte computationaler Ansätze zur Konzeptanalyse in der Wissenschaftsgeschichte, -philosophie und -soziologie ein. Er untersucht, was LLMs zu bestehenden Methoden hinzufügen, welche Probleme sie erben, und rezensiert aktuelle Fallstudien.

computational conceptual history digital methods concept analysis history of science

RESEARCHarXiv CS.LG·4/23/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

„Expert Upcycling“ schlägt eine Methode zur schrittweisen Erweiterung der Mixture-of-Experts (MoE)-Kapazität in großen Sprachmodellen während des kontinuierlichen Vortrainings vor. Sie erhöht die Anzahl der Experten durch Duplizierung und Router-Erweiterung für eine warme Initialisierung, um Trainingskosten zu senken und die Inferenzkosten pro Token beizubehalten.

Model Architecture training-optimization large language models

ARTICLEDEV.to AI·4/10/2026

AI21 Labs — Deep Dive

AI21 Labs é uma empresa israelense de IA e produto, um player significativo no espaço de IA generativa, competindo com gigantes como OpenAI. A empresa escalou seus modelos de linguagem de 1.5 bilhões para até 398 bilhões de parâmetros, oferecendo produtos como o assistente de escrita Wordtune e o modelo de contexto longo Jamba.

NLP AI products large language models AI21 Labs

ARTICLEDEV.to AI·5/2/2026

From prompt engineering to context engineering

Der Artikel schlägt einen entscheidenden Wandel vom Prompt Engineering zum Context Engineering vor, da viele KI-Fehler eher auf fehlende relevante Informationen als auf schlechte Formulierungen zurückzuführen sind. Context Engineering bedeutet, der KI vor ihrer Aktion gezielt entscheidende Daten wie Systemanweisungen, Projektdokumentation und Quelldateien bereitzustellen.

prompt-engineering Context Engineering large language models AI development

ARTICLEDEV.to AI·4/22/2026

A Looming Crisis of AI Generated Text

Der Artikel diskutiert den Übergang von KI-Textassistenz zu -ersatz, angetrieben durch Modelle wie Mythos, und dessen tiefgreifende Auswirkungen auf Alphabetisierung und Bildung. Der Autor, der in maschinellem Lernen und Literatur tätig ist, lehnt die Aufgabe menschlichen Schreibens trotz der Effektivität der KI ab.

ethics education future-of-work large language models

ARTICLEDEV.to AI·vor 27T

VLAs are dead, long live World Action Models - a summary of Jim Fan's Robotics End Game talk

Jim Fan von Nvidias Robotikgruppe schlägt vor, dass die Robotik in ihre "Endphase" eintritt und denselben vierstufigen Verlauf wie große Sprachmodelle nehmen wird. Er behauptet, dass "die Robotik in ihr Endspiel eintritt und der Spielplan bereits von LLMs geschrieben wurde".

future-of-AI AI large language models robotics

RESEARCHarXiv CS.AI·4/14/2026

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

Dieses Papier stellt Vigil vor, ein neuartiges proaktives KI-Agentensystem, das entwickelt wurde, um menschliche Analysten bei Bereitschaftsdiensten in großen Cloud-Service-Plattformen zu unterstützen. Im Gegensatz zu reaktiven Agenten bleibt Vigil während des gesamten Lösungslebenszyklus aktiv, lernt aus ungelösten Fällen und bietet kontinuierliche Unterstützung, um die menschliche Arbeitsbelastung zu reduzieren.

On-Call Support proactive AI customer support large language models

RESEARCHarXiv CS.CL·4/14/2026

Generating High Quality Synthetic Data for Dutch Medical Conversations

Dieses Papier stellt eine Pipeline zur Generierung synthetischer niederländischer medizinischer Dialoge mittels eines feinabgestimmten großen Sprachmodells vor, um dem Mangel an klinischen Daten aufgrund von Datenschutzbeschränkungen zu begegnen. Evaluationen zeigten eine starke lexikalische Vielfalt, jedoch einen skriptgesteuerten Gesprächsfluss und Probleme bei der Domänenspezifität während der qualitativen Überprüfung.

synthetic data Clinical Communication Dutch Language Medical NLP

RESEARCHarXiv CS.AI·vor 4T

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Dieser Artikel analysiert Inter-Agenten-Kommunikationsstrategien in Multi-Agenten-Systemen, die auf großen Sprachmodellen basieren, und stellt fest, dass unbegrenzte natürliche Sprache den Token-Verbrauch erhöhen und die Leistung beeinträchtigen kann. Es wird PACT (Protocolized Action-state Communication and Transmission) vorgeschlagen, eine Methode zur Optimierung der Kommunikation durch die Projektion von Agentenausgaben in kompakte Aktionszustandsdatensätze.

Communication protocols efficiency Token usage multi-agent systems

NEWSDEV.to AI·4/18/2026

Large Language Letters 04/18/2026

Claude Opus 4.7 von Anthropic zeigte bedeutende Fortschritte in verschiedenen Benchmarks wie SWEBench Pro, GDP Val und den visuellen Fähigkeiten. Das Modell übertraf frühere Versionen und Konkurrenten in mehreren Metriken, obwohl unabhängige Beobachter einige Regressionen feststellten.

AI models Benchmarking Anthropic large language models

ARTICLEDEV.to AI·4/23/2026

how to run qwen3.6-27b locally — the dense 27B that beats the 35B MoE on coding

Alibaba hat Qwen3.6-27B veröffentlicht, ein dichtes Modell mit 27 Milliarden Parametern, das seine vorherige MoE-Version beim Codieren übertrifft. Dieser Inhalt beschreibt, wie das Modell lokal mit Ollama ausgeführt wird, einschließlich Befehlen für verschiedene Quantisierungen und Hardwareanforderungen.

Ollama Local AI model deployment large language models

RESEARCHarXiv CS.AI·4/7/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

AI alignment Avaliação de Modelos Filosofia da IA Ética em IA

RESEARCHarXiv CS.AI·4/7/2026

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

LLMs ChatGPT Instrumentation Control large language models

ARTICLEDEV.to AI·vor 21T

Mastering the Art of Conversation: Expert ChatGPT Tips and Tricks

Dieser Artikel bietet Expertentipps und Tricks zur Beherrschung von ChatGPT, dem revolutionären KI-Chatbot von OpenAI. Er behandelt das Verständnis seiner Fähigkeiten und Einschränkungen, um sein volles Potenzial in Gesprächen und verschiedenen Anwendungen freizuschalten.

learning ChatGPT NLP AI

ARTICLEDEV.to AI·vor 5T

MiniMax M3: An Open-Weight Frontier Model You Can Self-Host

Der MiniMax M3 wird als das erste offene Frontier-Modell vorgestellt, das fortschrittliches Codieren, ein 1M-Token-Kontextfenster und native Multimodalität vereint. Es führt die offene SWE-Bench Pro-Bestenliste an und ermöglicht Selbst-Hosting, wodurch API-Gebühren pro Token entfallen und Datenresidenz gewährleistet wird.

multimodal AI self-hosting Open-weight AI AI benchmarking

RESEARCHarXiv CS.AI·4/20/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Dieses Positionspapier argumentiert, dass das LLM-Schlussfolgern als latente Zustandsentwicklung und nicht als oberflächliche, getreue Gedankenketten (CoT) untersucht werden sollte. Es formalisiert drei konkurrierende Hypothesen über das primäre Objekt des Schlussfolgerns, was Auswirkungen auf Treue, Interpretierbarkeit und Benchmarks hat.

Chain-of-Thought interpretability AI Reasoning large language models