LLMs

720 items

RESEARCHarXiv CS.AI·vor 7T

Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems

Dieses Papier stellt GAMBLe vor, ein analytisches Framework für KI-gesteuerte Forschungssysteme (ADRS). Es zerlegt das ADRS-Verhalten in vier Parameter und eine effektive Landschaft, die zeigt, wie verschiedene Generator-Assessor-Paare strukturell unterschiedliche Optimierungslandschaften erzeugen.

LLMs research frameworks AI

RESEARCHarXiv CS.LG·vor 9T

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval ist ein neuer umfassender Datensatz, der entwickelt wurde, um Große Sprachmodelle (LLMs) für OpenQASM-3-Programme zu trainieren und zu evaluieren, die erweiterte hardwareorientierte Funktionen nutzen. Er schließt eine Lücke in der Fähigkeit von LLMs, die Programmierung von Quantencomputern jenseits der Gate-Sequenz-Schaltungsspezifikation zu handhaben.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·vor 15T

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab schlägt ein geschlossenes Kreislaufsystem für die wissenschaftliche Entdeckung vor, das über statische Schlussfolgerungen hinausgeht, indem es die Hypothesengenerierung aktiv mit der Experimentauswahl und Mechanismusverfeinerung koppelt. Es schlägt iterativ plausible Hypothesen vor, wählt informative Experimente zur Unterscheidung oder Verfeinerung aus und aktualisiert seinen Zustand anhand der resultierenden Beweise.

LLMs research active experimentation Scientific Discovery

RESEARCHarXiv CS.CL·vor 15T

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

Diese Forschung stellt SLAP vor, ein neuartiges batch-bewusstes Daten-Auswahl-Framework, das darauf abzielt, die Dateneffizienz beim Instruction Tuning für LLMs zu verbessern. SLAP optimiert das Lernen durch die Bewertung ganzer Batch-Kompositionen, gewährleistet eine umfassende Abdeckung der Datenverteilung und maximiert die Intra-Batch-Diversität, um verlustfreie Leistung bei reduzierten Trainingskosten zu erzielen.

Instruction Tuning LLMs machine learning model optimization

RESEARCHarXiv CS.CL·vor 7T

Translating Classical Poetry into Modern Prose

Padyam2Gadyam ist ein neuer Datensatz für die Gedicht-zu-Prosa-Übersetzung von klassischer Telugu-Poesie aus dem 13.-17. Jahrhundert in zeitgenössische Telugu- und englische Prosa. Die Bewertung von fünf großen Sprachmodellen zeigte, dass ihre Gesamtleistung in beiden Sprachen noch viel Raum für Verbesserungen lässt.

poetry LLMs Translation Natural Language Processing

RESEARCHarXiv CS.CL·vor 7T

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Diese Studie untersucht, wie der Konversationskontext die Antworten von LLMs beeinflusst, insbesondere in risikoreichen Szenarien. Sie zeigt, dass Konversationsthemen die Hauptprädiktoren für LLM-generierte Ratschläge sind und die Ergebnisungleichheiten beeinflussen.

conversational context LLMs linguistic features sociodemographics

RESEARCHarXiv CS.CL·vor 7T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.AI·vor 14T

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM ist ein neuer Benchmark zur Bewertung der Theory of Mind in LLMs durch explizite Modellierung von Überzeugungsstrukturen. Er überwindet die Grenzen der reinen Endpunkt-Fragebeantwortung und ermöglicht eine tiefere Analyse mentaler Zustandsrepräsentationen, einschließlich abweichender oder fehlerhafter Überzeugungen.

LLMs Social Reasoning benchmarking AI evaluation

RESEARCHarXiv CS.AI·vor 14T

Can LLMs Introspect? A Reality Check

Eine neue Studie hinterfragt, ob große Sprachmodelle (LLMs) wirklich introspektionsfähig sind, und argumentiert, dass aktuelle Schlussfolgerungen verfrüht sein könnten. Sie legt nahe, dass der scheinbare Erfolg eher auf allgemeiner Anomalieerkennung als auf echter Introspektion beruhen könnte, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung.

LLMs cognitive science Metacognition Introspection

RESEARCHarXiv CS.AI·vor 13T

Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

Diese Forschung schlägt eine Multi-Agenten-Architektur zur autonomen Entdeckung von Erkenntnissen in Echtzeit-Datenströmen vor, um die Einschränkungen reaktiver Analysesysteme zu überwinden. Das System implementiert einen kontinuierlichen Entdeckungszyklus, der Hypothesen generiert, Analysen kompiliert, Artefakte validiert und Visualisierungen erstellt, unter Einsatz von Kafka, Flink und großen Sprachmodellen.

LLMs stream processing data analysis real-time analytics

RESEARCHarXiv CS.CL·vor 14T

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Dieses Papier schlägt ein neues Framework zur Bewertung und Intervention bei der kulturellen Wertausrichtung in großen Sprachmodellen (LLMs) vor, um deren oft homogenisierte kulturelle Perspektiven zu adressieren. Es nutzt szenariobasierte Verhaltenssondierung und die Extraktion impliziter Token-Wahrscheinlichkeiten, um latente kulturelle Werte zu kartieren, und führt auch die Aktivierungssteuerung ein, um diese Ausrichtungen ohne erneutes Training zu verschieben.

LLMs Cultural Alignment AI ethics Value Systems

ARTICLEDEV.to AI·4/25/2026

DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Model Guide

Dieser Leitfaden analysiert die neuesten großen KI-Modellveröffentlichungen, darunter GPT-5.5, DeepSeek V4 und Claude Opus 4.7, und beleuchtet deren Fähigkeiten in einem sich schnell entwickelnden Wettbewerbsumfeld. Ziel ist es, Entwicklern Daten und ein Entscheidungsraster zur Auswahl des besten Modells für bestimmte Aufgaben zu bieten.

AI models LLMs benchmarking developer guide

CASEDEV.to AI·4/25/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Ein KI-Enthusiast hat ein autonomes 24/7-KI-Agentensystem auf einem 6-Dollar-VPS mit OpenClaw, DeepSeek V4 Pro und Docker aufgebaut. Dieses System automatisiert Content-Posts, Artikelveröffentlichungen und Shop-Management und bietet eine kostengünstige Alternative zu teureren LLMs wie Claude.

LLMs infrastructure Cost Optimization automation

ARTICLEDEV.to AI·4/24/2026

I Built a Multi-LLM Debate Engine That Fact-Checks Itself in Real Time

Der Artikel beschreibt den Bau einer Multi-LLM-Debattier-Engine, die sich in Echtzeit selbst faktencheckt, um die Neigung von LLMs zu Schmeichelei und Halluzinationen zu bekämpfen. Er schlägt eine strukturierte Debatte zwischen Agenten mit unterschiedlichen Rollen vor, einschließlich eines engagierten Faktenprüfers während der Debatte.

AI models LLMs hallucination multi-agent systems

ARTICLEDEV.to AI·4/16/2026

"The Hidden Cost of AI Agent Hype: Why Most Fail and What Actually Works" — a br

Die meisten KI-Agenten-Startups aus dem Jahr 2023 sind gescheitert oder haben zu kämpfen, weil die Entwickler das falsche Problem angehen und Demofähigkeit über Zuverlässigkeit optimieren. Reale Aufgaben sind komplex und erfordern menschliches Urteilsvermögen, das aktuelle LLMs oft verpatzen.

LLMs hype cycle startups AI failure

RESEARCHDEV.to AI·4/18/2026

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

LlamaFactory wird als ein einheitliches und effizientes Framework zur Feinabstimmung von über 100 verschiedenen Sprachmodellen eingeführt. Es zielt darauf ab, den Prozess der Anpassung einer Vielzahl großer Sprachmodelle zu optimieren und zu vereinfachen.

LLMs AI frameworks machine learning large language models

CASEDEV.to AI·4/25/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Dieser Inhalt beschreibt den Aufbau eines autonomen 24/7-KI-Agentensystems auf einem kostengünstigen VPS (6 $/Monat) mithilfe des OpenClaw-Frameworks und DeepSeek V4 Pro. Das System verwaltet verschiedene Online-Aufgaben wie das Posten von Inhalten und den Verkauf digitaler Produkte und hebt dessen Effizienz und Kosteneffizienz hervor.

LLMs VPS Cost Optimization automation

DOCDEV.to AI·4/21/2026

How to Install Ollama on Linux and Windows: Complete Setup Guide

Dieser Leitfaden beschreibt, wie Ollama auf Linux- und Windows-Systemen installiert und konfiguriert wird, ein Tool, das das lokale Ausführen und Verwalten großer Sprachmodelle (LLMs) vereinfacht. Er behandelt die Systemanforderungen, den schrittweisen Installationsprozess und wie Sie Ihr erstes Modell, wie Llama3, ausführen.

installation LLMs tutorials Ollama

ARTICLEDEV.to AI·4/20/2026

What 19 GB of Memory Compression Taught Me About MLX on M1 Max

Der Autor beschreibt ein Problem mit 19 GB Speicherkomprimierung bei einem großen LLM, das MLX auf einem M1 Max verwendet, welches er zunächst für ein Speicherleck hielt. Die Lösung war ein einziger MLX-API-Aufruf, um den Unified Memory von macOS für inaktive Modelle korrekt zu verwalten.

LLMs apple-silicon memory management Performance optimization

ARTICLEDEV.to AI·4/9/2026

Choosing Between GPT-5.4 and Claude Sonnet 4.6 in Real Workflows

O artigo compara o desempenho dos modelos GPT-5.4 e Claude Sonnet 4.6 em fluxos de trabalho reais, destacando que, embora 80% das tarefas sejam semelhantes, o GPT-5.4 se sobressai em 20% das situações que exigem raciocínio multi-passos, uso de ferramentas e saídas estruturadas. A análise enfatiza que critérios como consistência, velocidade, custo e adequação ao fluxo de trabalho são mais importantes do que apenas a correção em ambientes de produção.

LLMs GPT Workflow model comparison