← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.LG·vor 9T

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval ist ein neuer umfassender Datensatz, der entwickelt wurde, um Große Sprachmodelle (LLMs) für OpenQASM-3-Programme zu trainieren und zu evaluieren, die erweiterte hardwareorientierte Funktionen nutzen. Er schließt eine Lücke in der Fähigkeit von LLMs, die Programmierung von Quantencomputern jenseits der Gate-Sequenz-Schaltungsspezifikation zu handhaben.

27
RESEARCHarXiv CS.LG·vor 15T

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab schlägt ein geschlossenes Kreislaufsystem für die wissenschaftliche Entdeckung vor, das über statische Schlussfolgerungen hinausgeht, indem es die Hypothesengenerierung aktiv mit der Experimentauswahl und Mechanismusverfeinerung koppelt. Es schlägt iterativ plausible Hypothesen vor, wählt informative Experimente zur Unterscheidung oder Verfeinerung aus und aktualisiert seinen Zustand anhand der resultierenden Beweise.

27
RESEARCHarXiv CS.CL·vor 15T

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

Diese Forschung stellt SLAP vor, ein neuartiges batch-bewusstes Daten-Auswahl-Framework, das darauf abzielt, die Dateneffizienz beim Instruction Tuning für LLMs zu verbessern. SLAP optimiert das Lernen durch die Bewertung ganzer Batch-Kompositionen, gewährleistet eine umfassende Abdeckung der Datenverteilung und maximiert die Intra-Batch-Diversität, um verlustfreie Leistung bei reduzierten Trainingskosten zu erzielen.

27
RESEARCHarXiv CS.CL·vor 7T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

27
RESEARCHarXiv CS.AI·vor 14T

Can LLMs Introspect? A Reality Check

Eine neue Studie hinterfragt, ob große Sprachmodelle (LLMs) wirklich introspektionsfähig sind, und argumentiert, dass aktuelle Schlussfolgerungen verfrüht sein könnten. Sie legt nahe, dass der scheinbare Erfolg eher auf allgemeiner Anomalieerkennung als auf echter Introspektion beruhen könnte, basierend auf Erkenntnissen aus der menschlichen Metakognitionsforschung.

27
RESEARCHarXiv CS.AI·vor 13T

Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

Diese Forschung schlägt eine Multi-Agenten-Architektur zur autonomen Entdeckung von Erkenntnissen in Echtzeit-Datenströmen vor, um die Einschränkungen reaktiver Analysesysteme zu überwinden. Das System implementiert einen kontinuierlichen Entdeckungszyklus, der Hypothesen generiert, Analysen kompiliert, Artefakte validiert und Visualisierungen erstellt, unter Einsatz von Kafka, Flink und großen Sprachmodellen.

27
RESEARCHarXiv CS.CL·vor 14T

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Dieses Papier schlägt ein neues Framework zur Bewertung und Intervention bei der kulturellen Wertausrichtung in großen Sprachmodellen (LLMs) vor, um deren oft homogenisierte kulturelle Perspektiven zu adressieren. Es nutzt szenariobasierte Verhaltenssondierung und die Extraktion impliziter Token-Wahrscheinlichkeiten, um latente kulturelle Werte zu kartieren, und führt auch die Aktivierungssteuerung ein, um diese Ausrichtungen ohne erneutes Training zu verschieben.

27
ARTICLEDEV.to AI·4/9/2026

Choosing Between GPT-5.4 and Claude Sonnet 4.6 in Real Workflows

O artigo compara o desempenho dos modelos GPT-5.4 e Claude Sonnet 4.6 em fluxos de trabalho reais, destacando que, embora 80% das tarefas sejam semelhantes, o GPT-5.4 se sobressai em 20% das situações que exigem raciocínio multi-passos, uso de ferramentas e saídas estruturadas. A análise enfatiza que critérios como consistência, velocidade, custo e adequação ao fluxo de trabalho são mais importantes do que apenas a correção em ambientes de produção.

27