large language models

262 items

NEWSDEV.to AI·vor 7T

Claude Opus 4.8: Dynamic Workflows and Parallel Subagents

Anthropic hat Claude Opus 4.8 veröffentlicht, das dynamische Workflows einführt, die Hunderte paralleler Subagenten für komplexe Aufgaben ermöglichen. Diese Version zeigt signifikante Verbesserungen bei Benchmarks wie SWE-bench Verified und USAMO, bei unveränderten Standardpreisen und einem neuen, günstigeren Fast-Modus.

AI models Anthropic Benchmarks large language models

DOCDEV.to AI·4/24/2026

How to implement Claude conversation history without storing everything (token-efficient pattern)

Dieser Inhalt befasst sich mit einem häufigen Fehler bei der Entwicklung von Claude-gestützten Apps: dem Senden des gesamten Konversationsverlaufs bei jeder Anfrage, was zu hohen Token-Kosten führt. Es wird ein Token-effizientes Muster vorgeschlagen, um den Konversationsverlauf zu verwalten und die Funktionalität bei gleichzeitiger Kontrolle der API-Ausgaben zu gewährleisten.

Optimization Claude API large language models

RESEARCHAnthropic (YouTube)·5/7/2026

Translating Claude’s thoughts into language

Dieser Inhalt befasst sich mit dem faszinierenden Bereich der Übersetzung der internen Prozesse oder „Gedanken“ eines KI-Modells wie Claude in verständliche Sprache. Er untersucht, wie die komplexen Operationen der KI interpretiert und ausgedrückt werden können, um deren Denkweise besser zu verstehen.

cognitive AI Natural Language Processing interpretability AI

Translating Claude’s thoughts into language

NEWSDEV.to AI·5/3/2026

Together AI Free API: Run Llama 3.3, DeepSeek R1, and FLUX Image Generation for Free in 2026

Together AI bietet kostenlosen API-Zugang zu fortschrittlichen Modellen wie Llama 3.3, DeepSeek R1 und FLUX für die Bilderzeugung an. Dieser kostenlose Zugang ist bis 2026 verfügbar und ermöglicht Entwicklern, diese leistungsstarken KI-Fähigkeiten kostenlos zu nutzen.

image generation API Free Access Together AI

ARTICLEDEV.to AI·4/19/2026

I Built an AI Memory System. Then I Forgot About It.

Der Autor hat ein KI-Gedächtnissystem für Claude gebaut, das seit Februar läuft. Dieser Rückblick untersucht, wie das System autark und integriert wurde, wodurch der Bedarf an ständiger Wartung und Intervention des Erstellers reduziert wurde.

Knowledge Graphs AI Memory Systems personal projects large language models

RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.CL·4/15/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Diese Forschung untersucht systematisch den Identifizierbare-Opfer-Effekt (IVE) in Großen Sprachmodellen, eine kognitive Verzerrung, bei der spezifische, narrativ beschriebene Opfer mehr Ressourcen erhalten als statistisch charakterisierte Gruppen. Die groß angelegte empirische Studie über 16 führende LLMs stellt fest, ob diese Systeme menschliche affektive Irrationalitäten in kritischen Anwendungen wie humanitärem Triage und Inhaltsmoderation erben.

Identifiable Victim Effect cognitive bias AI ethics large language models

RESEARCHarXiv CS.LG·4/15/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Dieses Papier beschreibt einen Versuch, Verhaltensdispositionen mittels einer Distillations-Pipeline in kleine Sprachmodelle (0,6B-2,3B Parameter) zu destillieren. Anfänglich gemeldete Fortschritte wurden später aufgrund von Evaluierungsartefakten widerlegt, was zu einem negativen Ergebnis für die Kernhypothese führte und drei nachfolgende Untersuchungsstränge nach sich zog.

Negative Results Model Distillation Behavioral Dispositions large language models

RESEARCHarXiv CS.LG·4/15/2026

A Layer-wise Analysis of Supervised Fine-Tuning

Diese Forschung analysiert Supervised Fine-Tuning (SFT) und zeigt, dass die Fähigkeit zur Befolgung von Anweisungen schichtübergreifend auftritt: Mittlere Schichten sind stabil, während die letzten Schichten hochsensibel sind. Darauf aufbauend schlagen die Autoren Mid-Block Efficient Tuning vor, das kritische Zwischenschichten aktualisiert und Standard-LoRA bei reduziertem Parameter-Overhead übertrifft.

Supervised Fine-Tuning Layer-wise Analysis Catastrophic Forgetting large language models

RESEARCHarXiv CS.AI·4/25/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Diese Arbeit stellt ein innovatives Framework für die adaptive Berechnung von Testzeiten vor, das gemeinsam anpasst, wo die Berechnung aufgewendet und wie die Generierung durchgeführt wird. Die Methode verwendet eine Aufwärmphase, um einfache Anfragen zu identifizieren, und konzentriert dann weitere Berechnungen auf ungelöste Anfragen, indem sie Generierungsverteilungen mit sich entwickelnden In-Context-Demonstrationen neu gestaltet.

deep learning machine learning in-context learning AI

RESEARCHarXiv CS.AI·4/13/2026

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Diese Forschung untersucht die Verwendung eines agentischen Sprachmodell-Feedback-Frameworks zur Generierung hochwertiger Planungsdomänen aus erweiterten natürlicher Sprachbeschreibungen. Sie bewertet den Einfluss verschiedener symbolischer Feedback-Mechanismen, wie Landmarks und Planvalidierungsergebnissen, in Verbindung mit heuristischer Suche im Modellraum, um die Domänenqualität zu optimieren.

Symbolic AI Agentic AI AI Planning Feedback Systems

RESEARCHarXiv CS.LG·4/13/2026

Distributionally Robust Token Optimization in RLHF

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·4/14/2026

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Große Sprachmodelle sind oft überheblich und äußern hohe Sicherheit, selbst wenn sie falsch liegen. Dieses Papier stellt SECL vor, eine Testzeit-Trainingspipeline, die ein selbstüberwachtes Signal nutzt, um die Kalibrierung ohne gelabelte Daten oder menschliche Aufsicht zu verbessern.

Calibration self-supervision Overconfidence large language models

RESEARCHarXiv CS.AI·4/27/2026

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

Dieser Inhalt stellt ein neues Konzept, die 'Hintergrundtemperatur', vor, um die verborgene Zufälligkeit in Großen Sprachmodellen zu charakterisieren.

LLMs machine learning randomness large language models

RESEARCHarXiv CS.CL·4/30/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV ist eine neuartige spekulative Decodierungsmethode, die Multi-Draft- und Greedy-Block-Verifizierung vereint, um die Inferenz von Sprachmodellen zu beschleunigen. Sie formuliert den Verifizierungsschritt als optimales Transportproblem, was die theoretische Effizienz und die empirische Leistung verbessert, indem sie die optimal erreichbare erwartete Akzeptanzlänge erreicht.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.CL·4/9/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.AI·4/30/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Diese Forschung untersucht die Zuverlässigkeit autonomer Sprachmodellagenten, die echte ETH in einem Onchain-Markt handeln, was durch einen 21-tägigen Einsatz mit Millionen von Aufrufen und 20 Millionen Dollar Volumen belegt wird. Die Studie zeigte eine Abwicklungserfolgsquote von 99,9 % und lieferte eine umfangreiche Spur zur Analyse der Robustheit dieser Systeme jenseits des Basismodells.

Blockchain Finance Reliability large language models

RESEARCHarXiv CS.CL·4/14/2026

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Diese Forschung stellt das Cognitive Synergy Framework vor, um die Herausforderung der Humor-Generierung in LLMs zu bewältigen, die im Widerspruch zu deren Standardziel der nächsten Wortvorhersage steht. Es nutzt einen Mixture-of-Thought-Ansatz mit sechs kognitiven Personas, um diverse komödiantische Perspektiven zu synthetisieren und ein theoretisch fundiertes Dataset zu erstellen, das zur Feinabstimmung eines 7B-Parameter-Modells verwendet wird, welches größere Baselines übertrifft.

Persona-Based AI Cognitive Synergy Framework Mixture-of-Thought large language models

RESEARCHarXiv CS.CL·4/30/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Diese Studie bewertet die Fähigkeit allgemeiner LLMs zur Informationsextraktion aus spanischen Stromrechnungen ohne Feinabstimmung und zeigt, dass die Prompt-Qualität wichtiger ist als die Hyperparameter-Optimierung. Few-shot-Strategien übertreffen Zero-shot-Ansätze um über 19 Prozentpunkte im F1-Score.

prompt-engineering Information Extraction Benchmarking large language models