← heapsort-ai

large language models

262 items

DOCDEV.to AI·4/24/2026

How to implement Claude conversation history without storing everything (token-efficient pattern)

Dieser Inhalt befasst sich mit einem häufigen Fehler bei der Entwicklung von Claude-gestützten Apps: dem Senden des gesamten Konversationsverlaufs bei jeder Anfrage, was zu hohen Token-Kosten führt. Es wird ein Token-effizientes Muster vorgeschlagen, um den Konversationsverlauf zu verwalten und die Funktionalität bei gleichzeitiger Kontrolle der API-Ausgaben zu gewährleisten.

27
RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

27
RESEARCHarXiv CS.CL·4/15/2026

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Diese Forschung untersucht systematisch den Identifizierbare-Opfer-Effekt (IVE) in Großen Sprachmodellen, eine kognitive Verzerrung, bei der spezifische, narrativ beschriebene Opfer mehr Ressourcen erhalten als statistisch charakterisierte Gruppen. Die groß angelegte empirische Studie über 16 führende LLMs stellt fest, ob diese Systeme menschliche affektive Irrationalitäten in kritischen Anwendungen wie humanitärem Triage und Inhaltsmoderation erben.

27
RESEARCHarXiv CS.LG·4/15/2026

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Dieses Papier beschreibt einen Versuch, Verhaltensdispositionen mittels einer Distillations-Pipeline in kleine Sprachmodelle (0,6B-2,3B Parameter) zu destillieren. Anfänglich gemeldete Fortschritte wurden später aufgrund von Evaluierungsartefakten widerlegt, was zu einem negativen Ergebnis für die Kernhypothese führte und drei nachfolgende Untersuchungsstränge nach sich zog.

27
RESEARCHarXiv CS.LG·4/15/2026

A Layer-wise Analysis of Supervised Fine-Tuning

Diese Forschung analysiert Supervised Fine-Tuning (SFT) und zeigt, dass die Fähigkeit zur Befolgung von Anweisungen schichtübergreifend auftritt: Mittlere Schichten sind stabil, während die letzten Schichten hochsensibel sind. Darauf aufbauend schlagen die Autoren Mid-Block Efficient Tuning vor, das kritische Zwischenschichten aktualisiert und Standard-LoRA bei reduziertem Parameter-Overhead übertrifft.

27
RESEARCHarXiv CS.AI·4/25/2026

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations

Diese Arbeit stellt ein innovatives Framework für die adaptive Berechnung von Testzeiten vor, das gemeinsam anpasst, wo die Berechnung aufgewendet und wie die Generierung durchgeführt wird. Die Methode verwendet eine Aufwärmphase, um einfache Anfragen zu identifizieren, und konzentriert dann weitere Berechnungen auf ungelöste Anfragen, indem sie Generierungsverteilungen mit sich entwickelnden In-Context-Demonstrationen neu gestaltet.

27
RESEARCHarXiv CS.AI·4/13/2026

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Diese Forschung untersucht die Verwendung eines agentischen Sprachmodell-Feedback-Frameworks zur Generierung hochwertiger Planungsdomänen aus erweiterten natürlicher Sprachbeschreibungen. Sie bewertet den Einfluss verschiedener symbolischer Feedback-Mechanismen, wie Landmarks und Planvalidierungsergebnissen, in Verbindung mit heuristischer Suche im Modellraum, um die Domänenqualität zu optimieren.

27
RESEARCHarXiv CS.LG·4/13/2026

Distributionally Robust Token Optimization in RLHF

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

27
RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

27
RESEARCHarXiv CS.CL·4/30/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV ist eine neuartige spekulative Decodierungsmethode, die Multi-Draft- und Greedy-Block-Verifizierung vereint, um die Inferenz von Sprachmodellen zu beschleunigen. Sie formuliert den Verifizierungsschritt als optimales Transportproblem, was die theoretische Effizienz und die empirische Leistung verbessert, indem sie die optimal erreichbare erwartete Akzeptanzlänge erreicht.

27
RESEARCHarXiv CS.CL·4/9/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.AI·4/30/2026

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Diese Forschung untersucht die Zuverlässigkeit autonomer Sprachmodellagenten, die echte ETH in einem Onchain-Markt handeln, was durch einen 21-tägigen Einsatz mit Millionen von Aufrufen und 20 Millionen Dollar Volumen belegt wird. Die Studie zeigte eine Abwicklungserfolgsquote von 99,9 % und lieferte eine umfangreiche Spur zur Analyse der Robustheit dieser Systeme jenseits des Basismodells.

27
RESEARCHarXiv CS.CL·4/14/2026

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Diese Forschung stellt das Cognitive Synergy Framework vor, um die Herausforderung der Humor-Generierung in LLMs zu bewältigen, die im Widerspruch zu deren Standardziel der nächsten Wortvorhersage steht. Es nutzt einen Mixture-of-Thought-Ansatz mit sechs kognitiven Personas, um diverse komödiantische Perspektiven zu synthetisieren und ein theoretisch fundiertes Dataset zu erstellen, das zur Feinabstimmung eines 7B-Parameter-Modells verwendet wird, welches größere Baselines übertrifft.

27
RESEARCHarXiv CS.CL·4/30/2026

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Diese Studie bewertet die Fähigkeit allgemeiner LLMs zur Informationsextraktion aus spanischen Stromrechnungen ohne Feinabstimmung und zeigt, dass die Prompt-Qualität wichtiger ist als die Hyperparameter-Optimierung. Few-shot-Strategien übertreffen Zero-shot-Ansätze um über 19 Prozentpunkte im F1-Score.

27