← heapsort-ai

LLMs

718 items

ARTICLEDEV.to AI·vor 3T

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Standard-KI-Chatbots scheitern beim Konvertieren komplexer Finanztabellen aus Bildern oder Scans, was zu Fehlern wie verschobenen Spalten und halluzinierten Zahlen führt. Dies liegt daran, dass allgemeine multimodale LLMs komplexe Rasterlayouts nicht erhalten können, was spezialisierte Pipelines für eine präzise Datenextraktion und -integrität erforderlich macht.

30
RESEARCHDEV.to AI·4/13/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) konzentriert sich auf die Integration externer Werkzeuge mit großen Sprachmodellen, um deren Fähigkeiten zu erweitern. Dieser Ansatz ermöglicht es LLMs, komplexe Aufgaben effektiver zu bewältigen, indem sie spezialisierte Funktionen und reale Interaktionen nutzen.

30
RESEARCHarXiv CS.CL·4/13/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Diese Studie bewertet die Leistung von Prompting-Strategien (Chain-of-Thought und Zero-Shot) in LLMs mit erweitertem Schlussfolgern wie Grok-4.1, wobei die Sampling-Temperatur bei 39 anspruchsvollen mathematischen Problemen variiert wurde. Dabei wurde festgestellt, dass Zero-Shot-Prompting bei moderaten Temperaturen seinen Höhepunkt erreicht, während Chain-of-Thought bei extremen Temperaturen am besten abschneidet und den Nutzen des erweiterten Schlussfolgerns erheblich steigert.

30
ARTICLEDEV.to AI·vor 3T

AI agent memory management: beyond the context window

Dieser Artikel behandelt das kritische Problem, dass KI-Agenten Informationen aufgrund von Kontextfensterbeschränkungen vergessen, wobei ältere Nachrichten entfernt werden. Er hebt hervor, dass dies ein Problem der Speicherarchitektur und keine Halluzination ist, und schlägt vor, über die bloße Nutzung des Kontextfensters als einzigen Speicher des Agenten hinauszugehen.

30
RESEARCHarXiv CS.CL·4/23/2026

Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs

Neue Forschungsergebnisse deuten darauf hin, dass „Halluzinationsneuronen“ (H-Neuronen), die LLM-Halluzinationen vorhersagen, nicht über verschiedene Wissensdomänen hinweg verallgemeinerbar sind. Dies deutet darauf hin, dass Halluzination möglicherweise kein einzelner Mechanismus mit einer universellen neuronalen Signatur ist, sondern kontextabhängig.

30
RESEARCHarXiv CS.CL·vor 5T

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.

30
ARTICLEDEV.to AI·4/13/2026

I built a data platform that lets AI agents query 2,500+ verified datasets

Der Entwickler baute autario, eine Datenplattform, die über 2.500 verifizierte öffentliche Datensätze aus verschiedenen Quellen für Menschen, Anwendungen und insbesondere KI-Agenten abfragbar macht. Diese Plattform zielt darauf ab, LLM-Halluzinationen zu verhindern, indem sie Echtzeit-Datenabfragen und die Veröffentlichung von Diagrammen mit verifizierten Informationen ermöglicht.

29
RESEARCHarXiv CS.CL·vor 20T

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Dieses Papier stellt MedicalBench vor, einen neuen Benchmark zur Bewertung großer Sprachmodelle bei der Extraktion medizinischer Konzepte aus elektronischen Gesundheitsakten. Es konzentriert sich auf implizites medizinisches Denken und Evidenzfundierung, um die Herausforderung der Identifizierung nicht explizit genannter Konzepte zu bewältigen.

29
RESEARCHarXiv CS.CL·4/16/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Diese Forschung stellt einen mathematisch begründeten generativen KI-Ansatz zur Ableitung von Formeln für die optische Kommunikation vor, insbesondere zur Modellierung nichtlinearer Interferenzen in Glasfasern. Durch die Anleitung eines LLM mit strukturierten Prompts rekonstruierte die Studie erfolgreich bekannte Ausdrücke und leitete eine neuartige Annäherung ab, die sowohl physikalische Konsistenz als auch praktische Genauigkeit zeigte.

29
RESEARCHarXiv CS.CL·vor 22T

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

Der Artikel schlägt vor, die mehrfache juristische Annotation als Abrufaufgabe zu betrachten, wobei eingefrorene Modelle und k-nächste Nachbarn zur Zuweisung von Labels verwendet werden. Diese Methode erzielt eine wettbewerbsfähige Genauigkeit und eine hohe Dateneffizienz auf juristischen Datensätzen, wodurch die Rechenkosten im Vergleich zum Fine-Tuning großer Sprachmodelle erheblich gesenkt werden.

29
RESEARCHarXiv CS.CL·vor 14T

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Dieses Papier bietet die erste vereinheitlichte Übersicht über die Vortrainingsdatenexposition (PDE) in großen Sprachmodellen (LLMs), die Datenkontamination und Mitgliederinferenz umfasst. Es formalisiert PDE, überprüft Angriffs- und Verteidigungsmethoden und beleuchtet zukünftige Herausforderungen, um die Evaluierungs-Integrität zu gewährleisten und den Datenschutz zu schützen.

29
ARTICLEDEV.to AI·4/21/2026

How we handle LLM context window limits without losing conversation quality

Dieser Artikel befasst sich mit der kritischen Herausforderung der LLM-Kontextfenstergrenzen, die dazu führen, dass Chatbots Informationen vergessen und Agenten Ziele aus den Augen verlieren, obwohl Modelle größere Fenster bieten. Es wird betont, dass die bloße Erweiterung der Kontextfenster aufgrund prohibitiver Kosten und erhöhter Latenz nicht ausreicht, und es werden Produktionsstrategien und Kompromisse versprochen.

29
RESEARCHarXiv CS.AI·vor 6T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

29