LLMs

718 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Der Titel deutet darauf hin, dass das Fine-Tuning lokaler KI-Modelle unter Verwendung des Brandings

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

ARTICLEDEV.to AI·vor 3T

Why Standard AI Chatbots Break Financial Tables (And How to Extract Handwritten Ledgers to Excel Cleanly)

Standard-KI-Chatbots scheitern beim Konvertieren komplexer Finanztabellen aus Bildern oder Scans, was zu Fehlern wie verschobenen Spalten und halluzinierten Zahlen führt. Dies liegt daran, dass allgemeine multimodale LLMs komplexe Rasterlayouts nicht erhalten können, was spezialisierte Pipelines für eine präzise Datenextraktion und -integrität erforderlich macht.

chatbots LLMs Data Extraction AI

DOCDEV.to AI·vor 3T

GenericAgent: Unleash Self-Evolving AI with a Minimal Autonomous Framework!

GenericAgent ist ein Python-Framework zur Erstellung sich selbst entwickelnder autonomer KI-Agenten, das es LLMs ermöglicht, lokale Computersysteme mit minimalen Tools zu steuern. Es lernt und kristallisiert erfolgreiche Aufgabenausführungen automatisch zu wiederverwendbaren „Skills“.

Self-evolving AI LLMs Autonomous systems Python Framework

CASEDEV.to AI·vor 3T

We Built an AI That Remembers Everything Your Team Forgets

Ein KI-System namens ECHO wurde entwickelt, um das Slack-Chaos in einen lebendigen Wissensgraphen umzuwandeln und so das Vergessen im Team zu bekämpfen. Es nutzt LLMs zur Entitätsextraktion, erstellt Beziehungen in einem Graphen und wendet einen zeitlichen Zerfall an, um die Relevanz des Teamwissens zu gewährleisten.

LLMs Knowledge Graph team collaboration knowledge management

RESEARCHDEV.to AI·4/13/2026

TALM: Tool Augmented Language Models

TALM (Tool Augmented Language Models) konzentriert sich auf die Integration externer Werkzeuge mit großen Sprachmodellen, um deren Fähigkeiten zu erweitern. Dieser Ansatz ermöglicht es LLMs, komplexe Aufgaben effektiver zu bewältigen, indem sie spezialisierte Funktionen und reale Interaktionen nutzen.

language models LLMs NLP Tool Augmentation

ARTICLEDEV.to AI·vor 3T

How I built an intent drift detector for LLM agents

Dieser Artikel beschreibt die Entwicklung von SIP (State Integrity Protocol), einem Tool zur Erkennung von Intent- und semantischem Drift in LLM-Agenten-Ausgaben. Es adressiert das Problem des stillen Versagens von KI-Agenten durch automatische Überprüfung auf Diskrepanzen zwischen erwarteten und tatsächlichen Ergebnissen.

LLMs Semantic Drift Intent Detection AI agents

RESEARCHarXiv CS.CL·4/13/2026

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Diese Studie bewertet die Leistung von Prompting-Strategien (Chain-of-Thought und Zero-Shot) in LLMs mit erweitertem Schlussfolgern wie Grok-4.1, wobei die Sampling-Temperatur bei 39 anspruchsvollen mathematischen Problemen variiert wurde. Dabei wurde festgestellt, dass Zero-Shot-Prompting bei moderaten Temperaturen seinen Höhepunkt erreicht, während Chain-of-Thought bei extremen Temperaturen am besten abschneidet und den Nutzen des erweiterten Schlussfolgerns erheblich steigert.

mathematical reasoning LLMs Prompting Temperature

ARTICLEDEV.to AI·vor 3T

AI agent memory management: beyond the context window

Dieser Artikel behandelt das kritische Problem, dass KI-Agenten Informationen aufgrund von Kontextfensterbeschränkungen vergessen, wobei ältere Nachrichten entfernt werden. Er hebt hervor, dass dies ein Problem der Speicherarchitektur und keine Halluzination ist, und schlägt vor, über die bloße Nutzung des Kontextfensters als einzigen Speicher des Agenten hinauszugehen.

AI architecture LLMs Context window memory management

RESEARCHarXiv CS.CL·4/23/2026

Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs

Neue Forschungsergebnisse deuten darauf hin, dass „Halluzinationsneuronen“ (H-Neuronen), die LLM-Halluzinationen vorhersagen, nicht über verschiedene Wissensdomänen hinweg verallgemeinerbar sind. Dies deutet darauf hin, dass Halluzination möglicherweise kein einzelner Mechanismus mit einer universellen neuronalen Signatur ist, sondern kontextabhängig.

LLMs hallucination AI safety AI research

RESEARCHarXiv CS.CL·vor 5T

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.

LLMs Medical Question Answering GRPO healthcare AI

ARTICLEDEV.to AI·4/13/2026

I built a data platform that lets AI agents query 2,500+ verified datasets

Der Entwickler baute autario, eine Datenplattform, die über 2.500 verifizierte öffentliche Datensätze aus verschiedenen Quellen für Menschen, Anwendungen und insbesondere KI-Agenten abfragbar macht. Diese Plattform zielt darauf ab, LLM-Halluzinationen zu verhindern, indem sie Echtzeit-Datenabfragen und die Veröffentlichung von Diagrammen mit verifizierten Informationen ermöglicht.

verified data LLMs Data Platform data querying

RESEARCHarXiv CS.CL·vor 20T

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Dieses Papier stellt MedicalBench vor, einen neuen Benchmark zur Bewertung großer Sprachmodelle bei der Extraktion medizinischer Konzepte aus elektronischen Gesundheitsakten. Es konzentriert sich auf implizites medizinisches Denken und Evidenzfundierung, um die Herausforderung der Identifizierung nicht explizit genannter Konzepte zu bewältigen.

LLMs concept extraction Healthcare benchmarking

RESEARCHarXiv CS.AI·vor 13T

Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

Dieses Forschungspapier zeigt, dass große Sprachmodelle beim kausalen Entdecken grundlegend versagen, da sie nicht zwischen kausalen Graphen unterscheiden können, die ähnliche Beobachtungsdaten erzeugen. Es führt ein "Kernel-Obstruktionstheorem" ein, um diese intrinsische Einschränkung aktueller Lernparadigmen zu formalisieren.

LLMs research Causal Discovery machine learning

RESEARCHarXiv CS.CL·4/16/2026

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Diese Forschung stellt einen mathematisch begründeten generativen KI-Ansatz zur Ableitung von Formeln für die optische Kommunikation vor, insbesondere zur Modellierung nichtlinearer Interferenzen in Glasfasern. Durch die Anleitung eines LLM mit strukturierten Prompts rekonstruierte die Studie erfolgreich bekannte Ausdrücke und leitete eine neuartige Annäherung ab, die sowohl physikalische Konsistenz als auch praktische Genauigkeit zeigte.

mathematical reasoning LLMs Scientific Discovery Generative AI

RESEARCHarXiv CS.CL·vor 22T

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

Der Artikel schlägt vor, die mehrfache juristische Annotation als Abrufaufgabe zu betrachten, wobei eingefrorene Modelle und k-nächste Nachbarn zur Zuweisung von Labels verwendet werden. Diese Methode erzielt eine wettbewerbsfähige Genauigkeit und eine hohe Dateneffizienz auf juristischen Datensätzen, wodurch die Rechenkosten im Vergleich zum Fine-Tuning großer Sprachmodelle erheblich gesenkt werden.

Multi-label Classification LLMs Legal AI Data efficiency

RESEARCHarXiv CS.CL·vor 14T

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

Dieses Papier bietet die erste vereinheitlichte Übersicht über die Vortrainingsdatenexposition (PDE) in großen Sprachmodellen (LLMs), die Datenkontamination und Mitgliederinferenz umfasst. Es formalisiert PDE, überprüft Angriffs- und Verteidigungsmethoden und beleuchtet zukünftige Herausforderungen, um die Evaluierungs-Integrität zu gewährleisten und den Datenschutz zu schützen.

LLMs membership inference data privacy security

RESEARCHarXiv CS.AI·vor 6T

VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark

Wir stellen VAMPS vor, einen neuen Benchmark für multimodale große Sprachmodelle (MLLMs), der sich auf visuell unterstützte mathematische Problemlösung konzentriert. Er enthält 1.168 bilinguale Multiple-Choice-Fragen-Antworten-Paare aus iranischen Universitätsaufnahmeprüfungen, bei denen das Plotten eine natürliche Lösungsstrategie bietet.

multimodal AI LLMs benchmarking mathematics

ARTICLEDEV.to AI·4/21/2026

How we handle LLM context window limits without losing conversation quality

Dieser Artikel befasst sich mit der kritischen Herausforderung der LLM-Kontextfenstergrenzen, die dazu führen, dass Chatbots Informationen vergessen und Agenten Ziele aus den Augen verlieren, obwohl Modelle größere Fenster bieten. Es wird betont, dass die bloße Erweiterung der Kontextfenster aufgrund prohibitiver Kosten und erhöhter Latenz nicht ausreicht, und es werden Produktionsstrategien und Kompromisse versprochen.

LLMs Context window Cost Optimization performance

ARTICLEDEV.to AI·4/8/2026

I Built a Tool to Test Whether Multiple LLMs Working Together Can Beat a Single Model

O Occursus Benchmark é uma plataforma de benchmarking de código aberto que testa se múltiplas LLMs colaborando podem superar um único modelo. A ferramenta avalia 22 estratégias de orquestração em quatro provedores de LLMs, usando julgamento cego duplo para pontuar a qualidade das saídas.

multi-model AI avaliação de desempenho Orquestração LLMs

RESEARCHarXiv CS.AI·vor 6T

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL ist ein neuartiges Framework, das die LLM-basierte RTL-Codegenerierung verbessert, indem es schrittweise Trajektorienmodellierung, Prozess-Reward-Modellierung (PRM) und retrieval-augmented Fine-Tuning (RAFT) kombiniert. Es nutzt dichtes Feedback eines PRM, um verstärkungsbasierte Updates zu leiten, und Monte Carlo Tree Search (MCTS) zur Anreicherung des Trainingsdatensatzes.

LLMs reinforcement learning code generation RTL Synthesis