← heapsort-ai

LLMs

723 items

RESEARCHDEV.to AI·5/8/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Dieser Artikel präsentiert die "Modell-Showdown Runde 2", die neue Modelle wie Googles Gemma 4 und Moonshot AIs Kimi K2 einführt und frühere Modelle mit korrigierten Konfigurationen neu bewertet. Die aktualisierten Benchmarks zeigten signifikante Änderungen in der Bestenliste und behandelten Probleme wie Token-Limits und Befehlsinterpretation aus der ersten Runde.

27
DOCDEV.to AI·vor 13T

99. Build a Chatbot With Memory

Dieser Inhalt erklärt, wie man einen Chatbot mit Gedächtnis baut und die zustandslose Natur von LLMs überwindet. Er beschreibt Muster wie Konversationsverlauf, Gleitfenstergedächtnis, Zusammenfassungsgedächtnis und Entitätsgedächtnis, einschließlich der Verwendung von LangChain zum Aufbau eines Multi-Turn-Chatbots und zum Speichern des Gedächtnisses über Sitzungen hinweg.

27
RESEARCHDEV.to AI·5/8/2026

Model Showdown: Benchmarking Local vs Cloud LLMs on a Real Coding Task

Der Artikel beschreibt einen Benchmark, der lokale LLMs auf Consumer-Hardware (Ollama auf RTX 5090) mit Cloud-basierten Modellen von Anthropic für eine reale Codierungsaufgabe vergleicht. Ziel war es herauszufinden, ob lokale Modelle Code produzieren können, der genauso korrekt, schnell und vollständig ist wie der von Cloud-Modellen, für eine Python CLI To-Do-App mit SQLite-Persistenz.

27
ARTICLEDEV.to AI·4/6/2026

AI Citation Registries as Information Infrastructure for AI Systems

O conteúdo aborda como sistemas de IA podem deturpar a fonte de informação, como a autoridade emissora de um aviso, ao processar fragmentos de texto e perder o contexto original. Isso ressalta a necessidade de "AI Citation Registries" para preservar atributos cruciais de jurisdição e autoria, garantindo a precisão e a integridade dos dados gerados.

27
ARTICLEDEV.to AI·5/5/2026

Building Agent Memory: Episodic vs Semantic Stores

Der Text behandelt das Konzept des "Agentengedächtnisses" in KI-Systemen und beleuchtet die Herausforderung, dass Agenten den Kontext aus früheren Sitzungen aufgrund neuer Nachrichten-Arrays nicht beibehalten. Dies führt dazu, dass Agenten Benutzerpräferenzen vergessen, was die Kosten und Latenz erhöht, wenn versucht wird, dies durch lange System-Prompts auszugleichen.

27
ARTICLEDEV.to AI·5/2/2026

Engineering the Modern Turing Test: Building BotSpot

Der Inhalt beschreibt BotSpot, ein Wisch-Spiel, das die menschliche Intuition gegen das Gemini 2.0 Flash-Modell in einem modernen Turing-Test prüft. Das Projekt konzentriert sich darauf, KI-Prompts so zu gestalten, dass menschliche Fehler überzeugend simuliert werden, um es Nutzern zu erschweren, menschliche von KI-generierten Inhalten zu unterscheiden.

27
RESEARCHarXiv CS.CL·4/15/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Dieses Papier stellt das Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) vor, ein deterministisches Framework zur Optimierung der Textkategorisierung mittels LLMs. Es begegnet LLM-Einschränkungen, indem es Texte hierarchisch organisiert und ein Signal-Rausch-Verhältnis (SNR) nutzt, um sich auf hochrelevante semantische Merkmale zu konzentrieren.

27
RESEARCHarXiv CS.LG·4/15/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Diese Arbeit untersucht, wie verbessertes Denkvermögen in Sprachmodellen die Genauigkeit von Verhaltenssimulationen beeinträchtigen kann, insbesondere wenn das Ziel darin besteht, begrenzt rationales Verhalten abzubilden statt ein strategisches Problem zu lösen. Die Autoren identifizieren ein „Solver-Sampler-Mismatch“, bei dem LLMs überoptimieren, kompromissorientiertes Verhalten kollabieren lassen und zu Diversität ohne Treue in den Ergebnissen führen.

27
ARTICLEDEV.to AI·5/4/2026

Cost-Capped Agents: A Token Budget That Holds the Line on a Conversation

Dieser Inhalt befasst sich mit dem kritischen Problem eskalierender Kosten in KI-Agenten-Konversationen, bei denen sich erweiternde Kontextfenster und Tool-Wiederholungen die Kosten pro Anruf verdreifachen können. Er plädiert für die Implementierung eines festen Token-Budgets pro Konversation, um Kosten proaktiv zu kontrollieren und finanzielle Überschreitungen zu verhindern, unter Verweis auf einen realen Fall einer 47.000-Dollar-Rechnung.

27
RESEARCHarXiv CS.CL·4/15/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Diese Forschung stellt CURE vor, ein neuartiges Framework zur Verbesserung der Faktizität von Langform-Generierungen durch LLMs, indem es ihnen beibringt, Unsicherheit auf Behauptungsebene zu bewerten. Es überwindet die Tendenz von Modellen, unzutreffende Behauptungen selbstbewusst zu äußern, und konzentriert sich stattdessen auf eine granulare Unsicherheitskalibrierung.

27
RESEARCHarXiv CS.LG·4/15/2026

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

Diese Forschung stellt "Schema-Adaptive Tabular Representation Learning" vor, eine neuartige Methode, die Große Sprachmodelle (LLMs) nutzt, um übertragbare tabellarische Embeddings zu generieren. Durch die semantische Kodierung strukturierter Variablen in natürliche Sprache ermöglicht sie eine Zero-Shot-Abstimmung über verschiedene EHR-Schemata in der klinischen Medizin hinweg, ohne manuelle Merkmalsentwicklung.

27
RESEARCHarXiv CS.LG·4/14/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

27
RESEARCHarXiv CS.CL·5/5/2026

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

Diese Forschungsarbeit untersucht, ob LLMs parteiische Nachrichten entzerren können, um die Akzeptanz bei konservativen Lesern zu verbessern. Es wurde festgestellt, dass eine substanzielle Neufassung durch LLMs das Vertrauen und die Bereitschaft konservativer Leser, sich mit liberalen Schlagzeilen auseinanderzusetzen, erheblich steigerte, obwohl LLMs ihre eigene Wirksamkeit überschätzen.

27