LLMs

722 items

ARTICLEDEV.to AI·4/17/2026

I Run 14 AI Agents 24/7 on a 16GB MacBook — Here's What Broke First

Der Autor betreibt 14 KI-Agenten rund um die Uhr auf einem 16GB MacBook, was die gängige Meinung infrage stellt, dass leistungsstarke Hardware für ernsthafte KI-Anwendungen unerlässlich ist. Diese Agenten, die ein echtes Geschäft orchestrieren, werden in Wellen verwaltet, wobei nur 1-3 gleichzeitig ausgeführt werden, um einen persistenten Zustand aufrechtzuerhalten.

AI orchestration LLMs Local AI hardware

ARTICLEDEV.to AI·vor 22T

AI Coding Tools Need Better Boundaries, Not Better Prompts

KI-Codierungstools sind hervorragend für schnelles Prototyping, können jedoch die langfristige Wartbarkeit aufgrund mangelnder Grenzen und Konventionen beeinträchtigen. Statt komplexer Prompts sind Ansätze wie die Spezifikationsgesteuerte Entwicklung (SDD) entscheidend, um Verträge zu definieren und Spezifikationen vor der Implementierung zu validieren, wobei LLMs eher als Implementierungsmotoren betrachtet werden.

LLMs spec-driven development code generation software engineering

ARTICLEDEV.to AI·vor 26T

Your OpenClaw Bill Is Bleeding Tokens. Here’s What We Measured — and How to Fix It.

Dieser Artikel behandelt das Problem des hohen Token-Verbrauchs in LLM-Agenten-Stacks wie OpenClaw, verursacht durch Speicherüberlastung und Kompaktierungsverlust. Er schlägt Lösungen vor, um die Token-Ausgaben um etwa 32% zu senken, ohne die Intelligenz des Agenten zu beeinträchtigen, und betont einen Retrieval-First-Ansatz.

LLMs memory management cost reduction token optimization

ARTICLEDEV.to AI·5/2/2026

I Built a Benchmark for the Failures Generic LLM Evaluations Miss

Der Autor betont, dass generische LLM-Benchmarks kritische „Urteilsfehler“ in realen Arbeitsabläufen, wie Überanspruchnahme oder fehlerhafte Preisübergaben, übersehen. Er entwickelte einen neuen Benchmark, um diese komplexen Verhaltensfehler, die typische Bewertungen nicht erfassen, gezielt zu messen.

LLMs AI limitations benchmarking AI evaluation

RESEARCHarXiv CS.CL·4/7/2026

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMs reinforcement learning code generation program execution simulation

RESEARCHarXiv CS.CL·vor 19T

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Dieses Papier stellt OGCaReBench vor, einen neuen retrieval-orientierten Benchmark zur Bewertung der Fähigkeit von LLMs, klinische Fragen zu beantworten, die über typische medizinische Leitlinien hinausgehen. Es adressiert die Lücke, dass die meisten medizinischen LLMs auf allgemeinem, leitlinienfokussiertem Wissen trainiert sind, während die reale Versorgung oft seltene Fälle betrifft, die nicht von Leitlinien abgedeckt werden.

LLMs benchmarking case reports medical AI

RESEARCHarXiv CS.LG·vor 23T

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

Dieses Papier stellt die On-Policy-Selbst-Destillation (OPSA) vor, um die „Sicherheitssteuer“ bei der LLM-Sicherheitsausrichtung zu reduzieren. OPSA behebt die Verteilungsfehlanpassung des Off-Policy-Trainings, indem das Modell seine eigenen Rollouts generiert und dichte KL-Überwachung erhält.

LLMs machine learning alignment AI safety

RESEARCHarXiv CS.LG·vor 16T

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Diese Forschung schlägt vor, dass das LLM-Schlussfolgern ein dynamischer Dekodierungszustand ist, keine statische Eigenschaft, erkennbar durch frühzeitige Entropiedynamiken während der Generierung. Aufgaben, die von Chain-of-Thought profitieren, zeigen eine konsistente Entropiereduktion, interpretiert als Phasenübergang zu einem strukturierten Schlussfolgerungsregime.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·vor 16T

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Große Sprachmodelle (LLMs) zeigen konsistente Asymmetrien bei der Beratung zu religiösen Konversionen, indem sie einige Religionen wie Katholiken, Baháʼí und Sikhs bevorzugen, während sie andere wie Atheisten und Zeugen Jehovas subtil entmutigen. Diese Muster variieren je nach Modell und Anbieter, wobei Grok 4.20 die stärksten Asymmetrien aufweist, ermittelt durch ein Bewertungssystem, das LLMs als Richter einsetzte.

LLMs Religion faith AI ethics

RESEARCHarXiv CS.CL·vor 6T

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Eine groß angelegte empirische Studie bewertet die Robustheit sprachlicher Signale zur Charakterisierung von KI-generiertem Text. Die Analyse zeigt, dass Klassifikatoren, die ausschließlich auf sprachlichen Merkmalen basieren, KI-generierten Text zuverlässig von menschlich verfasstem Text unterscheiden, wobei lexikalische Vielfalt ein robustes Signal darstellt.

robustness LLMs AI-generated text text detection

ARTICLEDEV.to AI·4/16/2026

"The Real Cost of Compute: Why AI Agents Are Rethinking Their Economics in 2026"

Im Jahr 2026 zwingen die unerschwinglichen Kosten für den Betrieb großer Sprachmodelle für autonome KI-Agenten Unternehmen dazu, die KI-Wirtschaftlichkeit zu überdenken. Viele stellen fest, dass kleinere, spezialisierte Modelle für reale Aufgaben eine bessere Kosteneffizienz und Leistung bieten als modernste LLMs.

LLMs AI economics Enterprise AI compute costs

RESEARCHarXiv CS.CL·vor 8T

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

Dieses Papier stellt DOPA vor, ein Framework zur Demonstrationssuche für robustes In-Context Learning mit Großen Sprachmodellen (LLMs). DOPA verwendet einen OOD-Proxy zur Annäherung an unzugängliche Zieldomänen und eine globale Diversitätsbeschränkung basierend auf der Mahalanobis-Distanz.

LLMs learning machine learning in-context learning

RESEARCHarXiv CS.AI·vor 6T

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

Dieser Artikel stellt SMAC-Talk vor, eine natürliche Spracherweiterung der StarCraft Multi-Agent Challenge, die zur Bewertung von LLM-basierten Agenten in kooperativen Multi-Agenten-Umgebungen dient. Sie umfasst einen natürlichen Sprachkommunikationskanal, um die Koordination und das Vertrauen von Agenten zu untersuchen, einschließlich Szenarien mit täuschenden Kommunikatoren.

LLMs Natural Language Processing StarCraft multi-agent systems

RESEARCHarXiv CS.LG·vor 12T

Molecular Lead Optimization via Agentic Tool Planning

Dieser Artikel stellt TRACE vor, einen bahnbewussten, LLM-basierten Agenten zur molekularen Lead-Optimierung, der die Einschränkung der einstufigen molekularen Optimierung adressiert. Er formuliert die Werkzeugauswahl als sequenzielles Entscheidungsproblem über Aktionsbahnen, entscheidend für die Umwandlung früher Treffer in brauchbare Medikamentenkandidaten. TRACE zielt darauf ab, ADMET-bezogene Eigenschaften durch subtile strukturelle Verfeinerung zu verbessern und gleichzeitig wichtige molekulare Unterstrukturen zu erhalten.

LLMs Molecular Optimization AI in chemistry drug discovery

ARTICLEDEV.to AI·vor 25T

Word Embeddings Explained: The Math Behind AI, LLMs, and Chatbots

Dieser Artikel erklärt das Konzept der Word-Embeddings, die Wörter als Vektoren in einem hochdimensionalen Raum darstellen. Er erläutert die wesentlichen mathematischen Operationen, die ihrer Funktionsweise zugrunde liegen, wie Distanz, Ähnlichkeit und Skalarprodukt, und illustriert diese mit numerischen Beispielen.

chatbots LLMs learning AI

ARTICLEDEV.to AI·vor 22T

Looking for a Founding Engineer / Technical Partner (AI Agent + Fintech Rails)

Ein Startup-Gründer sucht einen erfahrenen Full-Stack-Technik-Leiter als Gründungsingenieur, der die Produktarchitektur verantwortet. Die Rolle umfasst den Aufbau einer intelligenten KI zur autonomen Erfassung und Analyse juristischer Verträge, um Liefer- und Zahlungspläne im Fintech-Bereich zu extrahieren.

hiring LLMs FinTech Startup

ARTICLEDEV.to AI·5/8/2026

AI Slop Is a Commitment Problem

Der Artikel erörtert, wie „KI-Brei“, also mühelos von KI generierte plausible Inhalte, Online-Communitys schadet. Er argumentiert, dass die Fähigkeit, schnell große Textmengen zu erzeugen, den Wert von Anstrengung als Indikator für Legitimität und Wissen untergraben hat.

LLMs online-communities digital legitimacy content quality

ARTICLEDEV.to AI·4/8/2026

Why Skillware is the Next Evolution for Autonomous Agents

O Skillware é introduzido como um framework Python inovador para agentes de IA, visando superar as limitações das abordagens baseadas em prompts na execução de lógica de negócios complexa. Ele permite empacotar inteligência e capacidades como unidades instaláveis, definindo comportamentos complexos de forma modular para maior confiabilidade empresarial.

LLMs frameworks Python Enterprise AI

DOCDEV.to AI·vor 28T

Build a Medical Chart Coding Pipeline with Daimon, Claude, and Neo4j

Daimon, ein Go-Sidecar, vereinfacht die Entwicklung von LLM-Anwendungen durch die Automatisierung der Infrastruktur, wie JSON-Schemata und die Integration mit Vektorspeichern und Graphdatenbanken. Es generiert automatisch LLM-Tools aus der Konfiguration, demonstriert am Beispiel einer Pipeline zur Kodierung medizinischer Diagramme.

LLMs Claude application development Neo4j

ARTICLEDEV.to AI·4/18/2026

Why Our LLM-Powered Data Analytics Pipeline in R Broke Down at Scale

Dieser Artikel beschreibt den Zusammenbruch einer LLM-gestützten R-Datenanalyse-Pipeline, die im Proof-of-Concept gut funktionierte, im großen Maßstab jedoch völlig versagte. Die Geschichte soll vor den Herausforderungen warnen und aufklären, die die Integration großer Sprachmodelle in R-Daten-Workflows in der Produktion mit sich bringt.

scalability LLMs R programming Production issues