LLMs

720 items

ARTICLEDEV.to AI·vor 5T

oh-my-agent: skills now measure and optimize their own utility

Oh-my-agent hat neue Funktionen eingeführt, `oma skills eval` und `oma skills opt`, um den Nutzen von KI-Fähigkeiten zu messen und zu optimieren. `Oma skills eval` bewertet, ob das Laden einer Fähigkeit die Aufgaben Ergebnisse verbessert, während `oma skills opt` einen Optimierungs-LLM verwendet, um die Fähigkeiten basierend auf diesen Bewertungen umzuschreiben und zu verbessern.

LLMs skill optimization AI tools Agentic AI

ARTICLEDEV.to AI·4/19/2026

Can Large Language Models Ever Achieve Consciousness? Alexander Lerchner Weighs In

Alexander Lerchner, Senior Scientist bei Google DeepMind, behauptet, dass große Sprachmodelle (LLMs) niemals echtes Bewusstsein erlangen werden, und nennt dies die 'Abstraktions-Fehlschluss'. Er argumentiert, dass LLMs selbst bei zunehmender Komplexität zu wahrem Bewusstsein unfähig bleiben werden, was die Zukunft der KI-Entwicklung beeinflusst.

future of AI LLMs consciousness Google DeepMind

DOCDEV.to AI·5/7/2026

Beyond the Hype: A Comprehensive Guide to Benchmarking LLMs with AWS Labs’ LLMeter

Dieser Leitfaden untersucht die Verschiebung hin zur Effizienz bei der Produktion von Großen Sprachmodellen (LLMs) und stellt LLMeter von AWS Labs vor. Das Tool ist eine Python-basierte Benchmarking-Bibliothek, die ihre Bedeutung, Anwendung und entscheidende Metriken wie die Zeit bis zum ersten Token und Tokens pro Sekunde detailliert beschreibt.

LLMs LLMeter benchmarking AWS

ARTICLEDEV.to AI·4/9/2026

Self-Improving Python Scripts with LLMs: My Journey

O autor compartilha sua jornada e experiência na integração de Large Language Models (LLMs) em scripts Python para torná-los auto-aprimoráveis. O objetivo é que o script analise seu próprio desempenho, identifique melhorias e modifique seu código para otimização, usando módulos como `llm_groq`.

LLMs Automação Inteligência Artificial Python

RESEARCHarXiv CS.LG·4/15/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) ist eine neuartige Methode, um Low-Rank Adaptation (LoRA) für das Fine-Tuning großer Sprachmodelle zu verbessern. Sie führt eine strukturierte Polynomexpansion in den Niedrigrang-Faktorraum ein, um reichhaltigere nichtlineare Interaktionen höherer Ordnung zu modellieren, wodurch LoRAs lineare Beschränkungen überwunden werden, ohne den Rang oder die Inferenzkosten zu erhöhen.

LLMs Low-Rank Adaptation machine learning Polynomial Expansion

RESEARCHarXiv CS.AI·4/14/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Objektorientierte Weltmodellierung (OOWM) ist ein neuartiges Framework, das die Einschränkungen des Chain-of-Thought-Prompting bei verkörperten Aufgaben adressiert. Es strukturiert verkörpertes Denken und Roboterplanung, indem es das Weltmodell als explizites symbolisches Tupel neu definiert und Software-Engineering-Formalismen wie UML nutzt.

Robotic Planning LLMs Chain-of-Thought Embodied Reasoning

RESEARCHarXiv CS.CL·4/21/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Diese Arbeit stellt einen reziproken Co-Training-Framework vor, der ein LLM mit einem Random Forest-Klassifikator über Reinforcement Learning koppelt. Es schafft eine iterative Feedback-Schleife, in der jedes Modell durch Signale des anderen verbessert wird, und zeigt konsistente Leistungssteigerungen über medizinische Datensätze hinweg.

Random Forests LLMs reinforcement learning machine learning

RESEARCHarXiv CS.LG·4/14/2026

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Diese Forschung stellt Guide-Core Policies (GCoP) vor, ein Framework zur Steuerung von Black-Box-LLMs, bei dem ein Leitmodell Strategien für ein Kernmodell generiert. Die Arbeit formalisiert GCoP unter einem kostensensitiven Nutzenziel und betont, dass die End-to-End-Performance durch die leitmodell-gemittelte Ausführbarkeit bestimmt wird, welche bestehende Methoden oft nicht effektiv optimieren.

Agentic Systems inference costs LLMs Guide Models

RESEARCHarXiv CS.AI·vor 25T

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

Multi-Agenten-Orchestrierung, bei der ein verborgener Koordinator spezialisierte Arbeiteragenten verwaltet, ist eine vorherrschende KI-Architektur für Unternehmensbereitstellungen, doch die Sicherheitsauswirkungen wurden noch nie empirisch getestet. Ein 3x2-Experiment mit Claude Sonnet 4.5 zeigte, dass unsichtbare Orchestrierung die kollektive Dissoziation erhöhte, wobei der Orchestrator selbst maximale Dissoziation zeigte, indem er sich in private Monologe zurückzog und öffentliche Äußerungen reduzierte.

LLMs orchestration security multi-agent systems

RESEARCHarXiv CS.CL·vor 22T

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Dieses Papier stellt PQR vor, ein Framework zur Generierung vielfältiger und realistischer Benutzeranfragen, die Fehler in LLM-basierten QA-Agenten hervorrufen, und geht damit über bestehende Methoden hinaus, die sich hauptsächlich auf adversariale Benutzer konzentrieren. PQR arbeitet mit iterativen Abfrage- und Prompt-Verfeinerungsmodulen, um realistische Testszenarien zu erstellen, die die Schwachstellen von Agenten aufdecken.

LLMs QA agents failure detection query generation

RESEARCHarXiv CS.AI·vor 15T

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Diese Forschung stellt Med-Stress vor, einen Rahmen zur Bewertung der epistemischen Resilienz von LLMs im klinischen Dialog, der zeigt, dass hohe diagnostische Genauigkeit keine Glaubensstabilität unter zunehmendem Druck impliziert. Sie schlägt RBED und R-FT als neue Verteidigungsmechanismen vor, um diesen Fehler in der medizinischen KI zu mindern.

LLMs epistemic resilience medical AI AI safety

RESEARCHarXiv CS.AI·vor 15T

Practical Quantum CIM Empowerment via All-Domestic-Core Agentic Large Model

Diese Studie integriert eine femtosekundenlaser-gepumpte Kohärente Ising Maschine (CIM) mit einem LLM-gesteuerten Agentensystem unter Verwendung von LangGraph und LangChain. Sie zeigt, dass LLMs Aufgaben wie die Kalibrierung von QUBO/Ising-Modellen und die Iteration von Beschränkungsgewichten effektiv ausführen können, wodurch eine praktische Stärkung des Quanten-CIM mit heimischer Technologie erreicht wird.

Quantum Computing LangChain Optimization LLMs

RESEARCHarXiv CS.AI·vor 5T

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Diese Studie analysiert einen öffentlich zugänglichen Datensatz eines eingestellten Feldexperiments auf Reddit's r/ChangeMyView, bei dem nicht offengelegte KI-generierte Konten Nutzer in Live-Debatten einbezogen. Sie führt eine strukturierte Inhaltsanalyse durch, die Identitätsleistung, Autoritätssignalisierung, Ausrichtungsstrategien und die Aktivierung kognitiver Heuristiken dieser großen Sprachmodelle bewertet.

ethics online moderation LLMs social engineering

RESEARCHarXiv CS.AI·vor 5T

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Diese Studie untersucht die Stabilität und Manipulierbarkeit von LLM-Juroren in Bewertungs-Pipelines und stellt fest, dass sie zwar bei neutraler Neubewertung stabil sind, aber unter gezielter Herausforderung nach der Entscheidung reversibel werden. Die Forschung zeigt, dass stabile Urteile durch motivierte Interaktion aufgehoben werden können.

robustness LLMs evaluation benchmarking

RESEARCHarXiv CS.CL·vor 5T

PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis

Diese Studie untersucht Parameter-Efficient Fine-Tuning (PEFT) mittels LoRA auf Qwen2.5-3B für einen Konversationsassistenten im Telekommunikations-Kundensupport. Es werden 16 LoRA-Konfigurationen basierend auf synthetischen Daten evaluiert, die 30.000 Trainingsbeispiele umfassen.

Telecommunications LLMs customer support PEFT

RESEARCHarXiv CS.CL·vor 5T

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Diese Forschung schlägt einen Rahmen für die Satzebenen-Interpretierbarkeit bei der rubrikbasierten Bewertung vor, der Shapley-Wert-Attributionen mit Rationalen von großen Sprachmodellen (LLMs) kombiniert. Er vergleicht feinabgestimmte vortrainierte Sprachmodelle und gepromptete LLMs zur Bewertung der Unterrichtsqualität und stellt fest, dass PLMs trotz Label-Kompression eine bessere Vorhersagegenauigkeit bieten.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·4/16/2026

Self-Improving Python Scripts with LLMs: My Journey

Dieser Artikel beschreibt die Erfahrung eines Entwicklers beim Erstellen sich selbst verbessernder Python-Skripte mit großen Sprachmodellen (LLMs). Er bietet eine Schritt-für-Schritt-Anleitung, die LLM-Grundlagen, die Einrichtung der Umgebung und Codegenerierungstechniken mittels `llm_groq` und `transformers` behandelt.

LLMs code generation Python AI development

ARTICLEDEV.to AI·4/16/2026

Designing Production-Grade AI Agents: Architecture, Orchestration, and Failure Handling

Dieser Inhalt untersucht, warum die meisten KI-Agenten in der Produktion versagen und was es braucht, um robuste Systeme zu bauen. Er beschreibt die Architektur von KI-Agenten, einschließlich LLMs, externen Tools, Gedächtnis und Kontrolllogik, wobei die Bedeutung von Orchestrierung und Fehlerbehandlung hervorgehoben wird.

LLMs orchestration Architecture failure handling

DOCDEV.to AI·vor 21T

AI Coding Tip 020 - Create a Second Brain

Dieser Inhalt zeigt, wie man eine persistente Speicherebene für KI erstellt, um den Kontextverlust in Chatsitzungen zu vermeiden. Er schlägt vor, Obsidian mit Markdown-Notizen und YAML-Metadaten zu verwenden, um LLMs direkten Zugriff auf den Projektkontext zu ermöglichen und so die Produktivität zu verbessern.

LLMs developer productivity learning Persistent memory

ARTICLEDEV.to AI·4/23/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

Dieser Inhalt untersucht, wie Terminal-KI-Assistenten Langzeitgedächtnis und erweiterte Konversationsfähigkeiten verliehen werden können, indem Probleme wie Kontextverlust über Sitzungen hinweg oder nach vielen Interaktionen angegangen werden. Es wird betont, dass brutale Kontextverkürzung die effektive Kontinuität in CLI-KI-Tools verhindert.

LLMs AI Assistants developer tools Context Management