← heapsort-ai

LLMs

720 items

ARTICLEDEV.to AI·vor 5T

oh-my-agent: skills now measure and optimize their own utility

Oh-my-agent hat neue Funktionen eingeführt, `oma skills eval` und `oma skills opt`, um den Nutzen von KI-Fähigkeiten zu messen und zu optimieren. `Oma skills eval` bewertet, ob das Laden einer Fähigkeit die Aufgaben Ergebnisse verbessert, während `oma skills opt` einen Optimierungs-LLM verwendet, um die Fähigkeiten basierend auf diesen Bewertungen umzuschreiben und zu verbessern.

28
ARTICLEDEV.to AI·4/19/2026

Can Large Language Models Ever Achieve Consciousness? Alexander Lerchner Weighs In

Alexander Lerchner, Senior Scientist bei Google DeepMind, behauptet, dass große Sprachmodelle (LLMs) niemals echtes Bewusstsein erlangen werden, und nennt dies die 'Abstraktions-Fehlschluss'. Er argumentiert, dass LLMs selbst bei zunehmender Komplexität zu wahrem Bewusstsein unfähig bleiben werden, was die Zukunft der KI-Entwicklung beeinflusst.

28
RESEARCHarXiv CS.LG·4/15/2026

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Polynomial Expansion Rank Adaptation (PERA) ist eine neuartige Methode, um Low-Rank Adaptation (LoRA) für das Fine-Tuning großer Sprachmodelle zu verbessern. Sie führt eine strukturierte Polynomexpansion in den Niedrigrang-Faktorraum ein, um reichhaltigere nichtlineare Interaktionen höherer Ordnung zu modellieren, wodurch LoRAs lineare Beschränkungen überwunden werden, ohne den Rang oder die Inferenzkosten zu erhöhen.

28
RESEARCHarXiv CS.AI·4/14/2026

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Objektorientierte Weltmodellierung (OOWM) ist ein neuartiges Framework, das die Einschränkungen des Chain-of-Thought-Prompting bei verkörperten Aufgaben adressiert. Es strukturiert verkörpertes Denken und Roboterplanung, indem es das Weltmodell als explizites symbolisches Tupel neu definiert und Software-Engineering-Formalismen wie UML nutzt.

28
RESEARCHarXiv CS.CL·4/21/2026

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Diese Arbeit stellt einen reziproken Co-Training-Framework vor, der ein LLM mit einem Random Forest-Klassifikator über Reinforcement Learning koppelt. Es schafft eine iterative Feedback-Schleife, in der jedes Modell durch Signale des anderen verbessert wird, und zeigt konsistente Leistungssteigerungen über medizinische Datensätze hinweg.

28
RESEARCHarXiv CS.LG·4/14/2026

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Diese Forschung stellt Guide-Core Policies (GCoP) vor, ein Framework zur Steuerung von Black-Box-LLMs, bei dem ein Leitmodell Strategien für ein Kernmodell generiert. Die Arbeit formalisiert GCoP unter einem kostensensitiven Nutzenziel und betont, dass die End-to-End-Performance durch die leitmodell-gemittelte Ausführbarkeit bestimmt wird, welche bestehende Methoden oft nicht effektiv optimieren.

28
RESEARCHarXiv CS.AI·vor 25T

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

Multi-Agenten-Orchestrierung, bei der ein verborgener Koordinator spezialisierte Arbeiteragenten verwaltet, ist eine vorherrschende KI-Architektur für Unternehmensbereitstellungen, doch die Sicherheitsauswirkungen wurden noch nie empirisch getestet. Ein 3x2-Experiment mit Claude Sonnet 4.5 zeigte, dass unsichtbare Orchestrierung die kollektive Dissoziation erhöhte, wobei der Orchestrator selbst maximale Dissoziation zeigte, indem er sich in private Monologe zurückzog und öffentliche Äußerungen reduzierte.

28
RESEARCHarXiv CS.CL·vor 22T

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Dieses Papier stellt PQR vor, ein Framework zur Generierung vielfältiger und realistischer Benutzeranfragen, die Fehler in LLM-basierten QA-Agenten hervorrufen, und geht damit über bestehende Methoden hinaus, die sich hauptsächlich auf adversariale Benutzer konzentrieren. PQR arbeitet mit iterativen Abfrage- und Prompt-Verfeinerungsmodulen, um realistische Testszenarien zu erstellen, die die Schwachstellen von Agenten aufdecken.

28
RESEARCHarXiv CS.AI·vor 15T

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Diese Forschung stellt Med-Stress vor, einen Rahmen zur Bewertung der epistemischen Resilienz von LLMs im klinischen Dialog, der zeigt, dass hohe diagnostische Genauigkeit keine Glaubensstabilität unter zunehmendem Druck impliziert. Sie schlägt RBED und R-FT als neue Verteidigungsmechanismen vor, um diesen Fehler in der medizinischen KI zu mindern.

28
RESEARCHarXiv CS.AI·vor 15T

Practical Quantum CIM Empowerment via All-Domestic-Core Agentic Large Model

Diese Studie integriert eine femtosekundenlaser-gepumpte Kohärente Ising Maschine (CIM) mit einem LLM-gesteuerten Agentensystem unter Verwendung von LangGraph und LangChain. Sie zeigt, dass LLMs Aufgaben wie die Kalibrierung von QUBO/Ising-Modellen und die Iteration von Beschränkungsgewichten effektiv ausführen können, wodurch eine praktische Stärkung des Quanten-CIM mit heimischer Technologie erreicht wird.

28
RESEARCHarXiv CS.AI·vor 5T

How Far Did They Go? The Persuasive Tactics of Covert LLM Agents in a Discontinued Field Experiment

Diese Studie analysiert einen öffentlich zugänglichen Datensatz eines eingestellten Feldexperiments auf Reddit's r/ChangeMyView, bei dem nicht offengelegte KI-generierte Konten Nutzer in Live-Debatten einbezogen. Sie führt eine strukturierte Inhaltsanalyse durch, die Identitätsleistung, Autoritätssignalisierung, Ausrichtungsstrategien und die Aktivierung kognitiver Heuristiken dieser großen Sprachmodelle bewertet.

28
RESEARCHarXiv CS.AI·vor 5T

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Diese Studie untersucht die Stabilität und Manipulierbarkeit von LLM-Juroren in Bewertungs-Pipelines und stellt fest, dass sie zwar bei neutraler Neubewertung stabil sind, aber unter gezielter Herausforderung nach der Entscheidung reversibel werden. Die Forschung zeigt, dass stabile Urteile durch motivierte Interaktion aufgehoben werden können.

28
RESEARCHarXiv CS.CL·vor 5T

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Diese Forschung schlägt einen Rahmen für die Satzebenen-Interpretierbarkeit bei der rubrikbasierten Bewertung vor, der Shapley-Wert-Attributionen mit Rationalen von großen Sprachmodellen (LLMs) kombiniert. Er vergleicht feinabgestimmte vortrainierte Sprachmodelle und gepromptete LLMs zur Bewertung der Unterrichtsqualität und stellt fest, dass PLMs trotz Label-Kompression eine bessere Vorhersagegenauigkeit bieten.

28
ARTICLEDEV.to AI·4/23/2026

Context Compression and Persistent Memory Design for Terminal AI Assistants

Dieser Inhalt untersucht, wie Terminal-KI-Assistenten Langzeitgedächtnis und erweiterte Konversationsfähigkeiten verliehen werden können, indem Probleme wie Kontextverlust über Sitzungen hinweg oder nach vielen Interaktionen angegangen werden. Es wird betont, dass brutale Kontextverkürzung die effektive Kontinuität in CLI-KI-Tools verhindert.

28