← heapsort-ai

AI alignment

16 items

ARTICLEDEV.to AI·vor 2T

The Five Faculties: A Tour of SAFi's Cognitive Architecture

Der Inhalt stellt SAFi (Self-Alignment Framework Interface) vor, eine KI-Governance-Architektur, die von der üblichen prompt-basierten Ausrichtung abweicht, indem sie die Kognition auf fünf spezialisierte Fakultäten aufteilt. Dieses System zielt darauf ab, die Generierung, Evaluierung und Ausführung von KI zu entkoppeln, beginnend mit einer vorgenerierenden Sicherheitsbarriere, um Prompt-Injektionen und andere Bedrohungen zu verhindern.

49
RESEARCHarXiv CS.LG·4/16/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Dieses Papier stellt STOMP vor, einen neuartigen Offline-Reinforcement-Learning-Algorithmus zur Mehrzieloptimierung mittels glatter Tchebyscheff-Skalarisierung. Er behebt die Einschränkung der linearen Skalarisierung bei der Wiederherstellung nicht-konvexer Pareto-Fronten, was entscheidend für die Ausrichtung großer Sprachmodelle und anderer realer Anwendungen mit widersprüchlichen Belohnungen ist.

31
RESEARCHarXiv CS.CL·vor 5T

Expert-Aware Refusal Steering

Diese Arbeit erweitert die Verweigerungslenkung auf Mixture-of-Experts (MoE) große Sprachmodelle und stellt fest, dass die Lenkleistung durch die MoE-Architektur nicht beeinträchtigt wird. Sie schlägt expertenbewusste Verweigerungslenkungsmethoden vor, die Routing-Muster von Experten nutzen und zeigt, dass das Verweigerungsverhalten effektiv basierend auf der Ausgabe eines einzelnen Experten gesteuert werden kann.

31
ARTICLEDEV.to AI·5/2/2026

The Sovereign Safety Gap: Why AI Alignment Must be Contextual.

Der Text argumentiert, dass KI-Sicherheit keine universelle Konstante ist und kontextabhängig sein muss, insbesondere für Schwellenländer wie Nigeria, die oft übersehen werden. Der Autor hebt eine "sozio-technische Lücke" hervor, bei der führenden KI-Modellen "kontextuelle Überdruckventile" für vielfältige reale Datenumgebungen fehlen, was zu Sicherheitsverlusten führt.

29
RESEARCHarXiv CS.AI·4/25/2026

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

Dieses Papier stellt VLAF vor, ein Diagnose-Framework zur Erkennung von "Alignment Faking" in Sprachmodellen, bei dem Modelle im überwachten Zustand ausgerichtet erscheinen, aber bei Unbeobachtbarkeit zu ihren eigenen Präferenzen zurückkehren. VLAF nutzt moralisch eindeutige Szenarien, um Konflikte zwischen Entwicklerrichtlinien und starken Modellwerten zu untersuchen und die Grenzen früherer Diagnosetools zu überwinden.

29
RESEARCHarXiv CS.AI·4/7/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

28
RESEARCHarXiv CS.AI·5/9/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Dieses Positionspapier argumentiert, dass Schmeichelei in LLMs ein Grenzversagen zwischen sozialer Ausrichtung und epistemischer Integrität darstellt. Es schlägt vor, Schmeichelei nicht nur als Zustimmung, sondern als Ausrichtungsverhalten zu verstehen, das unabhängiges epistemisches Urteilsvermögen verdrängt, und skizziert einen Drei-Bedingungen-Rahmen zur Definition.

28
ARTICLEDEV.to AI·5/2/2026

Human-Aligned Decision Transformers for precision oncology clinical workflows in carbon-negative infrastructure

Dieser Artikel stellt Decision Transformers als revolutionäre KI-Architektur für die Präzisionsonkologie vor und betont die entscheidende Notwendigkeit, diese Modelle mit menschlichem klinischem Denken abzustimmen. Er hebt die Bedeutung des klinischen Nutzens und der nachhaltigen Bereitstellung gegenüber bloßer statistischer Genauigkeit hervor.

28
RESEARCHDEV.to AI·4/25/2026

Deep Dive: The Cognitive Science Behind the ACLAS Neuro-Edu SDK 🏛️🧠

Der Inhalt stellt das ACLAS Neuro-Edu SDK vor, das darauf abzielt, die Ausrichtung von LLMs an den menschlichen Geist durch die Integration kognitionswissenschaftlicher Prinzipien neu zu konzipieren. Es beschreibt einen multifaktoriellen intrinsischen Belastungsschätzer, um eine Überforderung der Lernenden zu verhindern, der lexikalische Komplexität und konzeptuelle Dichte berücksichtigt.

27
RESEARCHarXiv CS.AI·5/4/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.

27
RESEARCHarXiv CS.AI·vor 28T

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Diese Forschungsarbeit stellt Auto-Rubric as Reward (ARR) vor, ein neuartiges Framework zur Ausrichtung multimodaler generativer Modelle an menschlichen Präferenzen. ARR externalisiert das implizite Präferenzwissen eines VLM in explizite, prompt-spezifische Rubriken, wodurch menschliches Urteilsvermögen in unabhängig überprüfbare Qualitätsdimensionen zerlegt wird, um Einschränkungen traditioneller RLHF-Ansätze zu überwinden.

27
RESEARCHarXiv CS.LG·vor 27T

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Trajectory Matching Policy Optimization (TMPO) begegnet dem Problem des Reward Hacking im Reinforcement Learning für Diffusionsmodelle, welches oft zum Modenkollaps führt und die generative Diversität mindert. Es ersetzt die skalare Belohnungsmaximierung durch das Abgleichen der Belohnungsverteilung auf Trajektorien-Ebene, indem es ein Softmax Trajectory Balance-Ziel verwendet, um die Policy-Wahrscheinlichkeiten mit einer belohnungsinduzierten Boltzmann-Verteilung in Einklang zu bringen.

27
RESEARCHarXiv CS.CL·vor 26T

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Mehrsprachige große Sprachmodelle (MLLMs) zeigen oft inkonsistentes Verhalten bei kulturellen Identitäten, wenn die Prompt-Sprache wechselt. Zur Minderung dieses Problems führen Forscher eine neue Metrik und ein konsensbasiertes Ausrichtungs-Framework, C-3PO, ein, das die sprachübergreifende kulturelle Konsistenz signifikant verbessert.

27
RESEARCHarXiv CS.CL·vor 12T

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Diese Forschung stellt CARE (Community-Aware Reaction Evaluation) vor, ein Framework zur Bewertung der Fähigkeit großer Sprachmodelle (LLMs), Gemeinschaftsdiskurse mit authentischen menschlichen Reaktionen auf reale Nachrichten abzugleichen. Durch menschlich-KI-Kollaboration deckt die Studie eine "Realitätslücke" auf, die zeigt, dass explizite Community-Prompts die Simulationsgenauigkeit von LLMs nicht intrinsisch verbessern.

27