RESEARCHarXiv CS.CL·vor 18T
CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety
Aktuelle Sicherheitsmechanismen für große Sprachmodelle (LLMs) bei Jugendlichen sind oft erwachsenenzentriert und verweigern Antworten, was zu Sackgassen führen und entwicklungsspezifische Schwachstellen ignorieren kann. Diese Arbeit stellt CR4T vor, ein modellunabhängiges Schutzframework, das unsichere oder verweigernde Ausgaben selektiv in altersgerechte, beratungsorientierte Antworten für Jugendliche umwandelt.
28