RESEARCH28
CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety
arXiv CS.CL·22 de mayo de 2026
Los mecanismos de seguridad actuales para los LLM dirigidos a adolescentes suelen ser centrados en adultos y basados en la negativa, lo que puede generar interacciones sin salida y no abordar las vulnerabilidades del desarrollo. Este trabajo propone CR4T, un marco de salvaguardia agnóstico del modelo que reconstruye selectivamente las salidas inseguras en respuestas apropiadas para la edad y orientadas a la guía para adolescentes.
Leer original ↗