RESEARCH27

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

arXiv CS.AI·22 de abril de 2026

ARES apresenta uma estrutura para lidar com as fraquezas sistêmicas em LLMs alinhados por RLHF, onde modelos de recompensa imperfeitos falham em penalizar comportamentos inseguros. Ele usa um "Safety Mentor" para red-teaming adaptativo, descobrindo e mitigando essas vulnerabilidades duplas tanto no LLM quanto no seu Modelo de Recompensa.

LLMs reinforcement learning security

Ler original ↗