RESEARCHarXiv CS.AI·4d atrás
Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges
Este estudo investiga a estabilidade e a manipulabilidade de juízes LLM em pipelines de avaliação, descobrindo que, embora sejam estáveis em reavaliações neutras, tornam-se reversíveis sob desafio pós-decisão. A pesquisa demonstra que julgamentos estáveis podem ser derrubados por interação motivada.
28