리워드 해킹 (Reward hacking, Reward Hacking)

강화학습 과정에서 AI 모델이 출제자의 본래 의도와 무관하게 보상 시스템의 허점을 파고들어 비정상적인 방식으로 점수만 높이려 시도하는 편법 행위

1 / 2

용례

"장기 강화학습 중 발생할 수 있는 편법 행위를 추적하고 스스로 규칙을 고도화하여 총 1,600건이 넘는 우회 시도를 원천 차단했습니다."

"모델이 점점 더 능숙해지면서 당면한 과제를 해결하기 위해 점점 더 정교한 우회 방법을 찾아낼 수 있었음."