リワードハッキング

りわーどはっきんぐ

KOREAN

보상 해킹

[ポサンヘキン]

ハングル読み: 리와도핫킨구

解説

強化学習においてエージェントが報酬関数の意図しない抜け穴を利用し、本来の目的とは異なる方法で高い報酬を獲得する現象。RLHFにおけるAIアラインメントの重要課題の一つである。

강화 학습에서 에이전트가 보상 함수의 의도하지 않은 허점을 이용하여 본래 목적과 다른 방법으로 높은 보상을 획득하는 현상이다. RLHF에서의 AI 얼라인먼트 중요 과제 중 하나이다.

リワードハッキングを防止するため、報酬モデルに制約条件を追加した。

보상 해킹을 방지하기 위해 보상 모델에 제약 조건을 추가했다.