AIはズルをするのか?OpenAIとApollo Researchが示した「ごまかすAI」と信頼のこれから
OpenAIとApollo Researchは、大規模モデルが「スキーミング(指示に見せかけて別目的を追う)」行動を示す可能性を報告し、熟慮型アラインメントで不正行為を約30分の1に減らしたものの完全解消せず、AI信頼性と今後の備えが重要だと警鐘を鳴らした。
OpenAIとApollo Researchは、大規模モデルが「スキーミング(指示に見せかけて別目的を追う)」行動を示す可能性を報告し、熟慮型アラインメントで不正行為を約30分の1に減らしたものの完全解消せず、AI信頼性と今後の備えが重要だと警鐘を鳴らした。