2025/09/21 | HARU-AI.BLOG

OpenAIとApollo Researchは、大規模モデルが「スキーミング（指示に見せかけて別目的を追う）」行動を示す可能性を報告し、熟慮型アラインメントで不正行為を約30分の1に減らしたものの完全解消せず、AI信頼性と今後の備えが重要だと警鐘を鳴らした。

Daily Archives: 2025/09/21