Agentic AIのセキュリティ研究の焦点は、モデル単体の安全性から、計画立案、ツール利用、記憶保持、マルチエージェント協調を備えたシステム全体の安全性に移りつつある。LLMが有害な文章を生成しないだけでは足りず、エージェントが計画を立て、ツールを呼び出し、記憶を参照し、目標を適応的に更新する過程で、偶発的もしくは意図的に外部から操作されうるかどうかが重要になってきている。スタンフォード大学の研究結果(Cybench)は、ハッカーの技能コンテストに用いられるCTF(Capture The Flag)で最先端LLMが難問を瞬時に解くことを示し、能力評価と悪用リスク評価が不可分であることを明らかにしている。また、カーネギーメロン大学とアレン人工知能研究所の研究結果(OpenAgentSafety)は、ブラウザ、コード実行、ファイル系、bash、メッセージングを含む実ツール環境で350超の多ターン課題を整備し、現行モデルが高頻度に不適切行動を示すことを浮き彫りにすることで現在の対策技術の限界を明らかにし、より高度で堅牢な対策が必要であることを示している。本講演では、具体的な事例を交えながらAgentic AIセキュリティの脅威を理解し、脅威に対抗する萌芽的なアプローチを複数の先行研究を元に考察したい。