古典的AIでは問題解決を「診断型」と「計画型」に大別してきた。深層学習は前者、すなわち、対象の「認識」や「分類」を担うアルゴリズムである。近年注目されているAlphaGo、そして自動運転の問題を考えてみると、状態を認識し、その状態に最適な行動を選択する必要がある。第2世代のAIでは、この状態と行動の対を「If (状態) then (行動) 」のルールとして、人間の専門的知識を知識ベース化しヒューリスティクス (発見的知識) などと呼んだ。しかし、この種の知識獲得は困難を極め、ルールの優先順位を決める重みづけに限界があった。そこで登場したのが強化学習である。強化学習は「未知の環境での」行動獲得の手段であり、報酬というスカラー量さえ定義できれば、後は試行錯誤に委ねられる設計者フリー、モデルフリーであることが最大の売りである。 しかし、強化学習で所与とされる「報酬」、「状態空間」の設計が案外難しいことが実用を妨げている。
この流れの中で、深層学習がにわかに注目され、そこに強化学習を導入した深層強化学習によるAtariの成功を受けて、再度強化学習が注目されている。そこで、本セミナーでは、強化学習の理論的基礎、その応用として自動運転による交通流最適化を通じて状態の特徴空間や報酬の設計法として逆強化学習、模倣学習について解説する。
- 人工知能における問題解決
- 診断型と計画型
- 探索
- 論理的推論
- 演繹推論
- 帰納推論
- 強化学習の基礎
- モデリング
- 状態集合、行動集合、報酬
- 学習主体 (エージェント) の定義
- 環境との相互作用:報酬
- マルコフ決定過程
- 動的計画法
- 行動選択
- 環境との相互作用:報酬
- 強化学習:基本アルゴリズム
- 強化学習の分類
- ブートストラップ法
- モンテカルロ法
- 代表的な強化学習アルゴリズム
- TD学習
- Q学習
- Sarsa
- モンテカルロ法
- First – visit Monte Carlo, Every – visit Monte Carlo
- Profit Sharing
- 状態と行動
- 連続と離散
- Actor – Critic
- 行動選択
- 応用と課題
- 交通流最適化/マルチエージェントモデル
- 電力融通/マルチエージェントモデル
- 不完全知覚問題
- 報酬設計問題
- 逆強化学習
- 逆強化学習の基礎
- 状態遷移確率を用いる方法 (Ng)
- 模倣による方法 (Abbeel)
- 最新の逆強化学習アルゴリズム
- Maximum Entropy IRL
- Bayesian Non Parametric IRL
- 逆強化学習の応用と課題
- インセンティブの推定
- Active Forecast (行動予測)
- 応用と課題
- 交通流最適化/マルチエージェントモデル
- 電力融通/マルチエージェントモデル
- Feature Construction IRL: 状態空間と報酬の相互改善法
- 最近の話題
- 頑健性を実現する強化学習:生成モデル GAN
- 適応性を実現する強化学習:Bayesian Nonparametric IRL for Switched MDPs
- まとめ