深層強化学習の基本・最新アルゴリズムと応用

再開催を依頼する / 関連するセミナー・出版物を探す
会場 開催

本セミナーは、強化学習の基礎から解説し、深層強化学習について例題と動画、デモを通してわかりやすく解説いたします。

日時

開催予定

プログラム

2016年、世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。また昨年、AlphaGoのシリーズにAlphaGo Zero とAlphaZeroが現れ、人間の経験を使用せずscratchから強くなるという典型的な強化学習手法が学術産業界から一層注目を集めています。AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方々にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。  本セミナーはこのような現状を踏まえ、深層強化学習の基本と応用において下記をポイントに講義の内容を構成しました。

 これまで、延120人に深層強化学習を含めた強化学習の入門講義を実践した経験を元に、様々な背景を持つ受講者のみなさんにとって「どこが難しく感じるのか」あるいは「どこをもっと説明してほしいのか」を配慮。目的に合わせて、理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。

  1. 第1部 はじめに
    1. 強化学習の基本概念
    2. 強化学習・深層学習および深層強化学習の特徴と違い
    3. 深層強化学習により可能となること
    4. 強化学習における探索と利用のジレンマ
    5. 多腕バンディット問題の解法をわかりやすく説明
      • Epsilon-greedy
      • 最適初期値設定法
      • UCB1
      • Bayesian/Thompson 法の詳細
    6. 簡易デモ (python) :Gridworld (上記4種類解法の実行:直感的に理解する)
  2. 第2部 基本概念:マルコフ決定過程 (MDP) の基本原理のポイント
    1. マルコフ性とは
    2. 平均という簡単な概念からMDPを学ぶ
    3. MDPの定義と式の導き方
    4. 状態遷移確率と行動確率の違い
    5. 価値関数V (s) と状態行動価値関数[Q (s,a) ]の定義
    6. 簡易演習デモ (python) 1:Gridworld (式を理解するために)
    7. 最適状態価値関数V_* (s) のポイント
    8. 最適状態行動価値関数Q_* (s,a) のポイント
    9. 簡易デモ (python) 2:Gridworld (式を理解する)
    10. ディスカッション:最適性と近似性について
  3. 第3部 中核:強化学習におけるMDP問題の解法
    1. 動的計画法の解説と入門
      • 最適な方策の探索手法をわかりやすく説明
      • 方策反復法による最適状態価値関数を求める
      • 価値反復法による最適状態価値関数を求める
      • 簡易デモ (python) :Gridworld (4種類解法の実行と結果比較:概念を理解する)
    2. Monte-Carlo (MC) 法をわかりやすく解説
      • モデル法とモデルフリー法のちがい
      • MC法による最適状態行動価値関数Q (s,a) の求め方とポイント
      • 簡易デモ (python) :Gridworld (2種類MC法の実行と比較:概念を理解する)
    3. TD学習手法のポイントと入門
      • SARSA法の説明と式の導きかた
      • Q-学習法の説明と式の導きかた
      • On-PolicyとOff – Policyを詳しく説明
      • 簡易デモ (python) :Gridworld (3種類TD法の実行と比較:概念を理解する)
  4. 第4部 拡張:強化学習における関数近似手法とは (入門編)
    1. Tabular法 (表形式手法) と近似解法のちがい
    2. 回帰モデルと誤差関数をあらためて復習
    3. 最急降下勾配法とMC法との関連性をわかりやすく説明
    4. 疑似勾配 (Semi-Gradient) とは
    5. 簡単な線形回帰モデルに基いたMC法による状態価値関数V (s,θ) を求める
    6. 簡単な非線形回帰モデルに基いたTD (0) 法によるV (s,θ) を求める
    7. 簡単な非線形回帰モデルに基いたSARSA法によるV (s,θ) を求める
    8. 簡易デモ (python) :Gridworld (回帰近似MDP解法の実行:直感的理解)
  5. 第5部 最前線:深層強化学習の基本概念と最重要ポイント
    1. 簡易型ニューラルネットワークを応用したQ-学習手法の説明
    2. 深層Q-学習 (DQN) の基本ポイント
    3. 連続動作空間における強化学習のポイント
    4. 方策勾配法の基本と式の導き方
    5. ガウシアン型行動確率分布の導入
    6. 方策勾配法による連続動作空間における強化学習の簡易説明
    7. 深層Actor-Critic法の基本と実行のコツ
    8. 確率方策勾配法と決定的方策勾配の比較
    9. 決定的方策勾配DDPGの長所と短所について分析
    10. 簡易実演デモ (python) : Mountain car, Cartpole, Atariなど (概念の理解)
  6. 第6部 応用:強化学習と深層強化学習の応用事例
    1. 蓄電池充放電制御における強化学習の応用事例
    2. 混合整数計画問題における深層強化学習応用事例
    3. PID制御素子における強化学習の応用事例

会場

東京流通センター
143-0006 東京都 大田区 平和島6-1-1
東京流通センターの地図

受講料

複数名同時受講の割引特典について