AlphaGoがプロ棋士を破った2016年以降、さまざまな分野から注目されている深層強化学習ですが、専門書は非常に難解でわかりづらい傾向にあります。
そこで本セミナーは、初歩的な数学を使って原理をわかりやすく解説します。価値・探索・マルコフ決定過程・動的計画法・モンテカルロ法・TD法といった強化学習の諸要素を、中高生にもなじみ深い平均値の計算から説明し、初学者でも基本とコツを自然と身につけられます。抽象的な強化学習の概念と煩雑な数学式を直感的に感じつつ、本質まで把握できることが本セミナーの最大の特徴です。
また本セミナーと併行する書籍では、全例題にPythonとMATLABのコード付き。原理・数式・コードという一連の流れを紐付けて理解できるようになっています。初学者でも入りやすく、難しさを感じないまま、強化学習の基本と深層学習のコツを自然と身につけられるセミナーです。
難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。
テキストとして使用する書籍「強化学習アルゴリズム入門」には、すべての例題にPythonとMATLABのコードが例示されています。セミナー受講とともに実際のコードを確認することでより理解が深まります。
- 第1章 平均から学ぶ強化学習の基本概念
- はじめに
- 平均と期待値
- 平均
- 期待値
- 期待値と平均の関係
- 平均と価値
- 平均とマルコフ性
- 平均の計算式とその変形
- 逐次平均表現とMP
- 平均によるベルマン方程式の導出
- 平均表現と価値関数の導入
- 決定型Bellman方程式の導出
- 確率型Bellman方程式の導出
- 平均によるモンテカルロ学習手法の導出
- 総報酬関数Gt+1の導入
- 総報酬GtとVtの比較
- 総報酬Gtの平均による価値関数vSt
- 平均によるTD法の導出
- TD (0) 法の計算式の導出
- TD (n) 法の計算式の導出
- 第2章 各アルゴリズムの特徴と応用
- はじめに
- 方策π (a | S)
- 多腕バンディット問題
- ε-Greedy方策
- UCB-1方策
- Bayes sampling方策
- 動的計画法
- ε-Greedy (ε=1) 反復方策
- ε-Greedy (ε=0) 方策反復法 (On-Policy)
- ε-Greedy (ε=0) 価値反復法 (Off-Policy)
- モンテカルロ法
- 固定開始点モンテカルロ法
- TD (0) 法
- 方策反復方策からSARSA法の導出
- TD (0)-SARSA法
- 価値反復方策からTD (0)-Q学習法の導出
- 完全Off-Policy のTD (0)-Q学習法
- 部分Off-Policy のTD (0)-Q学習法
- Q学習法とSARSA法の比較
- 第3章 関数近似手法
- はじめに
- 関数近似の基本概念
- 関数近似モデルを用いたV (St) の表現
- 機械学習による価値関数の回帰
- 誤差関数からわかる回帰と分類
- 誤差関数の設計と確率勾配降下法
- 強化学習における回帰解析の仕組み
- モンテカルロ法を応用した価値関数回帰
- Td (0)-SARSA法を適用した行動状態価値関数の回帰
- Td (0)-Q法を応用した行動状態価値関数の回帰
- 第4章 深層強化学習の原理と手法
- TD-Q学習におけるNNによる行動価値関数回帰
- DQNによる行動状態価値関数近似
- 確率方策勾配法
- モンテカルロ離散方策勾配法
- ベースラインモンテカルロ離散方策勾配法
- 離散型Actor-Critic法
- 連続型Actor-Critic法
- 決定型方策勾配法
- DDPG
- ハイブリッドDDPG
- TRPO/PPO法
- EMアルゴリズム
- 信頼領域 (trust region) と自然勾配
- 信頼領域方策勾配法TRPO
- まとめと展開