世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現。このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。
AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。本セミナーはこのような現状を踏まえセミナーの構成を工夫。まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。そして、いよいよ後半では「最前線:深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。
様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。本セミナーを通して「強化学習」とその先にある「深層強化学習」の基本知識と応用情報を入手し、ぜひ研究やビジネスの現場で活用して頂ければ幸いです。
- 第1部 はじめに
- 強化学習の基本概念
- 多腕バンディット問題をわかりやすく説明
- 強化学習における探索と利用のジレンマ
- 多腕バンディット問題の解法をわかりやすく説明
- 平均報酬という概念について
- 平均報酬を更新するための式の導きかた
- Epsilon-greedy
- 最適初期値設定法
- UCB1
- Bayesian/Thompson 法の詳細
- 簡易デモ (python) :Gridworld (上記4種類解法の実行:直感的に理解する)
- 第2部 基本概念-マルコフ決定過程 (MDP) の基本原理のポイント
- 確率過程
- マルコフ性とは
- マルコフ鎖とは
- MDPの定義と式の導き方
- 方策πの定義と価値関数の対応関係
- 状態価値関数[V (s) ]におけるベルマン方程式をわかりやすく説明
- 状態行動価値関数[Q (s,a) ] におけるベルマン方程式をわかりやすく説明
- 簡易演習デモ (python) 1:Gridworld (式を理解するために)
- 最適状態価値関数 V* (s) のポイント
- 最適状態行動価値関数 Q* (s,a) のポイント
- 最適状態価値関数 V* (s) と最適状態行動価値関数 Q* (s,a) の相互関係
- ベルマン最適性方程式の導きかた
- 簡易デモ (python) 2:Gridworld (式を理解する)
- ディスカッション:最適性と近似性について
- 第3部 中核 強化学習におけるMDP問題の解法
- 動的計画法の解説と入門:
- 反復法による価値関数を求める:ランダム方策 vs 固定方策
- 最適な方策の探索手法をわかりやすく説明
- 方策反復法による最適状態価値関数を求める
- 遷移確率を考慮した方策反復法による最適状態価値関数を求める
- 価値反復法による最適状態価値関数を求める
- 簡易デモ (python) :Gridworld (4種類解法の実行と結果比較:概念を理解する)
- Monte-Carlo (MC) 法をわかりやすく解説
- モデル法とモデルフリー法のちがい
- 経験に基づく学習手法のポイント
- MC法と多腕バンディットの内在関連性
- 状態価値関数・行動状態価値関数と平均報酬との関係
- MC法による状態価値関数の求め方とポイント
- MC法による最適状態行動価値関数 Q (s,a) の求め方とポイント
- 簡易デモ (python) :Gridworld (2種類MC法の実行と比較:概念を理解する)
- TD学習手法のポイントと入門
- TD (0) 法の説明と式の導きかた
- SARSA法の説明と式の導きかた
- Q-学習法の説明と式の導きかた
- On-PolicyとOff-Policyを詳しく説明
- 簡易デモ (python) :Gridworld (3種類TD法の実行と比較:概念を理解する)
- 第4部 拡張ー強化学習における関数近似手法とは (入門編)
- Tabular法 (表形式手法) と近似解法のちがい
- 回帰モデルと誤差関数をあらためて復習
- 最急降下勾配法とMC法との関連性をわかりやすく説明
- 疑似勾配 (Semi-Gradient) とは
- 簡単な線形回帰モデルに基いたMC法による状態価値関数 V (s,θ) を求める
- 簡単な線形回帰モデルに基いたTD (0) 法による V (s,θ) を求める
- 簡単な線形回帰モデルに基いたSARSA法による V (s,θ) を求める
- 簡易デモ (python) :Gridworld (回帰近似MDP解法の実行:直感的理解)
- 第5部 最前線 深層強化学習の基本概念と最重要ポイント
- 簡易型ニューラルネットワークを応用したQ-学習手法の説明
- 深層Q-学習 (DQN) の基本ポイント
- 連続動作空間における強化学習のポイント
- 方策勾配法の基本と式の導き方
- ガウシアン型行動確率分布の導入
- 方策勾配法による連続動作空間における強化学習の簡易説明
- 深層Actor-Critic法の基本と実行のコツ
- 簡易実演デモ (python) : Mountain car, Cartpole, Atariなど (概念の理解)
- 第6部 応用 強化学習と深層強化学習の応用事例
- ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介
- 電気制御素子のパラメーター探索における強化学習の応用事例紹介
- 蓄電池充放電制御における強化学習の応用事例紹介
- 太陽光発電の変動制御における強化学習の応用事例紹介
- 簡易実演デモ (python) : (応用の可能性と効果を議論する)