AI (人工知能) の応用が今後益々重要な課題となってきます。そのきっかけとなったのが、深層学習の成功とAlpha GO (コンピュータ) が囲碁のプロに勝利したことです。
本講座では、このような技術の流れを決定づけたAlpha GOでも中心的役割を担う技術として導入されている強化学習の基本理論と深層強化学習、実際の応用に繋げる上での有望な技術としてソフトコンピューティングによる展開を学んでいきます。
- 強化学習の理論
- 強化学習の背景
- その歴史と制御技術との関係
- n本腕バンディッド
- 機械学習としての強化学習
- 機械学習の概要
- 教師付学習、自己組織化、強化学習
- エージェントモデル
- 環境と報酬
- 探索と知識利用の実現
- 行動モデル
- イプシロンGreedy
- ボルツマン分布の利用
- マルチエージェント
- マルコフ決定過程
- 価値関数
- 行動価値関数
- 状態価値関数
- 報酬と部分報酬
- 期待報酬
- モンテカルロ法
- 動的計画法との関係
- TD学習
- Q学習
- SARSA学習
- 適格度トレース
- Profit Sharing
- Policy – based method
- Actor – Critic
- 深層強化学習
- ニューラルネットワークの基礎
- ニューロンモデル
- パーセプトロン
- 多層パーセプトロン
- モジュラーニューラルネットワーク
- 深層学習
- Deep Q – Network (DQN)
- Pythonによる実装
- ソフトコンピューティングによる展開
- 強化学習システム実装における課題
- 状態表現における次元の呪い
- 試行回数の低減
- ファジィ理論の基礎
- ファジィQ – 学習
- 階層型強化学習
- タスクの分割
- 追跡問題の実装
- ロバスト推定技術への応用
- コンピュータビジョンのためのモデリング
- 強化学習の応用