逆強化学習

第1部逆強化学習の基礎知識
1. マルコフ決定過程
  - 平均とマルコフ性 (MP)
  - 逐次平均表現とMP
  - マルコフ報酬過程
  - マルコフ決定過程
2. Bellman方程式の導出:
  - 平均から決定型Bellman方程式の導入:
  - 平均表現と価値関数の導入:
  - 確率型Bellman方程式の導出:
    1. 行動状態価値関数の導入:
    2. 確率型ベルマン方程式の導出
    3. 遷移確率関数 T (r ( S’) , S‘│s,a ) の極意
    4. グリッドワード問題の応用
3. 動的計画法
  - ε = 1-Greedy反復方策
  - ε = 0-Greedy方策反復法 (On-Policy)
  - ε = 0-Greedy価値反復法 (Off-Policy)
4. 逆強化学習の基本概念の導入
  - 報酬関数の定義
  - 報酬関数による価値関数の推定
第2部逆強化学習の解法:線形計画最適化逆強化学習手法
1. 線形計画最適化逆強化学習手法の導入
2. 線形計画逆強化学習手法の定式化
3. 線形計画逆強化学習手法のコーディング要領
4. 線形計画逆強化学習手法の応用事例の紹介
第3部逆強化学習の解法:最大エントロピー逆強化学習手法
1. 関数近似の基本概念
2. 関数近似モデルを用いた報酬の表現
3. 機械学習による報酬関数の回帰
4. 最大エントロピーを取り入れた報酬誤差関数の設計
5. 熟練者による行動確率教師データの生成
6. 最大エントロピー逆強化学習手法のコーディング要領
7. 最大エントロピー逆強化学習手法の応用事例の紹介
第4部逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
1. 深層NN (neural network) の導入
2. 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
3. 熟練者による状態頻度教師データの生成
4. 深層NN最大エントロピー逆強化学習手法のコーディング要領
5. 深層NN最大エントロピー逆強化学習手法の応用事例の紹介
第5部逆強化学習の展望と関連技術の紹介

逆強化学習

日時

プログラム

会場

受講料