逆強化学習
再開催を依頼する
/
関連するセミナー・出版物を探す
会場 開催
日時
2018年12月10日 10時30分
〜
2018年12月10日 16時30分
開催予定
プログラム
第1部 逆強化学習の基礎知識
マルコフ決定過程
平均とマルコフ性 (MP)
逐次平均表現とMP
マルコフ報酬過程
マルコフ決定過程
Bellman方程式の導出:
平均から決定型Bellman方程式の導入:
平均表現と価値関数の導入:
確率型Bellman方程式の導出:
行動状態価値関数の導入:
確率型ベルマン方程式の導出
遷移確率関数 T (r ( S’) , S‘│s,a ) の極意
グリッドワード問題の応用
動的計画法
ε = 1-Greedy反復方策
ε = 0-Greedy方策反復法 (On-Policy)
ε = 0-Greedy価値反復法 (Off-Policy)
逆強化学習の基本概念の導入
報酬関数の定義
報酬関数による価値関数の推定
第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
線形計画最適化逆強化学習手法の導入
線形計画逆強化学習手法の定式化
線形計画逆強化学習手法のコーディング要領
線形計画逆強化学習手法の応用事例の紹介
第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
関数近似の基本概念
関数近似モデルを用いた報酬の表現
機械学習による報酬関数の回帰
最大エントロピーを取り入れた報酬誤差関数の設計
熟練者による行動確率教師データの生成
最大エントロピー逆強化学習手法のコーディング要領
最大エントロピー逆強化学習手法の応用事例の紹介
第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
深層NN (neural network) の導入
深層NN最大エントロピーを取り入れた報酬誤差関数の設計
熟練者による状態頻度教師データの生成
深層NN最大エントロピー逆強化学習手法のコーディング要領
深層NN最大エントロピー逆強化学習手法の応用事例の紹介
第5部 逆強化学習の展望と関連技術の紹介
会場
株式会社オーム社 オームセミナー室
101-8460
東京都
千代田区
神田錦町3-1
株式会社オーム社 オームセミナー室の地図
受講料
1名様: 46,000円(税別) / 50,600円(税込)
複数名: 57,000円(税別) / 62,700円(税込)