逆強化学習・模倣学習の基礎と応用

逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。　熟練者のうまみ=「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、逆最適制御とも呼ばれる。　本セミナーでは、逆強化学習の基盤となる数理的な問題設定の基本を説明するとともに、講師の研究室での経験を踏まえ、初学者が陥りがちな課題を整理し、逆強化学習アルゴリズムの実装方法やどのように適用するかに焦点をあて、説明を進めていく。その次に逆強化学習の応用事例を幅広く紹介する予定である。特に強化学習の実応用で問題となる報酬関数の設計など、明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動のモデル化を中心とした話題を提供したいと考えている。例えば状況に応じた運転経路・目的地予測、人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などを紹介する予定である。最後に、逆強化学習が抱える課題を共有し、この分野の発展につながればと考えている。

機械学習・制御における逆強化学習の位置づけ
1. 機械学習における位置づけ
2. 最適制御との接点
3. 逆強化学習の応用分野・従来の時系列データ解析との違い
機械学習の基礎 (概要)
1. 識別的な機械学習の一般的な定式化
2. 正則化付き経験損失最小化
3. 典型的な識別問題 (分類・回帰) の例
4. 逆強化学習における問題設定
時系列データのモデリング : マルコフ決定過程と最適制御
1. 時系列データモデリング
  - マルコフ過程・動的システム
2. 報酬と紐付く時系列データモデリング
  - マルコフ決定過程
3. 報酬関数最大化問題
  - 最適制御
  - 最適政策
4. ベルマン方程式・価値反復法
逆強化学習
1. 逆強化学習の定式化
2. 逆強化学習の損失関数の設計
3. 逆強化学習のパラメータ最適化
逆強化学習の適用
1. 逆強化学習の実装
2. 研究事例から学ぶ逆強化学習の適用事例
  1. マルコフ決定過程 (状態空間・行動) の設計の実例
  2. 報酬関数設計の実例
逆強化学習の最近の話題
- 逆強化学習の高速化
- 高次元化
- 文脈の活用
- マルチエージェント問題
- 深層学習との融合
- 落穂拾い
まとめ

ライブ配信セミナーについて

本セミナーは「Zoom」を使ったライブ配信セミナーとなります。
お申し込み前に、視聴環境とテストミーティングへの参加手順をご確認いただき、テストミーティングにて動作確認をお願いいたします。
開催日前に、接続先URL、ミーティングID、パスワードを別途ご連絡いたします。
セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。
ご自宅への書類送付を希望の方は、通信欄にご住所・宛先などをご記入ください。
タブレットやスマートフォンでも受講可能ですが、機能が制限される場合があります。
ご視聴は、お申込み者様ご自身での視聴のみに限らせていただきます。不特定多数でご覧いただくことはご遠慮下さい。
講義の録音、録画などの行為や、権利者の許可なくテキスト資料、講演データの複製、転用、販売などの二次利用することを固く禁じます。
Zoomのグループにパスワードを設定しています。お申込者以外の参加を防ぐため、パスワードを外部に漏洩しないでください。
万が一、部外者が侵入した場合は管理者側で部外者の退出あるいはセミナーを終了いたします。

逆強化学習・模倣学習の基礎と応用

日時

プログラム

受講料

ライブ配信セミナーについて