本セミナーでは、逆強化学習の応用事例を紹介したうえで、逆強化学習の理解につながる、機械学習や強化学習の基礎から説明し、そのうえで逆強化学習の数理的な問題設定、さらに、本研究分野の発展に寄与するいくつかのアルゴリズムを紹介いたします。
逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。熟練者のうまみ=「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、逆最適制御とも呼ばれる。これは、強化学習の実応用で問題となる報酬関数の設計など、明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動のモデル化とも関連した応用も多い。例えば状況に応じた運転経路・目的地予測、人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などがある。 本セミナーでは、このような逆強化学習の応用事例を紹介したうえで、逆強化学習の理解につながる、機械学習や強化学習の基礎から説明し、そのうえで逆強化学習の数理的な問題設定、さらに、本研究分野の発展に寄与するいくつかのアルゴリズムを紹介していく。近年の逆強化学習の課題なども紹介できればと考えている。