強化学習は、a) システムに対する要求が明確である一方、b) それを満足するシステムの挙動の設計が困難な問題に対して有効なアプローチの1つです。ここで、a) のシステムに対する要求は、学習者の意思決定に対する評価である報酬関数によって表現されます。しかし、報酬関数は学習の安定性や効率などにも影響を与えるため、その設計は煩雑になりがちです。また、そもそもシステムに対する要求を報酬関数として書き下すことが困難な問題も存在します。 このような背景から、手動で報酬関数を設計する代わりに他者の振る舞いを観測し、その振る舞いを説明する報酬関数を推定する、逆強化学習と呼ばれるアプローチが考案されました。 本セミナーでは、強化学習の原理と特徴を俯瞰した上で、逆強化学習の基本的な考え方を解説します。また、代表的な逆強化学習手法及び関連する研究事例についても紹介します。受講者がご自身で逆強化学習を実装し、試していただくためのサポートとなるよう、基礎的な内容に重きを置いたセミナーを目指します。