本セミナーでは、音声と口唇動画像によるマルチモーダル音声認識において、時系列のモデル化に統計的機械学習と深層学習をどのように適用するかを解説いたします。
囲碁の分野でAlphaGoを開発した Google傘下のDeep Mindとオックスフォード大学が人間の読唇能力を上回る性能を実現したという論文を発表して、話題を呼んでいます。 そこで、本講義では、音声と口唇動画像によるマルチモーダル音声認識において、時系列のモデル化に統計的機械学習と深層学習をどのように適用するかを解説します。