動画像認識への統計的機械学習と深層学習の適用

本セミナーでは、音声と口唇動画像によるマルチモーダル音声認識において、時系列のモデル化に統計的機械学習と深層学習をどのように適用するかを解説いたします。

囲碁の分野でAlphaGoを開発した Google傘下のDeep Mindとオックスフォード大学が人間の読唇能力を上回る性能を実現したという論文を発表して、話題を呼んでいます。　そこで、本講義では、音声と口唇動画像によるマルチモーダル音声認識において、時系列のモデル化に統計的機械学習と深層学習をどのように適用するかを解説します。

マルチモーダル音声認識とは?
1. 音声と口唇動画像による音声認識の枠組み
2. 統計的機械学習によるマルチモーダル音声認識
3. 深層学習によるマルチモーダル音声認識
統計的機械学習
1. 隠れマルコフモデルとは?
2. 混合正規分布によるモデル化
3. EMアルゴリズムによるモデルパラメータの推定
4. 時系列としての音声と口唇動画像への適用
深層学習
1. 順伝播型ネットワーク
2. 誤差逆伝播法によるパラメータ推定
3. 畳込みニューラルネット
4. 再帰型ニューラルネット
5. 長・短期記憶 (LSTM)
6. コネクショニスト時系列分類法 (CTC)
口唇動画像認識の事例紹介
1. 自動車運転者を対象としたマルチモーダル音声認識
2. Deep Mindとオックスフォード大学の読唇研究

動画像認識への統計的機械学習と深層学習の適用

日時

プログラム

会場

受講料