コンピュータによる音声の認識

本セミナーでは、音声認識がどのような仕組みで実現されているのか、基本的な原理から実用的なシステムの構成までを体系的に説明します。　さらに、国際的な研究者コミュニティにより活発な開発が進められている音声認識ツールキットKaldiと、それを用いた大語彙日本語音声認識システムについて紹介します。

音声認識の基本原理
1. 音声コミュニケーションの仕組み
2. 音声の分析と音響特徴量
3. 統計的音声認識の枠組み
4. 確率分布とベイジアンネット
音声のモデル化
1. 音響モデル
  - 隠れマルコフモデル (HMM)
2. 言語モデル
  - 単語ネットワーク
  - N-gram
3. ニューラルネットを用いた音響モデル・言語モデル
音声認識器の構築
1. 重みつき有限状態トランスデューサ (WFST)
2. WFSTによる単語ネットワーク、N-gram、HMMの表現
3. 合成演算による認識器の構築
4. 探索
音声モデルの学習
1. 最尤推定
2. 最大事後確率推定
3. ベイズ法
4. ノンパラベイズと教師なし学習
Kaldiツールキット
1. ツールキットの入手とインストール
2. 音声コーパス
3. CSJレシピと大語彙日本語音声認識
まとめと将来展望
1. まとめ
2. 音声研究の展望

日時