音声認識技術の基礎と、その応用である対話処理を中心に、音声言語処理について解説する。まずは基礎を知り、そのうえで応用システムなどの構築を考えていく。
近年、深層学習に基づくパターン認識技術が急速な進展を見せているのに伴い、音声認識の性能も劇的に進化した。さらには、言語処理などの記号処理の分野にも深層学習は成果を上げており、音声言語というパターンと記号を融合した分野でも進展している。それらの最新技術についても触れる。
- 音声生成のメカニズム
- 発声器官と音声
- 声帯と調音器官
- モデルで見る発声
- 工学からみた発声器官 – ソース・フィルタモデル -
- 発声器官形状推定としての音声認識
- 音声認識のための信号処理
- 音声の取り込み
- 音声のサンプリング
- A/D変換
- 短時間分析
- 窓かけ
- 短時間フーリエ変換
- 発声器官形状情報の取り出し – スペクトル包絡の推定 -
- フィルタ=スペクトル包絡
- フィルタバンク分析
- メルフィルタバンク分析
- MFCC (Mel – Frequency Cepstral Coefficients) の導出
- デルタ係数の利用
- 隠れマルコフモデル (Hidden Markov Model; HMM) による音声認識
- ベクトル量子化
- ベクトル量子化と量子化誤差
- LBGアルゴリズム
- 音声特徴量系列のラベル系列への変換
- 離散分布型HMM
- HMMとは
- HMMによる音声認識
- 連続分布型HMM
- 離散分布から連続分布へ
- 認識アルゴリズムと学習アルゴリズム
- 連続音声認識
- WFSTによる音声認識システム
- 音声認識の最新動向 – Deep Neural Network (DNN) との融合 -
- 音声認識におけるDeep Neural Network (DNN)
- 特徴抽出器としてのDNN – TANDEM法 -
- 出力確率推定器としてのDNN – DNN – HMM法 -
- DNN – HMMとGMM – HMMの比較
- 音声認識技術の今後の動向 – End – to – end音声認識に向けて -
- 音声認識の応用事例 – 過去から将来まで -
- 自動車内インタフェース
- テレビ字幕制作システム
- CALLシステム
- 音声検索 – 音声ドキュメント処理 -
- 音声対話システム – 一問一答から知的処理まで -
- 音声認識・音声対話・音声言語の今後
- まとめ