音声認識(作成中メモ)

2003.5.24

アイボはアイボウェアやR-CODEで音声認識を実装している。これはソフトウェアで実現しているものであるため、OPEN-Rでは実装されていない。つまり、OPEN-R上で音声認識を行なうには自分でプログラムを作り、音声認識オブジェクトを作る必要がある。

音声認識は一般に入力された音をスペクトル分析し、その時系列の変化を捉えて認識する。多大な計算を必要とし、多くの研究者が取り組んでいる課題である。

一般的な音声認識の技術を上げると、

  1. 周波数スペクトルの抽出にはFFT・ケプストラム・音響成分の分離・ケプストラム平均除去による正規化などを行なう。
  2. 時系列によるスペクトルの変化は隠れマルコフモデル(HMM)により、モデル化し、もっとも確率が高いモデルを認識する。
  3. 子音と母音のつながり部分の調音成分があるため、CVC(子音+母音+子音)などの単位で認識するトライフォンモデルなどが認識率が高い。
  4. 言語データベースなどと照合し、照合対象を絞り込むことにより認識率の向上を行なう。

といった技術が使われている。

今回は認識の簡単な母音に注目し、母音のみを認識する音声認識オブジェクトを開発する。これは上に上げた技術のうち、項1の内容で実現することができる。