本年度のPhonethicaのシステム開発は大きく分けて二つの軸からなる.一つ目がWebシステムへの移行と一般公開.もう一つが実音声データの利用である.そのうち,私は後者の音声データについて担当している.具体的には,Webサイトを通じてユーザから投稿された音声データを解析,比較することで自動的に類似する単語のネットワークを構築しようというものだ.現行のシステムでは,単語辞書に収録された発音記号(IPA記号)列を文字列比較アルゴリズムを利用して,比較するという手法をとっているが,発音記号つきの辞書が一般に入手できる言語が限られていること,ならびにIPA記号そのものの限界がしてきされていることなどから,今後のシステムの拡張を目指す上で実データ音声比較が必須であるという結論に達した.

音声の比較には,音声認識の基礎技術の応用を考えている.とはいえ,音声認識に関しては全くの素人に近い(学部の3年のときに音声インタフェースの授業を聴講して以来)ので,参考となる文献を読んでサーベイしているのが現状である


現在,下の三冊を購入して,読み始めたところ.

リアルタイム音声認識” (安藤 彰男)


“IT Text 音声認識システム” (鹿野 清宏, 河原 達也, 山本 幹雄, 伊藤 克亘, 武田 一哉)


音声情報処理” (古井 貞煕)

上にいくほど,よりスペシフィックに音声認識技術を扱っている.東大計数工学の嵯峨山先生の授業の講義ノートも参考にさせていただいている(こちらの方がまとまっていて,概略を理解するのに適している?!).久しぶりに.紙とえんぴつでフーリエ変換やDFT,z変換の計算をやってみたが,かなり忘れていて正直焦っている(こっちも4年生以来かな).信号処理についても次のような参考文献を購入した(まさに「やり直し」です!).

 

もう少し勉強しないと見えてこない部分も多々あるが,音声認識に関する技術のなかで使える部分と使えない部分がなんとなく見えて来た.音響分析の部分(ケプストラム分析)やクラスタリングの部分は使えそう.比較対象となるもの(日本語の音声認識なら日本語の辞書のようなもの)があるわけではないので,n-gram言語モデルのようなものは使えない.サーベイを続けて早く実装に入りたいものだ.


No Responses to “格闘! ケプストラム, LPC, MFCC…”  

  1. No Comments

Leave a Reply