格闘! ケプストラム, LPC, MFCC…
本年度のPhonethicaのシステム開発は大きく分けて二つの軸からなる.一つ目がWebシステムへの移行と一般公開.もう一つが実音声データの利用である.そのうち,私は後者の音声データについて担当している.具体的には,Webサイトを通じてユーザから投稿された音声データを解析,比較することで自動的に類似する単語のネットワークを構築しようというものだ.現行のシステムでは,単語辞書に収録された発音記号(IPA記号)列を文字列比較アルゴリズムを利用して,比較するという手法をとっているが,発音記号つきの辞書が一般に入手できる言語が限られていること,ならびにIPA記号そのものの限界がしてきされていることなどから,今後のシステムの拡張を目指す上で実データ音声比較が必須であるという結論に達した.
音声の比較には,音声認識の基礎技術の応用を考えている.とはいえ,音声認識に関しては全くの素人に近い(学部の3年のときに音声インタフェースの授業を聴講して以来)ので,参考となる文献を読んでサーベイしているのが現状である
![]()
“IT Text 音声認識システム” (鹿野 清宏, 河原 達也, 山本 幹雄, 伊藤 克亘, 武田 一哉)
上にいくほど,よりスペシフィックに音声認識技術を扱っている.東大計数工学の嵯峨山先生の授業の講義ノートも参考にさせていただいている(こちらの方がまとまっていて,概略を理解するのに適している?!).久しぶりに.紙とえんぴつでフーリエ変換やDFT,z変換の計算をやってみたが,かなり忘れていて正直焦っている(こっちも4年生以来かな).信号処理についても次のような参考文献を購入した(まさに「やり直し」です!).
もう少し勉強しないと見えてこない部分も多々あるが,音声認識に関する技術のなかで使える部分と使えない部分がなんとなく見えて来た.音響分析の部分(ケプストラム分析)やクラスタリングの部分は使えそう.比較対象となるもの(日本語の音声認識なら日本語の辞書のようなもの)があるわけではないので,n-gram言語モデルのようなものは使えない.サーベイを続けて早く実装に入りたいものだ.
Project Phonethica
Combining scientific technology and art, Phonethica is an interdisciplinary project which explores the diversity of the world, through the phonetics of its 6,000 languages.
Search
Archives
- November 2007
- September 2007
- August 2007
- April 2007
- March 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006
- June 2006
- May 2006
- April 2006
- March 2006
- February 2006
- January 2006
- December 2005
- November 2005
- October 2005
- September 2005
- August 2005
- July 2005
- June 2005
- May 2005
No Responses to “格闘! ケプストラム, LPC, MFCC…”
Please Wait
Leave a Reply