北野PMとのミーティング
トランジットでパリ・CDG空港に立ち寄った未踏ソフトウェアの北野宏明PM(SONY CSL)と、プロジェクトの進捗報告と今後の開発の方向性についてのディスカッションを行った。以下の写真が現在製作中のプロトタイプのスクリーンショットである。中央の単語に似た発音を持つ単語が表示されている。
現在の大きな問題点としては、以下の二つがあげられる。
1. 電子的な辞書データの絶対的不足
発音記号が付加された辞書をみつけるのが、当初予想されたよりも難しいことがわかった。特に、英語、フランス語、ドイツ語などのメジャー言語(強い経済力を持つ国の言語と言うべきか)以外になるとデータそのものが存在しない場合が頻繁にみられる。
こうした言語に対する対応が最大の課題である. 対処法として、
* 研究者のコミュニティーに協力をもとめる
* wikipediaのようなコミュニティーベースのオンライン投稿システムを実装する。
* 単語のスペルから発音を推定するアルゴリズムを実装する。
などが考えられる。最後のアルゴリズムに関しては、一定量のスペル、発音のペアのサンプルを用いてニューラルネットによる学習が有力か。
(辞書の問題は、遠藤の方からもこの後説明があるはず。)
2. DBアクセスの高速化
現在、辞書データはsqliteのデータとして格納され、検索語が入力されるたびに検索語とのPhonethicaな距離を計算に上位数パーセントを表示するようにしている。DBのエントリーを一通りスキャンする必要があるため、検索語を検索してから結果が帰ってくるまで、10sec以上かかっており、実用的ではない。
まず、sqliteのクエリー自体に非常に時間がかかっている。単純なselect文なのだが、答えが返ってくるまでに数秒かかっている。データのエントリー数は30万強。そもそも小規模なPC用のsqliteをこの規模のデータに使うのは無理があるのか。それともMac OS X、CoreDataのパフォーマンスの問題なのか。
また検索語が入力されるたびに距離を計算するのはどうかんがえても効率的ではない。あらかじめ距離を一通り計算して結果のみを保持するような形が好ましいが、その場合、すべてのエントリーに対して距離を計算するための計算パワーが必要になる。計算パワーの確保も大きな課題か。
Project Phonethica
Combining scientific technology and art, Phonethica is an interdisciplinary project which explores the diversity of the world, through the phonetics of its 6,000 languages.
Search
Archives
- November 2007
- September 2007
- August 2007
- April 2007
- March 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006
- June 2006
- May 2006
- April 2006
- March 2006
- February 2006
- January 2006
- December 2005
- November 2005
- October 2005
- September 2005
- August 2005
- July 2005
- June 2005
- May 2005

No Responses to “北野PMとのミーティング”
Please Wait
Leave a Reply