トランジットでパリ・CDG空港に立ち寄った未踏ソフトウェアの北野宏明PM(SONY CSL)と、プロジェクトの進捗報告と今後の開発の方向性についてのディスカッションを行った。以下の写真が現在製作中のプロトタイプのスクリーンショットである。中央の単語に似た発音を持つ単語が表示されている。

Phonethica Screen

現在の大きな問題点としては、以下の二つがあげられる。

1. 電子的な辞書データの絶対的不足

発音記号が付加された辞書をみつけるのが、当初予想されたよりも難しいことがわかった。特に、英語、フランス語、ドイツ語などのメジャー言語(強い経済力を持つ国の言語と言うべきか)以外になるとデータそのものが存在しない場合が頻繁にみられる。

こうした言語に対する対応が最大の課題である. 対処法として、

* 研究者のコミュニティーに協力をもとめる

* wikipediaのようなコミュニティーベースのオンライン投稿システムを実装する。

* 単語のスペルから発音を推定するアルゴリズムを実装する。

などが考えられる。最後のアルゴリズムに関しては、一定量のスペル、発音のペアのサンプルを用いてニューラルネットによる学習が有力か。

(辞書の問題は、遠藤の方からもこの後説明があるはず。)

2. DBアクセスの高速化

現在、辞書データはsqliteのデータとして格納され、検索語が入力されるたびに検索語とのPhonethicaな距離を計算に上位数パーセントを表示するようにしている。DBのエントリーを一通りスキャンする必要があるため、検索語を検索してから結果が帰ってくるまで、10sec以上かかっており、実用的ではない。 

まず、sqliteのクエリー自体に非常に時間がかかっている。単純なselect文なのだが、答えが返ってくるまでに数秒かかっている。データのエントリー数は30万強。そもそも小規模なPC用のsqliteをこの規模のデータに使うのは無理があるのか。それともMac OS X、CoreDataのパフォーマンスの問題なのか。

また検索語が入力されるたびに距離を計算するのはどうかんがえても効率的ではない。あらかじめ距離を一通り計算して結果のみを保持するような形が好ましいが、その場合、すべてのエントリーに対して距離を計算するための計算パワーが必要になる。計算パワーの確保も大きな課題か。


No Responses to “北野PMとのミーティング”  

  1. No Comments

Leave a Reply