Archive for the 'Log-Nao Tokui' Category

もう一度Phonethicaについて整理してみます。

Phonethicaは「言語と文化の多様性に音をキーワードに迫る」ことを目的としたアートプロジェクトで、そもそもはアーティストの遠藤拓己さんが、2003年前後から構想を温めてきたものです。現在、IPA未踏ソフトウェアの資金援助を受け、遠藤さんと私の二人で制作に取り組んでいます。僕自身は、ソフトウェア開発全般とインタフェースのデザインを2005年の6月から担当しています (それまでのいきさつはこちらに書きました)。

Phonethicaとは何か、基本的な考え方は単純です。一言で言うと「世界の様々な言語の中から、似たような音を持つ単語をたくさん集めたらどうなるか?」ということになります。

そもそもこのプロジェクトを始めたきっかけはフランスでの日常生活の中にありました。フランス語の会話で非常に頻繁に使うフレーズとして、”ça va?” (サヴァ?)という挨拶があります。「元気?」といった意味の言葉なのですが、日本人の耳には “サバ?” つまり”鯖?”に聞こえませんか? 実は他の言語にも「サバ」という似たような発音を持つ単語があります。サバは、ロシア語では「フクロウ」、インドネシアのタバ語では「丸太」を意味するそうです(それぞれ厳密に言うと全く同じ発音ではありませんが)。今、この瞬間、東京の誰かがスーパーで「サバください」と言っている一方で、地球の裏側のパリの街角では、「サヴァ?」「トレビアン!」とビズしている人がいるわけです。そして、インドネシアでも…

というところで詰まってしまいました。「タバ語」? 僕はこのプロジェクトに参加するまで、恥ずかしながらタバ語という言語の存在すら知りませんでした。果たしてどんな人たちが話しているのでしょう? その人たちはどんな文化を持っているのでしょう? たった一つの「サヴァ」という音から、その音を持つ単語を含む言語、さらに言語の背景にある文化や地理などに想像が広がりました。これがまさにPhonethicaプロジェクトが目的とするところなのです。

抽象的なことばかり話していても仕方ないので、開発中の画面から簡単な例をお見せします。

ここでは、日本語の「平和」という単語に似た音を持つ単語がネットワーク上に表示されています。たとえば、ホームシック、郷愁という意味のオランダ語 “heimwee” (ヘイムワ)が、平和のすぐ近くに表示されていますね。さらに、上の方には、”haywire” (めちゃくちゃなという意味の英語 ヘイワイア) →「兵隊」というリンクも見えます。平和から、英単語を一つはさんでまったくイメージの異なる兵隊という単語につながっているというのが面白いですね。これらはすべて辞書の中の発音記号を基に、独自に開発したアルゴリズムで音の類似度を算出しているだけなのですが、なにかしら詩的なものを感じさせます。
もう一つ別の例として、「戦争」という単語の例をお見せしたいと思います。(戦争と”sense of being”が面白い)

以上、Phonethicaの理念と開発中の画面をお見せしました。まだまだ問題が山積しているのですが.. .それはまた次回書くことにします。

CoreDataのデータベースへのアクセスをマルチスレッドにするところで苦戦中。
シングルスレッドでは、検索クエリをかけている際にどうしても、ユーザインタフェースの動作がとまってしまう。UIをとめないで、バックグラウンドでDBからデータを取り出すようにしたいのだが、なかなかむずかしい。
MLの記事によると、スレッド間で同じNSManagedObjectContext内のNSManagedObjectにアクセスすることはできない、いいかえると、スレッドごとにNSManagedObjectContextを持たせる必要がある。スレッド間のやりとりは、ObjectIDを使って、対象となるNSManagedObjectを特定することができる。

/Developer/Examples/CoreData/BackgroundFetchingに例があるがかなりやっかいだ。一両日中にこの問題にけりを付けて、気持ちよく2006年を迎えたいものだ。

産業総合研究所でのミーティングに続いて、未踏ソフト北野PMに進捗状況の報告。
話題の中心は8月末のパリでのミーティングの後の作業の進捗で、ICHIMでの発表などについて、説明した。北野PMからは、音以外の情報を使って大きく異なるデータにジャンプする仕組み、例えば、「意味」によるリンクなどの可能性について指摘を受けた。データ検索のスピードについても、「やみくもにスピードアップすればいいというわけではなく、ある程度時間をかけることでユーザ側の”ワクワク感”を演出することも重要」という意見をいただいた。また、特許出願の可能性についても議論した。

徳井の帰国を利用して、筑波の産業総合研究所の音声情報処理グループの研究者の方々に対して、Phonethicaのプレゼンテーションを行い、専門の立場からアドバイスをいただいた。

こちら側の最大の懸念であった現在我々が使っている音声比較アルゴリズム(改めて詳しく述べる)の妥当性については、「工学的な用途を考えると精度の点でかなり問題があるが、”似たように聞こえる”音を持つ単語を探すというPhonethicaの目的を考えると、おおむね問題ない」という答えをいただいた。また、IPA記号ではなくサブ音声セグメント SubPhonetic Segment, SPS (IPAに準拠したXSAMPA記号系をベースにより細かい音響的セグメントに分割したもの) あるいは音声の弁別素性(音声弁別素性は、ある言語の中で、音と音とを区別するのに利用されている音声的特徴を列挙したもの。有声/無声, 閉鎖性などの各素性の有無の2値パラメータの集合で音を表す。参考文献)を比較することで、現在のアルゴリズムを拡張する形でさらに高い精度の検索の実現が見込めるという有益なアドバイスをいただいた。

一方でPhonethicaの基本的なコンセプトに関して、「音が『似ている』とは調音音声学/音韻論のいずれの意味なのか」という質問を受けた。聴音音声学(articulatory phonetics)とは、音声の生理的な産出法に基づいて、特定の言語に依存しない客観的な音声の分類法である。一方で、音韻論(phonology)は個別言語の観点から音声を分類/記述することを目指す(参考文献)。例えば、日本語のサ行の音は、聴音音声学的には、サ [sa], シ [ʃi], ス[sɯ], セ[se], ソ[so]と記述され、シとそれ以外のサ行の音は別の子音を持つ。しかし、日本語の話者にとっては、サ行の音はすべて同じ音韻(/s/)を持つように感じられる。調音的には大きく異なる lとr、あるいはbとvの音が、日本語の話者にとって似通って聞こえるのも、日本語の音韻体系が両者の区別を認めないために、脳における音声情報の処理過程が両者の違いを積極的に無視するように組織化されているためである。
Phonethicaでは、特定の言語によらず音の類似性を比較することを試みており、調音音声学的な音声表記であるIPA記号を利用している点からも、調音音声学的な類似性に着目しているといえる。しかし、実際にシステムを利用する人間側からいうと、似ている/似ていないという判断は、その人が無意識的に保持する音韻体系に基づくものであることが多い (Phonethicaの例でよく挙げる ça vaと鯖の類似性も音韻論的な類似である)。この音韻論/調音音声学の違いについては、今後の開発においても常に念頭に入れておく必要がありそうだ。

電子的な辞書データが不足している問題について、かねてから懸案のスペルから発音を予測するシステムの実現性については、十分なサンプル対(スペルと発音記号列)があれば、ニューラルネットなどの学習アルゴリズムを使って、学習させることが可能であり、実際に音声合成のためにそうした機構がつかわれることもあるとの回答をいただいた。ただ、現実的には各言語に対して学習を行うのは手間が大きすぎる、十分なサンプル対を集めるのが難しいとの指摘も受けた。実際の音声合成システムでも、やはりあらかじめ音声記号列を含んだ辞書を利用する場合がほとんどだそうだ(英語、日本語などのメジャー言語を対象にするため)。
このように、予測アルゴリズムの実装が難しいという前提に立ち、別の方法として、ネイティブの話者に発音してもらった音声を、音声認識技術をもとに音声記号化したものを利用するというアイデアをいただいた。データベースをWebサーバ上に移転し、Wikipedia的にユーザがデータの編集に参加できる方式を考えていたところだったので、音声認識 + Web DBへのアクセスを行うフロントエンドソフトウェアを開発、配布し、ネイティブスピーカの発音を反自動的にDBに反映させるという方法は実現性が高そうだ。
また関連研究として、だじゃれの研究 (滝澤修さん/情報通信研究機構)や一連の感性情報処理に関する研究を紹介していただいた。

貴重なお時間を割いていただいた音声情報処理グループの児島様、田中様に感謝いたします。

徳井

遅ればせながら音声学/音声工学の教科書を読む。

“岩波講座 言語の科学〈2〉音声” (田窪 行則, 窪薗 晴夫, 白井 克彦, 前川 喜久雄, 本多 清志) (岩波書店)

“言語の研究は文字言語に傾きがちであるが,最近では話し言葉の研究が重視され,コンピュータによる応用もめざましい.本書では,音声の産出から認識までのプロセス全体を,生物学的基礎から,音声学,音韻論,そしてコンピュータによる応用まで,重層的にとらえる.また,最適性理論など,音声の理論的研究の最新の成果を紹介する” (Amazon.co.jpより)

特に音韻論と音声学を対比させて説明している部分が秀逸。目から鱗!

“音声情報処理” (古井 貞煕) (森北出版)

“今後重要となる技術に重点をおいて,音声情報処理に関する基本的な知識と,最近の先端的アルゴリズムを総合的に網羅し,基礎から丁寧に解説した未来志向のテキスト.” (Amazon.co.jpより)

上の岩波の本の後半、技術的な枠組みに商店をしぼって解説した本。より工学よりの内容。

“音声工学” (赤羽 誠) (森北出版)

“音声情報処理の分野は多岐に渡り、その応用も音声ガイド、音声入力、音声データベースなど多様で、すでに実用化が始まっている.この点も踏まえ、メーカの方を共著に加え、主に音声合成、音声認識に関する基本的な事項を取り上げて教科書としてまとめた.” (Amazon.co.jpより)

未読…

“IT Text 音声認識システム” (鹿野 清宏, 河原 達也, 山本 幹雄, 伊藤 克亘, 武田 一哉) (オーム社)

“音声認識技術の中核となる大語彙連続音声認識(ディクテーション)システムに焦点を当て、その要素技術からアルゴリズム、プログラムや開発環境まで、読者が実際にシステムを作成できるように解説する。” (Amazon.co.jpより)

音声認識技術は入力された音声記号列とDBをマッチングして、最ももっともらしい(i.e., 似ている)エントリーを見つけるという意味で、Phonethicaの要素技術と関連が非常に深いことがわかった。


Project Phonethica

Combining scientific technology and art, Phonethica is an interdisciplinary project which explores the diversity of the world, through the phonetics of its 6,000 languages.