DICT辞書データ
DICTサーバで使えるデータは専用のフォーマットに変換されたデータのみ。可読なデータに戻すために、dictunformatコマンド(shell script)がlinux環境用に用意されている(逆にフォーマットへの変換には dictfmtを使う)。dictunformat、dictfmtは、dictdのパッケージに含まれている(ftp://ftp.dict.org/pub/dict/ から、最新のdictdパッケージをダウンロードする.
パッケージ全体のインストールは通常の手順を踏めばなんなく行える。
./configure -> make -> sudo make install
各辞書データは、登録されている単語のインデックス .indexファイルと実際の単語の定義などが書かれた、.dictファイルからなる。以下、英独辞典の場合を例にとって、辞書データのアンフォーマットの方法を示す。
辞書データの解凍
dictzip -d eng-deu.dict.dz
アンフォーマット
dictunformat eng-deu.index < eng-deu.dict > eng-deu-dict.txt
dictunformatは indexファイルを引数としてstdinに 解凍したdictファイルを入力として受け、stdoutに結果を出力する(最後の出力先ファイル名は任意)。
実は、.dictデータの段階で可読なデータ? unformatしたものとの違いがよくわからない….
Project Phonethica
Combining scientific technology and art, Phonethica is an interdisciplinary project which explores the diversity of the world, through the phonetics of its 6,000 languages.
Search
Archives
- November 2007
- September 2007
- August 2007
- April 2007
- March 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006
- June 2006
- May 2006
- April 2006
- March 2006
- February 2006
- January 2006
- December 2005
- November 2005
- October 2005
- September 2005
- August 2005
- July 2005
- June 2005
- May 2005
No Responses to “DICT辞書データ”
Please Wait
Leave a Reply