DICTサーバで使えるデータは専用のフォーマットに変換されたデータのみ。可読なデータに戻すために、dictunformatコマンド(shell script)がlinux環境用に用意されている(逆にフォーマットへの変換には dictfmtを使う)。dictunformat、dictfmtは、dictdのパッケージに含まれている(ftp://ftp.dict.org/pub/dict/ から、最新のdictdパッケージをダウンロードする.

パッケージ全体のインストールは通常の手順を踏めばなんなく行える。

./configure -> make -> sudo make install   



各辞書データは、登録されている単語のインデックス .indexファイルと実際の単語の定義などが書かれた、.dictファイルからなる。以下、英独辞典の場合を例にとって、辞書データのアンフォーマットの方法を示す。

辞書データの解凍

dictzip -d eng-deu.dict.dz



アンフォーマット

dictunformat eng-deu.index < eng-deu.dict > eng-deu-dict.txt

dictunformatは indexファイルを引数としてstdinに 解凍したdictファイルを入力として受け、stdoutに結果を出力する(最後の出力先ファイル名は任意)。

実は、.dictデータの段階で可読なデータ? unformatしたものとの違いがよくわからない….


No Responses to “DICT辞書データ”  

  1. No Comments

Leave a Reply