Archive for July, 2005

夕方,Beaubourgのカフェにて4405氏,徳井氏とミーティング.
4405氏はパリ在中の都市文化に関する研究者で,同時に,自他共に認める言語フェチ(ちかごろはクレオール語の習得にいそしむ日々らしい).ミーティングでは,プロジェクト全般に対して氏ならではの興味深い意見を聞くことができた.

遠藤拓己

徳井氏と定例ミーティング.ソフトウェア開発に関する意見のすりあわせとインスタレーションに関するアイデア交換など.いいかんじ.

遠藤拓己

DAAD Berlin BuroのIngrid Beirer氏とPhonethicaの2006年以降の展開についてミーティング.
いくつかとても魅力的なオファーがあり.それらを踏まえたスペシフィックなプロポーザルを纏めることを約束.

遠藤拓己

Corpus言語学

03Jul05

CorpusについてのMemo_01

ICAME Collection
http://spraktek.aksis.uib.no/projects/icame

ELRA
http://www.elra.info

LDC
http://www.ldc.upenn.edu

EDR
http://www2.nict.go.jp/kk/e416/EDR/J_index.html

IPAL
http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html

PELCRA Project
http://pelcra.ia.uni.lodz.pl/intro_en.php

コーパス研究に有用なWebsite一覧
http://muse.doshisha.ac.jp/corpus/

ICAME Collection
英語コーパスを研究する言語学者及び情報科学者の国際組織(ICAME: International Computer Archive of Modern and Medieval English)が収集・管理・配布しているコーパス及びコーパス分析プログラム集.ノルウェーのベルゲンにあるNorwegian Computing Center for the Humanityを本部とし, 1977年に設立されたICAMEは,ICAME Journalを発行すると共に,コーパスをCD-ROMで領府している.1999年に発行されたICAME CORPUS COLLECTION CD-ROM第2版には,Brown Corpus, LOB Corpus, London-Lund Corpus等の20種類,1700万語以上のコーパスとともに,WordCruncher, WordSmith等のコーパス分析プログラムが収録されている.(研究社応用言語学事典より)

ELRA (European Language Resources Association)
ヨーロッパにおけるコーパス等の言語資料の開発・検証・流通を促進し,情報の中心となることを目的として1995年に設立された非営利組織.パリに本部を置き,言語資料を多様な用途で利用・開発する政府機関,企業等を支援し,EU資本による言語資源を収集・集積・配布し,他地域の同様組織との窓口となる.言語資料の配付組織であるELDA (European Language Resources Distribution Agency)を設置し,コーパス,音声データベース,ソフトウェア等の言語資源の配布や関連する法的問題の対処も担当する.他の業務にはニュースレターの発行.製品カタログの発行,情報提供などがある.(同上)

LDC (Linguistic Data Consortium)
言語資源(データ,ツール,規格)を開発・共有することにより,言語関連の教育,研究,技術開発を支援することを目的として1992年に設立された研究開発組織.ペンシルベニア大学に本部を置き,大学,企業,研究所が参加する組織で,コーパス等の言語資源を開発・収集・配布する,他組織のプロジェクトによる言語資源の配布を仲介すると共に,LDC自身のプロジェクトによる言語資源と配布をしている.配布方法にはCD-ROMでの配布と,ホームページでのオンラインでの公開の両方がある.Penn Treebankの編纂,電話会話コーパスの開発プロジェクトが充実している.1993年以降,毎年15セット以上のコーパスを公開し,音声データが利用できるものもある.一部のデータは非会員でも利用可能である.(同上)

EDR Corpus
日本電子化辞書研究所(Japan Electric Dictionary Research Institute: EDR)が公開する日本語と英語のコーパスである.EDRコーパスは,約20万分の日本語コーパスと,約12万文の英語コーパスから構成される.これは新聞や雑誌から集められたもので,形態素,構文・意味情報などが付与されたデータである.EDR電子化辞書中の「日本語共起辞書」「英語共起辞書」の付録として収められている.EDR電子化辞書は,「単語辞書(日本語:26万語:英語:19万語)」「対訳辞書(日英:23万語,英日:16万語)」「概念辞書(40万概念)」「共起辞書(日本語:90万語,英語:46万語)」「専門用語辞書(日本語:12万語,英語:8万語,他)」から構成され,CD-ROMに収められている.(同上)

IPAL
情報処理推進機構(IPA)が公開する電子化辞書「計算機用日本語基本動詞辞書IPAL (Basic Verbs)」「計算機用日本語基本形容詞辞書IPAL (Basic Adjectives)」「計算機用日本語基本名詞辞書IPAL (Basic Noun)」の3種ある.これは,日本語語彙体系上,使用頻度上重要と考えられる基本的な動詞(861語),形容詞(136語),名詞(1081語)に,形態,意味,統語,慣用表現の情報を付与したものである.これらのデータは,上記冊子本の他に,無償でダウンロードできるFTP版と,有償のCD-ROM版でも利用できる.(同上)

PELCRA Project
The PELCRA Project […]


Project Phonethica

Combining scientific technology and art, Phonethica is an interdisciplinary project which explores the diversity of the world, through the phonetics of its 6,000 languages.