Corpus言語学

03Jul05

CorpusについてのMemo_01

ICAME Collection

http://spraktek.aksis.uib.no/projects/icame

ELRA

http://www.elra.info

LDC

http://www.ldc.upenn.edu

EDR

http://www2.nict.go.jp/kk/e416/EDR/J_index.html

IPAL

http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html

PELCRA Project

http://pelcra.ia.uni.lodz.pl/intro_en.php

コーパス研究に有用なWebsite一覧

http://muse.doshisha.ac.jp/corpus/

ICAME Collection

英語コーパスを研究する言語学者及び情報科学者の国際組織(ICAME: International Computer Archive of Modern and Medieval English)が収集・管理・配布しているコーパス及びコーパス分析プログラム集.ノルウェーのベルゲンにあるNorwegian Computing Center for the Humanityを本部とし, 1977年に設立されたICAMEは,ICAME Journalを発行すると共に,コーパスをCD-ROMで領府している.1999年に発行されたICAME CORPUS COLLECTION CD-ROM第2版には,Brown Corpus, LOB Corpus, London-Lund Corpus等の20種類,1700万語以上のコーパスとともに,WordCruncher, WordSmith等のコーパス分析プログラムが収録されている.(研究社応用言語学事典より)

ELRA (European Language Resources Association)

ヨーロッパにおけるコーパス等の言語資料の開発・検証・流通を促進し,情報の中心となることを目的として1995年に設立された非営利組織.パリに本部を置き,言語資料を多様な用途で利用・開発する政府機関,企業等を支援し,EU資本による言語資源を収集・集積・配布し,他地域の同様組織との窓口となる.言語資料の配付組織であるELDA (European Language Resources Distribution Agency)を設置し,コーパス,音声データベース,ソフトウェア等の言語資源の配布や関連する法的問題の対処も担当する.他の業務にはニュースレターの発行.製品カタログの発行,情報提供などがある.(同上)

LDC (Linguistic Data Consortium)

言語資源(データ,ツール,規格)を開発・共有することにより,言語関連の教育,研究,技術開発を支援することを目的として1992年に設立された研究開発組織.ペンシルベニア大学に本部を置き,大学,企業,研究所が参加する組織で,コーパス等の言語資源を開発・収集・配布する,他組織のプロジェクトによる言語資源の配布を仲介すると共に,LDC自身のプロジェクトによる言語資源と配布をしている.配布方法にはCD-ROMでの配布と,ホームページでのオンラインでの公開の両方がある.Penn Treebankの編纂,電話会話コーパスの開発プロジェクトが充実している.1993年以降,毎年15セット以上のコーパスを公開し,音声データが利用できるものもある.一部のデータは非会員でも利用可能である.(同上)

EDR Corpus

日本電子化辞書研究所(Japan Electric Dictionary Research Institute: EDR)が公開する日本語と英語のコーパスである.EDRコーパスは,約20万分の日本語コーパスと,約12万文の英語コーパスから構成される.これは新聞や雑誌から集められたもので,形態素,構文・意味情報などが付与されたデータである.EDR電子化辞書中の「日本語共起辞書」「英語共起辞書」の付録として収められている.EDR電子化辞書は,「単語辞書(日本語:26万語:英語:19万語)」「対訳辞書(日英:23万語,英日:16万語)」「概念辞書(40万概念)」「共起辞書(日本語:90万語,英語:46万語)」「専門用語辞書(日本語:12万語,英語:8万語,他)」から構成され,CD-ROMに収められている.(同上)

IPAL

情報処理推進機構(IPA)が公開する電子化辞書「計算機用日本語基本動詞辞書IPAL (Basic Verbs)」「計算機用日本語基本形容詞辞書IPAL (Basic Adjectives)」「計算機用日本語基本名詞辞書IPAL (Basic Noun)」の3種ある.これは,日本語語彙体系上,使用頻度上重要と考えられる基本的な動詞(861語),形容詞(136語),名詞(1081語)に,形態,意味,統語,慣用表現の情報を付与したものである.これらのデータは,上記冊子本の他に,無償でダウンロードできるFTP版と,有償のCD-ROM版でも利用できる.(同上)

PELCRA Project

The PELCRA Project (Polish and English Language Corpora for Research and Applications)は,ポーランドのウッジ(Lodz)大学と英国ランカスター大学がBritish CouncilとRoutledgeの支援により,BNCと比較可能な一億語のポーランド語コーパスとポーランド英語学習者コーパスの作成を目的としている.ポーランド語コーパスは現在3000万語,学習者コーパスは20万語の規模まで収集が進んでいる(Lewandowska-Tomaszczyk et al. 2000).学習者コーパスは,初級から上級まで異なる英語力の学習者の英作文を中心に集めており,母国語のポーランド語コーパスとの比較による多様な英語学習辞典,文法書,英語学習教材への応用を展開する予定である.(同上)

遠藤拓己


No Responses to “Corpus言語学”  

  1. No Comments

Leave a Reply