hellog〜英語史ブログ

#1424. CELEX2[corpus][dictionary][statistics][frequency][lexicology]

2013-03-21

 英単語の頻度に関連する諸研究(Betty Phillips など)で,CELEX という語彙データベースが使用されているのを見かけることがある.現在取りかかっている研究で,巨大コーパスに基づいた信頼できる語彙頻度統計が必要になったので,郵送料込みで350ドルするこの高価なデータベースを入手してみた.現行版は第2版であり,CELEX2 として購入できる.(なお,予想していなかったが,入手した CD-ROM には,LDC99T42 というデータベースも含まれていた.ここには tagged Brown Corpus, Wall Street Journal, Switchboard tagged など Treebank 系のコーパスが入っている.)
 さて,CELEX2 には,英語語彙に関する複数のデータベースが納められている.それぞれのデータベースには,正書法,音韻,音節,形態,統語の各観点から,見出し語 (lemma) あるいは語形 (wordform) ごとに,ソース・コーパス内での頻度等の情報が格納されている.具体的には,次の11のデータベースが利用可能である.

 ect (English Corpus Types)
 efl (English Frequency, Lemmas)
 efs (English Frequency, Syllables)
 efw (English Frequency, Wordforms)
 eml (English Morphology, Lemmas)
 emw (English Morphology, Wordforms)
 eol (English Orthography, Lemmas)
 eow (English Orthography, Wordforms)
 epl (English Phonology, Lemmas)
 epw (English Phonology, Wordforms)
 esl (English Syntax, Lemmas)

 見出し語あるいは語形ごとの token 頻度の取り出しに強いデータベースという認識で購入したが,実際には,含まれている情報の種類は驚くほど豊富で,11のデータベースすべてを合わせたフィールド数はのべ250以上に及ぶ.行数は efl で52,447行,efw で160,595行という巨大さだ.検索用の SQLite DB をこしらえたら,容量にして90MBを超えてしまった.
 CELEX2 のソースは,辞書情報については Oxford Advanced Learner's Dictionary (1974) 及び Longman Dictionary of Contemporary English (1978) であり,頻度情報については 1790万語からなる COBUILD/Birmingham corpus である.このコーパスの構成は,1660万語 (92.74%) が書き言葉コーパス,130万語 (7.26%) が話し言葉コーパスで,前者を構成する284テキストのうち44テキスト (15.49%) がアメリカ英語である.しかし,これらのアメリカ英語はほとんどがイギリス英語の綴字に直されていることに注意したい.
 CELEX2 における "lemma" の定義は,以下の5点に依存する.

 (1) orthography of the wordforms: peek vs peak
 (2) syntactic class: meet (adj.) vs meet (adv.)
 (3) inflectional paradigm: water (v.) vs water (n.)
 (4) morphological structure: rubber (someone or something that rubs) vs rubber (the elastic substance)
 (5) pronunciation of the wordforms: recount [ˈriː-kaʊnt] vs recount [rɪ-ˈkaʊnt]

 したがって,通常異なる lexeme として扱われる bank (土手)と bank (銀行)などは,CELEX2 では同一の lemma として扱われているので注意が必要である.
 このように CELEX2 は非常に強力な語彙頻度データベースだが,その他にも語彙頻度研究に資するデータベースやツールは存在する.本ブログで触れたものとしては,frequency statistics lexicology の各記事や,特に以下の記事が参考になるだろう.

 ・ 「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1])
 ・ 「#607. Google Books Ngram Viewer」 ([2010-12-25-1])
 ・ 「#708. Frequency Sorter CGI」 ([2011-04-05-1])
 ・ 「#1159. MRC Psycholinguistic Database Search」 ([2012-06-29-1])

 ・ Baayen R. H., R. Piepenbrock and L. Gulikers. CELEX2. CD-ROM. Philadelphia: Linguistic Data Consortium, 1996.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow