hellog〜英語史ブログ

#4281. ICAMET --- 中英語散文コーパス[icamet][corpus][me][link]

2021-01-15

 ICAMET (= Innsbruck Computer Archive of Machine-Readable English Texts) は,約780万語(私の持っている古い Version 2.4 は約600万語ほど)からなる中英語散文コーパスである.2012年以来手元に置いていたもののほとんど活用する機会のなかったコーパスだが,同コーパスを用いた谷の論文によって思い出した次第.当時 CD-ROM で購入した有料コーパスだが,ICAMET 以外にも tagged Brown Corpus, Wall Street Journal, Switchboard tagged が含まれていた.ICAMET のファイル形式は doc と rtf で,テキストの annotation が COCOA 方式で与えられている.
 中英語テキストを含むコーパスといえば代表的なものとして以下が思い浮かぶが,このラインナップに ICAMET が加わるとなかなか強力な布陣だ.

 ・ Helsinki Corpus (HC) の中英語部分
 ・ The Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2)
 ・ Corpus of Middle English Prose and Verse
 ・ The Middle English Grammar Corpus (MEG-C)
 ・ The Parsed Corpus of Middle English Poetry (PCMEP)

 上記コーパスにはそれぞれの特徴があるが,今回は ICAMET に注目する.まず,ジャンルとしては中英語散文のみが含まれているという点が特異である.規模については,Version 2.4 に基づいた谷 (63) によれば,次の通り.

世紀1212--131313--141414--1515Total
ファイル数38911413111159
語数110,45458,692344,2683,996704,137378,0804,349,8085,949,435
%1.91.05.80.111.96.473.1100


 全体で約600万語というコーパスサイズは,Helsinki Corpus の中英語部分の約10倍であり,PPCME2 の約5倍である.時代の分布としては14世紀と15世紀を合わせて91.4%となっており,相当に後期中英語に偏っている.この点は使用に際して注意すべき点だろう.
 中英語コーパスについては,「#3282. The Parsed Corpus of Middle English Poetry (PCMEP)」 ([2018-04-22-1]) も参照.

 ・ 谷 明信 「ICAMET 中英語散文コーパスを用いた認識動詞 wit の衰退の調査」『コーパスと英語史』堀 正広・赤野 一郎(監修),西村 秀男(編).ひつじ書房.2019年.59--95頁.
 ・ Markus, Manfred, ed. The Middle English Prose Corpus of the ICAMET. U of Innsbruck, 2003.

Referrer (Inside): [2021-01-16-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow