01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
ICAMET (= Innsbruck Computer Archive of Machine-Readable English Texts) は,約780万語(私の持っている古い Version 2.4 は約600万語ほど)からなる中英語散文コーパスである.2012年以来手元に置いていたもののほとんど活用する機会のなかったコーパスだが,同コーパスを用いた谷の論文によって思い出した次第.当時 CD-ROM で購入した有料コーパスだが,ICAMET 以外にも tagged Brown Corpus, Wall Street Journal, Switchboard tagged が含まれていた.ICAMET のファイル形式は doc と rtf で,テキストの annotation が COCOA 方式で与えられている.
中英語テキストを含むコーパスといえば代表的なものとして以下が思い浮かぶが,このラインナップに ICAMET が加わるとなかなか強力な布陣だ.
・ Helsinki Corpus (HC) の中英語部分
・ The Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2)
・ Corpus of Middle English Prose and Verse
・ The Middle English Grammar Corpus (MEG-C)
・ The Parsed Corpus of Middle English Poetry (PCMEP)
上記コーパスにはそれぞれの特徴があるが,今回は ICAMET に注目する.まず,ジャンルとしては中英語散文のみが含まれているという点が特異である.規模については,Version 2.4 に基づいた谷 (63) によれば,次の通り.
世紀 | 12 | 12--13 | 13 | 13--14 | 14 | 14--15 | 15 | Total |
---|---|---|---|---|---|---|---|---|
ファイル数 | 3 | 8 | 9 | 1 | 14 | 13 | 111 | 159 |
茯???? | 110,454 | 58,692 | 344,268 | 3,996 | 704,137 | 378,080 | 4,349,808 | 5,949,435 |
% | 1.9 | 1.0 | 5.8 | 0.1 | 11.9 | 6.4 | 73.1 | 100 |
2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2024-10-26 09:48
Powered by WinChalow1.0rc4 based on chalow