hellog〜英語史ブログ     ChangeLog 最新    

ceec - hellog〜英語史ブログ

最終更新時間: 2019-10-18 08:42

2019-01-13 Sun

#3548. Parsed Corpus of Early English Correspondence (PCEEC) [corpus][emode][ceec]

 現在取りかかっている研究テーマの調査のために,CoRD ( Corpus Resource Database )Parsed Corpus of Early English Correspondence (PCEEC) より情報を得て,The Oxford Text Archive (OTA) 経由で PCEEC を入手した.統語タグ付きコーパスとして提供されているものだが,複雑な統語環境の条件によるサーチは必要ないので,附属のプレーンテキストか品詞タグ付きテキストからなるコーパスで今回は十分に用を足しそうだ.しかし,必要とあらば検索ツール Corpus Search 2 を用いて凝ったサーチもできる.
 このコーパスの元となっている Corpus of Early English Correspondence (CEEC) は,1996--98年にヘルシンキ大学にて編纂作業が進められたコーパスで,1410?--1681年の書簡テキストが送り手の情報とともに集積されている.96の書簡集からなり,書き手は778人,書簡は6039通,そして総語数が270万語に及ぶコーパスである.編纂の狙いは,社会言語学的な手法を歴史英語へ適用することにあった.
 この CEEC からいくつかの姉妹コーパスが派生しており,その1つが統語タグ付きの PCEEC である.CEEC 自体は一般公開されておらず,一般に入手できるのは PCEEC と Corpus of Early English Correspondence Sampler (CEECS) のみである.PCEEC は,CEEC から著作権の関係で1/4ほどを取り除いたコーパスとなっている.
 その他の(未公開)派生コーパスである,Corpus of Early English Correspondence Supplement (CEECSU)Corpus of Early English Correspondence Extension (CEECE) も合わせて,量的な情報を一覧しておこう.

Corpustime coveredwordsletterswriterscollectionspublished
CEEC1410?--16812.7 million603977896----
CEECS1418--16800.45 million1147194231998
PCEEC1410?--16812.2 million4979657842006
CEECE1681--1800c. 2.2 millionc. 4900> 30074----
CEECSU1402--1663c. 0.44 millionc. 900> 10020----


 PCEEC について,時代区分を設けて語数をカウントすると以下の通り.

PeriodDateWord countToken count
M31350--141919,505684
M41420--1499364,31720,039
E11500--1569309,22011,056
E21570--1639910,67544,067
E31640--1710555,41529,185


・ CEEC = Corpus of Early English Correspondence. Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin at the Department of Modern Languages, University of Helsinki. 1998.
・ PCEEC = Parsed Corpus of Early English Correspondence, parsed version. Annotated by Ann Taylor, Arja Nurmi, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Compiled by the CEEC Project Team. York: University of York and Helsinki: University of Helsinki. 2006. Distributed through the Oxford Text Archive; Parsed Corpus of Early English Correspondence, tagged version. Annotated by Arja Nurmi, Ann Taylor, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Compiled by the CEEC Project Team. York: University of York and Helsinki: University of Helsinki. 2006. Distributed through the Oxford Text Archive; Parsed Corpus of Early English Correspondence, text version. 2006. Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin, with additional annotation by Ann Taylor. Helsinki: University of Helsinki and York: University of York. 2006. Distributed through the Oxford Text Archive.
・ CEECS = Corpus of Early English Correspondence Sampler. Compiled by Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin at the Department of Modern Languages, University of Helsinki. 1998

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow