corpus / hellog～英語史ブログ

最終更新時間: 2026-07-15 01:27

2019-01-13 Sun

■ #3548. Parsed Corpus of Early English Correspondence (PCEEC) [corpus][emode][ceec]

　現在取りかかっている研究テーマの調査のために，CoRD ( Corpus Resource Database ) の Parsed Corpus of Early English Correspondence (PCEEC) より情報を得て，The Oxford Text Archive (OTA) 経由で PCEEC を入手した．統語タグ付きコーパスとして提供されているものだが，複雑な統語環境の条件によるサーチは必要ないので，附属のプレーンテキストか品詞タグ付きテキストからなるコーパスで今回は十分に用を足しそうだ．しかし，必要とあらば検索ツール Corpus Search 2 を用いて凝ったサーチもできる．
　このコーパスの元となっている Corpus of Early English Correspondence (CEEC) は，1996--98年にヘルシンキ大学にて編纂作業が進められたコーパスで，1410?--1681年の書簡テキストが送り手の情報とともに集積されている．96の書簡集からなり，書き手は778人，書簡は6039通，そして総語数が270万語に及ぶコーパスである．編纂の狙いは，社会言語学的な手法を歴史英語へ適用することにあった．
　この CEEC からいくつかの姉妹コーパスが派生しており，その1つが統語タグ付きの PCEEC である．CEEC 自体は一般公開されておらず，一般に入手できるのは PCEEC と Corpus of Early English Correspondence Sampler (CEECS) のみである．PCEEC は，CEEC から著作権の関係で1/4ほどを取り除いたコーパスとなっている．
　その他の（未公開）派生コーパスである，Corpus of Early English Correspondence Supplement (CEECSU) と Corpus of Early English Correspondence Extension (CEECE) も合わせて，量的な情報を一覧しておこう．

Corpus time covered words letters writers collections published

CEEC 1410?--1681 2.7 million 6039 778 96 ----

CEECS 1418--1680 0.45 million 1147 194 23 1998

PCEEC 1410?--1681 2.2 million 4979 657 84 2006

CEECE 1681--1800 c. 2.2 million c. 4900 > 300 74 ----

CEECSU 1402--1663 c. 0.44 million c. 900 > 100 20 ----

　PCEEC について，時代区分を設けて語数をカウントすると以下の通り．

Period Date Word count Token count

M3 1350--1419 19,505 684

M4 1420--1499 364,317 20,039

E1 1500--1569 309,220 11,056

E2 1570--1639 910,675 44,067

E3 1640--1710 555,415 29,185

・ CEEC = Corpus of Early English Correspondence. Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin at the Department of Modern Languages, University of Helsinki. 1998.
・ PCEEC = Parsed Corpus of Early English Correspondence, parsed version. Annotated by Ann Taylor, Arja Nurmi, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Compiled by the CEEC Project Team. York: University of York and Helsinki: University of Helsinki. 2006. Distributed through the Oxford Text Archive; Parsed Corpus of Early English Correspondence, tagged version. Annotated by Arja Nurmi, Ann Taylor, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Compiled by the CEEC Project Team. York: University of York and Helsinki: University of Helsinki. 2006. Distributed through the Oxford Text Archive; Parsed Corpus of Early English Correspondence, text version. 2006. Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin, with additional annotation by Ann Taylor. Helsinki: University of Helsinki and York: University of York. 2006. Distributed through the Oxford Text Archive.
・ CEECS = Corpus of Early English Correspondence Sampler. Compiled by Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin at the Department of Modern Languages, University of Helsinki. 1998

Corpus	time covered	words	letters	writers	collections	published
CEEC	1410?--1681	2.7 million	6039	778	96	----
CEECS	1418--1680	0.45 million	1147	194	23	1998
PCEEC	1410?--1681	2.2 million	4979	657	84	2006
CEECE	1681--1800	c. 2.2 million	c. 4900	> 300	74	----
CEECSU	1402--1663	c. 0.44 million	c. 900	> 100	20	----

Period	Date	Word count	Token count
M3	1350--1419	19,505	684
M4	1420--1499	364,317	20,039
E1	1500--1569	309,220	11,056
E2	1570--1639	910,675	44,067
E3	1640--1710	555,415	29,185

Period (subcorpus size)	dreamt	dreamed
1710--1780 (10,480,431 words)	55	54
1780--1850 (11,285,587)	75	137
1850--1920 (12,620,207)	71	242

	1470s	1480s	1490s	1500s	1510s	1520s	1530s	1540s	1550s	1560s	1570s	1580s	1590s	1600s	1610s	1620s	1630s	1640s	1650s	1660s	1670s	1680s	1690s	Total
GRACE	65	133	145	92	69	130	319	622	544	773	1169	2124	1174	1682	1664	1483	1790	2088	3222	2296	3200	4092	3216	32092
HIGHNESS	0	0	0	0	0	0	0	0	0	0	6	0	0	0	7	31	0	38	1922	1252	1328	2727	1360	8671
MAJESTY	0	0	0	0	0	0	0	0	0	0	0	18	21	88	142	592	1856	7919	7753	6102	5463	12735	9012	51701
Total	65	133	145	92	69	130	319	622	544	773	1175	2142	1195	1770	1813	2106	3646	10045	12897	9650	9991	19554	13588	92464

Corpus	Proverbs	BE06
tokens (running words) in text	6,276	1,011,020
types (distinct words)	1,616	45,298
type/token ratio (TTR)	25.75	4.48
standardised TTR	45.25	43.90
STTR std.dev.	46.42	54.62
STTR basis	1,000	1,000
mean word length (in characters)	4.09	4.69
word length std.dev.	1.92	2.58
sentences	869	53,466
mean (in words)	7.22	18.91
std.dev.	2.86	14.38
1-letter words	292	38,775
2-letter words	1,020	168,273
3-letter words	1,345	205,211
4-letter words	1,370	166,961
5-letter words	996	110,856
6-letter words	553	88,195
7-letter words	359	79,174
8-letter words	163	56,645
9-letter words	96	39,767
10-letter words	53	26,170
11-letter words	17	15,493
12-letter words	6	8,208
13-letter words	4	4,557
14-letter words	1	1,687
15-letter words	1	623

	Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
Top_100	1.0	2.0	3.0	3.1	4.0	5.0
Top_200	1.00	3.00	4.00	3.77	4.00	10.00
Top_500	1.000	4.000	4.000	4.498	5.000	10.000
Top_1K	1.000	4.000	5.000	4.968	6.000	15.000
Top_2K	1.000	4.000	5.000	5.406	7.000	15.000
Top_5K	1.000	5.000	6.000	6.014	7.000	16.000
Top_10K	1.000	5.000	6.000	6.488	8.000	16.000
Top_20K	1.000	5.000	7.000	6.954	8.000	17.000
Top_50K	1.000	6.000	7.000	7.622	9.000	20.000

Decade	#words	#texts	#words/#texts
1470s	712,130	18	39,562.8
1480s	3,706,937	43	86,207.8
1490s	1,992,503	49	40,663.3
1500s	1,288,091	45	28,624.2
1510s	946,117	35	27,031.9
1520s	3,042,934	73	41,684.0
1530s	7,099,997	181	39,226.5
1540s	8,709,681	239	36,442.2
1550s	7,219,423	283	25,510.3
1560s	16,084,901	361	44,556.5
1570s	26,927,229	442	60,921.3
1580s	31,955,245	558	57,267.5
1590s	24,105,385	723	33,340.8
1600s	40,031,223	898	44,578.2
1610s	42,901,535	894	47,988.3
1620s	38,550,967	994	38,783.7
1630s	42,826,013	1,036	41,337.9
1640s	47,129,000	3,805	12,386.1
1650s	99,452,875	2,416	41,164.3
1660s	63,491,742	2,481	25,591.2
1670s	74,600,805	2,421	30,814.0
1680s	92,583,947	3,977	23,279.8
1690s	79,719,722	2,999	26,582.1
TOTAL	755,078,402	24,971	30,238.2

	GSL	CELEX2
1%	47.05%	69.36%
0.1%	14.60%	43.57%

corpus - hellog～英語史ブログ

■ #3548. Parsed Corpus of Early English Correspondence (PCEEC) [corpus][emode][ceec]

■ #3490. dreamt から dreamed へ [clmet][corpus][lmode][verb][conjugation][preterite][participle]

■ #3467. 文献学における校訂の信頼性の問題 [philology][methodology][manuscript][punctuation][editing][corpus][evidence]

■ #3459. 16--17世紀の君主の称号は Grace か Highness か Majesty か？ [eebo][corpus][title][address_term][honorific][monarch]

■ #3431. 各種の EEBO 検索インターフェース [eebo][corpus][emode][site][web_service][link][n-gram][kwic]

■ #3421. 英語ことわざの文体・語彙的特徴を示す統計値 [proverb][statistics][corpus][stylistics]

■ #3419. 英語ことわざのキーワード [proverb][keyword][statistics][corpus]

■ #3282. The Parsed Corpus of Middle English Poetry (PCMEP) [corpus][me][hc][ppcme][laeme][link]

■ #3240. Singapore English における used to （過去）ならぬ use to （現在） [singapore_english][auxiliary_verb][corpus][ice]

■ #3202. 英語歴史語用論における有望な分野 [pragmatics][historical_pragmatics][speech_act][discourse_analysis][corpus]

■ #3182. ARCHER で colour と color の通時的英米差を調査 [ame_bre][spelling][archer][corpus][mode][webster]

■ #3174. 高頻度語はスペリングが短い (2) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

■ #3173. 高頻度語はスペリングが短い (1) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus][three-letter_rule]

■ #3117. EEBO corpus がリリース [eebo][corpus][web_service][site]

■ #2876. 英語語彙の頻度分布に関する格差上位1%のシェア [lexicology][statistics][frequency][corpus]

■ #2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる [lexicology][statistics][frequency][zipfs_law][corpus]

■ #2779. コーパスは英語史研究に使えるけれども [hel_education][corpus][methodology][philology][representativeness]

■ #2777. 語彙の14年周期説？ [lexicology][language_change][speed_of_change][schedule_of_language_change][n-gram][corpus]

■ #2694. EDD Online (2) [dialect][web_service][corpus][lmode][lexicography][edd][dictionary]

■ #2690. N-gram Tool [cgi][n-gram][statistics][corpus][web_service][frequency][cgi]