hellog〜英語史ブログ

#3117. EEBO corpus がリリース[eebo][corpus][web_service][site]

2017-11-08

 本ブログでも何度か利用していたテキスト・データベース EEBO (Early English Books Online) が,BYU の Mark Davies 氏によりコーパス化され,この10月にオンラインで公開された.Early English Books Online corpus よりアクセスできる.
 簡単にこのコーパスを紹介すると,まず規模としては "755 million words in more than 25,000 texts from the 1470s to the 1690s" を含む,巨大コーパスであることがわかる.時代としては初期近代英語をまるまるカバーしている.BYU系の他のコーパスと同様に,見出し語化がなされており,品詞タグや意味タグも賦与されている.コンコーダンス・ラインを出したり,共起表現を分析することはもとより,10年ごとに検索語句の頻度を自動的にグラフ化するなど,様々な機能が備わっている.
 10年のまとまりごとのテキスト数や総語数の情報は,上のページのインフォメーションから容易に得られるが,第4列に1テキスト辺りの平均語数を加えた表を示そう.

Decade#words#texts#words/#texts
1470s712,130 18 39,562.8
1480s3,706,937 43 86,207.8
1490s1,992,503 49 40,663.3
1500s1,288,091 45 28,624.2
1510s946,117 35 27,031.9
1520s3,042,934 73 41,684.0
1530s7,099,997 181 39,226.5
1540s8,709,681 239 36,442.2
1550s7,219,423 283 25,510.3
1560s16,084,901 361 44,556.5
1570s26,927,229 442 60,921.3
1580s31,955,245 558 57,267.5
1590s24,105,385 723 33,340.8
1600s40,031,223 898 44,578.2
1610s42,901,535 894 47,988.3
1620s38,550,967 994 38,783.7
1630s42,826,013 1,036 41,337.9
1640s47,129,000 3,805 12,386.1
1650s99,452,875 2,416 41,164.3
1660s63,491,742 2,481 25,591.2
1670s74,600,805 2,421 30,814.0
1680s92,583,947 3,977 23,279.8
1690s79,719,722 2,999 26,582.1
TOTAL755,078,402 24,971 30,238.2


 全期間にしめる各10年間の値を百分率でグラフ化してみた.赤は単語数,水色はテキスト数に基づいた数値である.いずれも16世紀から17世紀にかけてサブコーパスが大きくなっているのが分かるが,単語数は1650年代と1680年代,テキスト数は1640年代と1680年代が際立っていることを気に留めておきたい.

% of Words and Texts for Each Decade in EEBO Corpus

Referrer (Inside): [2020-05-16-1] [2018-09-18-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow