本ブログでも何度か利用していたテキスト・データベース EEBO (Early English Books Online) が,BYU の Mark Davies 氏によりコーパス化され,この10月にオンラインで公開された.Early English Books Online corpus よりアクセスできる.
簡単にこのコーパスを紹介すると,まず規模としては "755 million words in more than 25,000 texts from the 1470s to the 1690s" を含む,巨大コーパスであることがわかる.時代としては初期近代英語をまるまるカバーしている.BYU系の他のコーパスと同様に,見出し語化がなされており,品詞タグや意味タグも賦与されている.コンコーダンス・ラインを出したり,共起表現を分析することはもとより,10年ごとに検索語句の頻度を自動的にグラフ化するなど,様々な機能が備わっている.
10年のまとまりごとのテキスト数や総語数の情報は,上のページのインフォメーションから容易に得られるが,第4列に1テキスト辺りの平均語数を加えた表を示そう.
Decade | #words | #texts | #words/#texts |
---|---|---|---|
1470s | 712,130 | 18 | 39,562.8 |
1480s | 3,706,937 | 43 | 86,207.8 |
1490s | 1,992,503 | 49 | 40,663.3 |
1500s | 1,288,091 | 45 | 28,624.2 |
1510s | 946,117 | 35 | 27,031.9 |
1520s | 3,042,934 | 73 | 41,684.0 |
1530s | 7,099,997 | 181 | 39,226.5 |
1540s | 8,709,681 | 239 | 36,442.2 |
1550s | 7,219,423 | 283 | 25,510.3 |
1560s | 16,084,901 | 361 | 44,556.5 |
1570s | 26,927,229 | 442 | 60,921.3 |
1580s | 31,955,245 | 558 | 57,267.5 |
1590s | 24,105,385 | 723 | 33,340.8 |
1600s | 40,031,223 | 898 | 44,578.2 |
1610s | 42,901,535 | 894 | 47,988.3 |
1620s | 38,550,967 | 994 | 38,783.7 |
1630s | 42,826,013 | 1,036 | 41,337.9 |
1640s | 47,129,000 | 3,805 | 12,386.1 |
1650s | 99,452,875 | 2,416 | 41,164.3 |
1660s | 63,491,742 | 2,481 | 25,591.2 |
1670s | 74,600,805 | 2,421 | 30,814.0 |
1680s | 92,583,947 | 3,977 | 23,279.8 |
1690s | 79,719,722 | 2,999 | 26,582.1 |
TOTAL | 755,078,402 | 24,971 | 30,238.2 |
Powered by WinChalow1.0rc4 based on chalow