今年3月に Leuven 大学の Hendrik De Smet により The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) が公開された.編者にメールで使用許可をもらえば無償でダウンロードし利用できる.1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパスである(先行版 CLMETEV の1500万語から大幅に拡大).プレーンテキストとタグ付きテキストで配布されており,70年間で分けた3つの時代区分ごとにヒット数を数える Perl スクリプトが付属しており,とりあえず使うのに便利である.コーパスの構成は以下の通り.
Sub-period | Number of authors | Number of texts | Number of words |
1710--1780 | 51 | 88 | 10,480,431 |
1780--1850 | 70 | 99 | 11,285,587 |
1850--1920 | 91 | 146 | 12,620,207 |
TOTAL | 212 | 333 | 34,386,225 |
Genre | 1710--1780 | 1780--1850 | 1850--1920 |
Narrative fiction | 4,642,670 words | 4,830,718 | 6,311,301 |
Narrative non-fiction | 1,863,855 | 1,940,245 | 958,410 |
Drama | 407,885 | 347,493 | 607,401 |
Letters | 1,016,745 | 714,343 | 479,724 |
Treatise | 1,114,521 | 1,692,992 | 1,782,124 |
Other | 1,434,755 | 1,759,796 | 2,481,247 |
現在関心をもっている
between と
betwixt の揺れについて,後期近代英語でそれぞれがどのような分布を示すか,CLMET3.0 で軽く調査してみた.付属の検索ツールで検索した結果は,以下の通り.
Sub-period | between | betwixt |
1710--1780 | 4,869 words (464.58 wpm) | 657 (62.69 wpm) |
1780--1850 | 5,457 (483.54 wpm) | 109 (9.66 wpm) |
1850--1920 | 7,672 (607.91 wpm) | 51 (4.04 wpm) |
18世紀中は,
between (88.11%) と並んで
betwixt (11.89%) が,まだある程度の比率で使われていた.しかし,19世紀以降に激減し,現代英語における影の薄い変異形となったことがわかる.
なお,De Smet は同じサイトで The Corpus of English Novels (CEN) も公開している.こちらは1882--1922年という1世代の間に書かれた英米の小説を集めたもので,短期間の言語変化調査や作家間の語法比較を念頭に置いたコーパスだという.全体で2,600万語からなる(内訳はソースHTMLを参照).こちらで調べると,
between が9,905例 (98.86%),
betwixt が114例 (1.14%) であり,確かに後者はすでに影が薄い.
[
|
固定リンク
|
印刷用ページ
]