hellog〜英語史ブログ

#1637. CLMET3.0 で betweenbetwixt の分布を調査[corpus][lmode][preposition][clmet]

2013-10-20

 今年3月に Leuven 大学の Hendrik De Smet により The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) が公開された.編者にメールで使用許可をもらえば無償でダウンロードし利用できる.1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパスである(先行版 CLMETEV の1500万語から大幅に拡大).プレーンテキストとタグ付きテキストで配布されており,70年間で分けた3つの時代区分ごとにヒット数を数える Perl スクリプトが付属しており,とりあえず使うのに便利である.コーパスの構成は以下の通り.

Sub-periodNumber of authorsNumber of textsNumber of words
1710--1780518810,480,431
1780--1850709911,285,587
1850--19209114612,620,207
TOTAL21233334,386,225

Genre1710--17801780--18501850--1920
Narrative fiction4,642,670 words4,830,7186,311,301
Narrative non-fiction1,863,8551,940,245958,410
Drama407,885347,493607,401
Letters1,016,745714,343479,724
Treatise1,114,5211,692,9921,782,124
Other1,434,7551,759,7962,481,247


 現在関心をもっている betweenbetwixt の揺れについて,後期近代英語でそれぞれがどのような分布を示すか,CLMET3.0 で軽く調査してみた.付属の検索ツールで検索した結果は,以下の通り.

Sub-periodbetweenbetwixt
1710--17804,869 words (464.58 wpm)657 (62.69 wpm)
1780--18505,457 (483.54 wpm)109 (9.66 wpm)
1850--19207,672 (607.91 wpm)51 (4.04 wpm)


 18世紀中は,between (88.11%) と並んで betwixt (11.89%) が,まだある程度の比率で使われていた.しかし,19世紀以降に激減し,現代英語における影の薄い変異形となったことがわかる.
 なお,De Smet は同じサイトで The Corpus of English Novels (CEN) も公開している.こちらは1882--1922年という1世代の間に書かれた英米の小説を集めたもので,短期間の言語変化調査や作家間の語法比較を念頭に置いたコーパスだという.全体で2,600万語からなる(内訳はソースHTMLを参照).こちらで調べると,between が9,905例 (98.86%),betwixt が114例 (1.14%) であり,確かに後者はすでに影が薄い.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow