標記の語を巡る綴字の変異について,「#1415. shew と show (1)」 ([2013-03-12-1]),「#1416. shew と show (2)」 ([2013-03-13-1]),「#1716. shew と show (3)」 ([2014-01-07-1]) で取り上げてきた.今回は,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,近代英語期における両綴字の分布を改めて確認しよう.
ARCHER: A Representative Corpus of Historical English Registers の Untagged 版で,shew 系列 (shew, shews, shewed, shewn, shewing) と show 系列 (show, shows, showed, shown, showing) の語形を検索し,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.データファイルと頻度表はソースHTMLを参照してもらうとして,結果をグラフ化したもののみ示そう.
ジャンルの考慮はおいておくとして,通時的な推移に注目しよう.P1 (1600--49) から P4 (1750--99) まで,つまり17--18世紀には,絶対頻度で shew のほうが show より優勢だが,P5 (1800--49) に両者がおよそ肩を並べ,P6 以降には show が一気に shew を駆逐してゆく過程が見てとれる.この推移の概要は,過去の記事で調査した Helsinki Corpus および PPCMBE の結果とは符合するが,CLMET3.0 の結果とは少々異なる.CLMET3.0 では,[2014-01-07-1]の記事で見たように,18世紀中から絶対頻度で show が shew を圧倒的に上回っていたのである.このコーパス間の違いが,各コーパスの代表性の違いによるものなのか,それともジャンル分け等が関与しているのか,あるいは複数の語形を一括して数えたことに由来するものなのか,詳しくは調査していない(P1のサブコーパスについては,他の各時期のサブコーパスの1/3ほどの規模であることに注意).しかし,両系列の相対的な盛衰ではなく,shew 系列の衰退という観点で考えるのであれば,いずれのコーパスを参照しても,それは19世紀前半の出来事とみなしてよいだろう.
昨年末のことになるが,近代英米語コーパス ARCHER: A Representative Corpus of Historical English Registers の Untagged 版が公開された.詳細は,公式の Documentation,あるいは VARIENG によるコーパスの解説からどうぞ.英語史研究会のオンライン会報より,三浦あゆみさんの記事「ARCHERの新版公開」も参考になる.
ARCHER は,1990年代初頭より Biber and Finegan が編纂してきたもので,現在では14の大学が合同で管理している.2013年に公開されたこの3.2版は Manchester 大学 ( David Denison and Nuria Yáñez-Bouza) による提供である.コーパスの内容と用途を端的に表現すれば,"a multi-genre historical corpus of British and American English covering the period 1600--1999. The corpus has been designed as a tool for the analysis of language change and variation in a range of written and speech-based registers of English." ということである.
コーパスの規模は1,710ファイル,3,298,080語からなり,語数での英米比は6:4ほど.また,時期として8期,内容により12種類にジャンル分けされている (a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries) .ファイル数と語数の内訳は以下の通り.
BRITISH | a | d | f | h | j | l | m | n | p | s | x | y | TOTAL | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1600--49 | files | 0 | 10 | 0 | 0 | 0 | 10 | 0 | 0 | 10 | 0 | 0 | 0 | 30 |
words | 0 | 32,342 | 0 | 0 | 0 | 21,026 | 0 | 0 | 32,741 | 0 | 0 | 0 | 86,109 | |
1650--99 | files | 0 | 10 | 11 | 10 | 10 | 10 | 21 | 10 | 0 | 10 | 75 | 10 | 177 |
words | 0 | 30,328 | 41,667 | 21,818 | 21,186 | 20,466 | 23,811 | 22,304 | 0 | 21,427 | 38,767 | 20,488 | 262,262 | |
1700--49 | files | 0 | 10 | 11 | 10 | 11 | 10 | 14 | 10 | 0 | 10 | 77 | 10 | 173 |
words | 0 | 27,862 | 44,057 | 21,511 | 23,265 | 21,315 | 22,066 | 21,612 | 0 | 20,812 | 33,896 | 20,495 | 256,891 | |
1750--99 | files | 10 | 10 | 10 | 10 | 10 | 10 | 20 | 10 | 0 | 10 | 70 | 11 | 181 |
words | 25,386 | 27,484 | 45,198 | 21,752 | 21,284 | 20,367 | 21,002 | 23,172 | 0 | 20,599 | 29,589 | 23,043 | 278,876 | |
1800--49 | files | 10 | 10 | 10 | 10 | 11 | 10 | 10 | 10 | 0 | 10 | 25 | 10 | 126 |
words | 30,804 | 31,211 | 45,107 | 21,777 | 23,249 | 20,531 | 20,286 | 22,951 | 0 | 21,015 | 12,671 | 20,883 | 270,485 | |
1850--99 | files | 10 | 10 | 10 | 10 | 10 | 10 | 10 | 10 | 0 | 10 | 26 | 10 | 126 |
words | 30,684 | 34,856 | 43,427 | 21,322 | 21,243 | 20,757 | 22,265 | 23,072 | 0 | 21,810 | 10,819 | 21,789 | 272,044 | |
1900--49 | files | 10 | 11 | 10 | 10 | 10 | 10 | 10 | 10 | 0 | 10 | 29 | 10 | 130 |
words | 26,717 | 31,391 | 45,408 | 21,123 | 22,208 | 21,160 | 20,213 | 21,977 | 0 | 21,664 | 12,529 | 22,424 | 266,814 | |
1950--99 | files | 10 | 11 | 10 | 10 | 10 | 10 | 13 | 10 | 0 | 10 | 28 | 10 | 132 |
words | 23,437 | 32,200 | 45,109 | 21,093 | 22,723 | 20,721 | 20,994 | 22,935 | 0 | 21,385 | 11,361 | 22,060 | 264,018 | |
TOTAL | files | 50 | 82 | 72 | 70 | 72 | 80 | 98 | 70 | 10 | 70 | 330 | 71 | 1,075 |
words | 137,028 | 247,674 | 309,973 | 150,396 | 155,158 | 166,343 | 150,637 | 158,023 | 32,741 | 148,712 | 149,632 | 151,182 | 1,957,499 | |
AMERICAN | a | d | f | h | j | l | m | n | p | s | x | y | TOTAL | |
1750--99 | files | 3 | 10 | 10 | 10 | 10 | 12 | 9 | 10 | 0 | 10 | 58 | 10 | 152 |
words | 9,214 | 29,980 | 38,980 | 21,271 | 21,896 | 41,177 | 23,541 | 22,265 | 0 | 20,668 | 27,860 | 21,315 | 278,167 | |
1800--49 | files | 1 | 10 | 10 | 0 | 10 | 12 | 0 | 10 | 0 | 10 | 10 | 10 | 83 |
words | 2,822 | 40,568 | 44,676 | 0 | 21,476 | 33,409 | 0 | 37,107 | 0 | 20,904 | 20,739 | 20,695 | 242,396 | |
1850--99 | files | 8 | 10 | 11 | 10 | 10 | 10 | 10 | 10 | 0 | 10 | 28 | 11 | 128 |
words | 24,480 | 32,721 | 44,394 | 21,056 | 22,436 | 28,506 | 20,547 | 21,994 | 0 | 21,311 | 11,361 | 23,419 | 272,225 | |
1900--49 | files | 10 | 10 | 10 | 0 | 10 | 11 | 0 | 15 | 0 | 10 | 52 | 10 | 138 |
words | 30,460 | 52,514 | 53,430 | 0 | 21,661 | 21,607 | 0 | 22,802 | 0 | 20,984 | 25,021 | 20,731 | 269,210 | |
1950--99 | files | 10 | 10 | 10 | 10 | 10 | 12 | 10 | 10 | 0 | 12 | 30 | 10 | 134 |
words | 29,563 | 31,037 | 44,382 | 21,051 | 22,109 | 25,517 | 22,617 | 23,069 | 0 | 25,623 | 11,961 | 21,654 | 278,583 | |
TOTAL | files | 32 | 50 | 51 | 30 | 50 | 57 | 29 | 55 | 0 | 52 | 178 | 51 | 635 |
words | 96,539 | 186,820 | 225,862 | 63,378 | 109,578 | 150,216 | 66,705 | 127,237 | 0 | 109,490 | 96,942 | 107,814 | 1,340,581 |
「#1198. ic → I」 ([2012-08-07-1]) の記事で,古英語から中英語にかけて用いられた1人称単数代名詞の主格 ich が,語末の子音を消失させて近代英語の I へと発展した経緯について論じた.そこでは,純粋な音韻変化というよりは,機能語に見られる強形と弱形の競合が関わっているのではないかと提案した.
しかし,音韻的な要因が皆無というわけではなさそうだ.Schlüter によれば,後続する語頭の音に種類によって,従来の長形 ich か刷新的な短形 i かのいずれかが選ばれやすいという事実が,確かにある.
Schlüter は,Helsinki Corpus を用いて中英語期内で時代ごとに,そして後続音の種類別に,ich, everich, -lich それぞれの変異形の分布を調査した.以下に,Schlüter (224, 227, 226) に掲載されている,各々の分布表を示そう.
I | 1150--1250 (ME I) | 1250--1350 (ME II) | 1350--1420 (ME III) | 1420--1500 (ME IV) | |||||
---|---|---|---|---|---|---|---|---|---|
tokens | % | tokens | % | tokens | % | tokens | % | ||
before V | ich | 169 | 100 | 121 | 95 | 4 | 3 | 0 | 0 |
I | 0 | 0 | 6 | 5 | 135 | 97 | 253 | 100 | |
before <h> | ich | 171 | 100 | 105 | 97 | 3 | 2 | 0 | 0 |
I | 0 | 0 | 3 | 3 | 156 | 98 | 316 | 100 | |
before C | ich | 513 | 94 | 363 | 42 | 0 | 0 | 0 | 0 |
I | 33 | 6 | 494 | 58 | 1106 | 100 | 2043 | 100 | |
EVERY | 1150--1250 (ME I) | 1250--1350 (ME II) | 1350--1420 (ME III) | 1420--1500 (ME IV) | |||||
tokens | % | tokens | % | tokens | % | tokens | % | ||
before V | everich | - | 6 | 86 | 7 | 64 | 9 | 39 | |
everiche | - | 1 | 14 | 0 | 0 | 0 | 0 | ||
every | - | 0 | 0 | 4 | 36 | 14 | 61 | ||
before <h> | everich | - | 0 | 0 | 1 | 20 | - | ||
everiche | - | 1 | 100 | 1 | 20 | - | |||
every | - | 0 | 0 | 3 | 60 | - | |||
before C | everich | - | 6 | 29 | 2 | 2 | 0 | 0 | |
everiche | - | 10 | 48 | 2 | 2 | 0 | 0 | ||
every | - | 5 | 24 | 105 | 96 | 138 | 100 | ||
-LY | 1150--1250 (ME I) | 1250--1350 (ME II) | 1350--1420 (ME III) | 1420--1500 (ME IV) | |||||
tokens | % | tokens | % | tokens | % | tokens | % | ||
before V | -lich | 23 | 12 | 8 | 12 | 12 | 4 | 1 | 0 |
-liche | 162 | 87 | 51 | 77 | 23 | 8 | 21 | 5 | |
-ly | 1 | 1 | 7 | 11 | 251 | 88 | 421 | 95 | |
before <h> | -lich | 13 | 18 | 7 | 21 | 1 | 2 | 0 | 0 |
-liche | 59 | 82 | 24 | 73 | 8 | 14 | 0 | 0 | |
-ly | 0 | 0 | 2 | 6 | 49 | 84 | 76 | 100 | |
before C | -lich | 70 | 13 | 18 | 15 | 18 | 2 | 2 | 0 |
-liche | 468 | 85 | 93 | 77 | 39 | 5 | 23 | 2 | |
-ly | 11 | 2 | 10 | 8 | 788 | 93 | 947 | 97 |
. . . the affricate [ʧ] in final position has turned out to constitute another weak segment whose disappearance is codetermined by syllable structure constraints militating against the adjacency of two Cs or Vs across word boundaries. . . . [T]he three studies have shown that the demise of final [ʧ] proceeds at different speeds depending on the item concerned: it is given up fastest in the personal pronoun, not much later in the quantifier, and most hesitantly in the suffix. In other words, the phonetic erosion is overshadowed by lexical distinctions. Relics of the obsolescent long variants are typically found in high-frequency collocations like ich am or everichone, where the affricate is protected from erosion by the ideal phonotactic constellation it ensures.
関連して,「#40. 接尾辞 -ly は副詞語尾か?」 ([2009-06-07-1]) 及び「#832. every と each」 ([2011-08-07-1]) も参照.
・ Schlüter, Julia. "Weak Segments and Syllable Structure in ME." Phonological Weakness in English: From Old to Present-Day English. Ed. Donka Minkova. Basingstoke: Palgrave Macmillan, 2009. 199--236.
標記の件については「#1740. interpretor → interpreter」 ([2014-01-31-1]) と「#1748. -er or -or」 ([2014-02-08-1]) で触れてきたが,問題の出発点である,16世紀に interpretor が interpreter へ置換されたという言及について,事実かどうかを確認しておく必要がある.この言及は『英語語源辞典』でなされており,おそらく OED の "In 16th cent. conformed to agent-nouns in -er, like speak-er" に依拠しているものと思われるが,手近にある16世紀前後の時代のいくつかのコーパスを検索し,詳細を調べてみた.
まずは,MED で中英語の綴字事情をのぞいてみよう.初例の Wycliffite Bible, Early Version (a1382) を含め,33例までが -our あるいは -or を含み,-er を示すものは Reginald Pecock による Book of Faith (c1456) より2例のみである.初出以来,中英語期中の一般的な綴字は,-o(u)r だったといっていいだろう.
同じ中英語の状況を,PPCME2 でみてみると,Period M4 (1420--1500) から Interpretours が1例のみ挙った.
次に,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,2期に区分されたコーパスの第2期分 (1580--1680) から interpreter と interpretor がそれぞれ1例ずつあがったにすぎない.
続いて,MEMEM (Michigan Early Modern English Materials) を試す.このオンラインコーパスは,こちらのページに説明のあるとおり,初期近代英語辞書の編纂のために集められた,主として法助動詞のための例文データベースだが,簡便なコーパスとして利用できる.いくつかの綴字で検索したところ,interpretour が2例,いずれも1535?の Thomas Elyot による The Education or Bringing up of Children より得られた.一方,現代的な interpreter(s) の綴字は,9の異なるテキスト(3つは16世紀,6つは17世紀)から計16例確認された.確かに,16世紀からじわじわと -er 形が伸びてきているようだ.
LC (The Lampeter Corpus of Early Modern English Tracts) は,1640--1740年の大衆向け出版物から成る約119万語のコーパスだが,得られた7例はいずれも -er の綴字だった.
同様の結果が,約330万語の近現代英語コーパス ARCHER 3.2 (A Representative Corpus of Historical English Registers) (1600--1999) でも認められた.1672年の例を最初として,13例がいずれも -er である.
最後に,中英語から近代英語にかけて通時的にみてみよう.HC (Helsinki Corpus) によると,E1 (1500--70) の Henry Machyn's Diary より,"he becam an interpretour betwen the constable and certein English pioners;" が1例のみ見られた.HC を拡大させた PPCEME によると,上記の例を含む計17例の時代別分布は以下の通り.
-o(u)r | -er(s) | |
---|---|---|
E1 (1500--1569) | 2 | 1 |
E2 (1570--1639) | 3 | 5 |
E3 (1640--1710) | 0 | 6 |
「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]), 「#1739. AmE-BrE Diachronic Frequency Comparer」 ([2014-01-30-1]) で,the Brown family of corpora ([2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照)を利用した,変種間あるいは通時的な頻度比較ツールを作った.Brown family といえば,似たような設計で編まれた ICE (International Corpus of English) も想起される([2010-09-26-1]の記事「#517. ICE 提供の7種類の地域変種コーパス」を参照).1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパス群で,互いに比較可能となるように作られている.
そこで,手元にある ICE シリーズのうち,Canada, Jamaica, India, Singapore, the Philippines, Hong Kong の英語変種コーパス計6種を対象に,前と同じように頻度表を作り,データベース化し,頻度比較が可能となるツールを作成した.使い方については,「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) を参照されたい.
「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で,2006年前後の書き言葉テキストを編纂した英米各変種コーパスを紹介し,それに基づいた頻度比較ツールを作成・公開した.そのツールを作成しながら気づいたのだが,同じ方法で編纂され,規模も同じく100万語程度の the Brown family of corpora (「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1]))と連携させれば,直近50年間ほどの通時的な英米間頻度比較が容易に可能となる.
そこで,前の記事で紹介した Professor Paul Baker - Linguistics and English Language at Lancaster University による AmE06 と BrE06 に加えて,書き言葉アメリカ英語を代表する Brown (1961), Frown (1992),書き言葉イギリス英語を代表する LOB (1961), FLOB (1991) より語形頻度表を抽出し,合わせてデータベース化した.利用の仕方は,AmE-BrE 2006 Frequency Comparer とほぼ同じなので,そちらの取説 ([2014-01-21-1]) を参照されたい.ただし,出力される表では,問題の語形が出現するテキストの数や頻度順位は省いており,純粋に約100万語当たりの頻度を表示するにとどめているので,AmE06 と BE06 について前者の情報が必要な場合には,AmE-BrE 2006 Frequency Comparer をどうぞ.
先日,Professor Paul Baker - Linguistics and English Language at Lancaster University というページを教えてもらった.Baker 氏の編纂した現代英語・米語コーパス BE06 と AmE06 の情報と,そこから抽出した単語リストが得られる.当該のコーパス自体は,ユーザIDを請求すれば,ランカスター大学の CQP (Corpus Query Processor) system よりアクセスできる.
BE06 と AmE06 は,2006年前後に出版されたイギリス変種とアメリカ変種の書き言葉均衡コーパスである.編纂方式や構成は「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1]) で紹介した The Brown family に準じており,500テキスト×2000語の計100万語ほどの規模だ.
さて,上のページからダウンロードできる BE06 Wordlist in WordSmith 5 format と AmE06 Wordlist in WordSmith 5 format より(見出し語ではなく)語形による頻度表を抽出し,それぞれをデータベース化して,英米変種の語の頻度を比較してくれる AmE-BrE Frequency 2006 Comparer なるツールを作成してみた.
acknowledgment, acknowledgement, aging, ageing, aluminum, aluminium, analyze, analyse, apologize, apologise, armor, armour, behavior, behaviour, center, centre, civilization, civilisation, color, colour, defense, defence, disk, disc, endeavor, endeavour, favor, favour, favorite, favourite, fiber, fibre, flavor, flavour, fulfill, fulfil, gray, grey, harbor, harbour, honor, honour, humor, humour, inquiry, enquiry, judgment, judgement, labor, labour, license, licence, liter, litre, marvelous, marvellous, mold, mould, mom, mum, neighbor, neighbour, neighborhood, neighbourhood, odor, odour, organize, organise, pajamas, pyjamas, parlor, parlour, program, programme, realize, realise, recognize, recognise, skeptic, sceptic, specter, spectre, sulfur, sulphur, theater, theatre, traveler, traveller, tumor, tumour
これまでは,語彙や綴字に関する英米差のコーパスによる比較は,「#708. Frequency Sorter CGI」 ([2011-04-05-1]) を用いたり,「BNC Frequency Extractor」 ([2012-12-08-1]) と「#1322. ANC Frequency Extractor」 ([2012-12-09-1]) を組み合わせたり,the Brown Family corpora を併用するなど,各変種コーパスの個別比較により対処してきたが,今回のツールにより多少便利な環境ができた.
「#1415. shew と show (1)」 ([2013-03-12-1]) と「#1416. shew と show (2)」 ([2013-03-13-1]) で扱った問題を,「#1637. CLMET3.0 で between と betwixt の分布を調査」 ([2013-10-20-1]) で紹介した The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) により再訪したい.具体的には,同タグ付きコーパスを "\bshow(s|n|ed|ing)?_VB" と "\bshew(s|n|ed|ing)?_VB" で検索して,3時代区分ごとに生起頻度数を比べた.以下の結果が出た.
shew 系列 | show 系列 | 総語数 | |
---|---|---|---|
1710--1780 | 335 | 1,545 | 10,480,431 |
1780--1850 | 159 | 3,100 | 11,285,587 |
1850--1920 | 92 | 5,118 | 12,620,207 |
・ Why, you have shewn your wit upon the subject, and I mean to show your courage;
・ Mr. Wright, as well as Nadin, professed they were perfectly satisfied of this, and appeared to shew to me all the polite attention that they were capable of showing.
・ Assuredly I did not show him the face which I shewed Folderico.
標題の熟語は,形式張った文体で「?に関しては,?について(いうと)」の意味で用いられる.典型的には "As regards the result, you need not worry so much." のように新しい主題を導くのに用いられる.機能的には前置詞といってよいだろう.
この複合前置詞は,歴史的には「#1201. 後期中英語から初期近代英語にかけての前置詞の爆発」 ([2012-08-10-1]) で示唆したように,近代英語で発達してきた.だが,細かくいえば as regards は初期近代英語ではなく後期近代英語での発達と考えられる.OED の regard, v. によると,語義 8b にこの用法が記述されており,初例としては1797年の "A distinction is made, as regards moral rectitude, in the minds of many individuals." という例文が挙げられている.
b. as regards, as regarded (now rare), †as regarding: with respect or reference to
一方,同じ動詞の現在分詞から発展した regarding, prep. も同様に用いられるが,こちらの初例としては1779年から " The servant was called, and examined regarding the import of the answer he had brought from Madame la Comtesse." の例文が挙げられている.ただし,名詞句に後続する regarding については17世紀より例があり,これが現在分詞なのか前置詞なのかを決定することは難しい.
初出年代の細かな問題はあるにせよ,as regards も regarding も後期近代英語期になって根付いた動詞由来の前置詞であると解釈することに大きな異論はないだろう.OED に記載のある †as regarding も含めて,動詞 regard から派生した前置詞の複数の異形が18世紀後半辺りに活躍しだしたと考えられる.
それを確かめるべく,「#1637. CLMET3.0 で between と betwixt の分布を調査」 ([2013-10-20-1]) で紹介した The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) により,as regards を検索してみた(as regarding は2例ほどヒット).70年間ごとに区切った頻度をまとめると以下のようになった.
Decade | Frequency | Corpus size |
---|---|---|
1710--1780 | 5 (5) | 10,480,431 words |
1780--1850 | 70 (18) | 11,285,587 |
1850--1920 | 347 (6) | 12,620,207 |
「#1649. longer が leng(er) を置き換えたのはいつか?」 ([2013-11-01-1]) で,歴史的な i-mutation 形の比較級 leng(er) が,いつ類推形 longer に置換されたのかをコーパスによって調査した.今回は,同じ過程を経たと想定される最上級について同様の調査を施した結果を報告する.歴史的な i-mutation 形の最上級 lengest は,英語史のどの段階で類推形 longest に置換されたのだろうか.
Helsinki Corpus で,語幹母音のヴァリエーションを念頭に置きつつ,両形を検索した.結果を通時的に整理すると以下のようになる.
LONGEST | LENGEST | |
---|---|---|
O1 | 0 | 0 |
O2 | 0 | 2 |
O3 | 0 | 13 |
O4 | 0 | 3 |
M1 | 0 | 1 |
M2 | 0 | 0 |
M3 | 0 | 1 |
M4 | 0 | 1 |
E1 | 3 | 0 |
E2 | 4 | 0 |
E3 | 2 | 0 |
現代英語の形容詞・副詞 long の比較級の形態は規則的な longer だが,古英語から中英語にかけては lenger (副詞としては leng も)のように語幹に前母音をもつ諸形態が用いられていた.ゲルマン祖語の比較級を表わす形態素 *-iþo が契機となって直前の語幹母音に i-mutation が生じ,本来の語幹の後母音が前母音へと変化した.その効果は,古英語 leng(ra) や中英語の leng(er) に現れている.
ところが,原級は古英語でも中英語でも lang, long などと常に後母音を示していたので,やがて類推作用 (analogy) により比較級も原級に -er を付けるだけの規則的な形態を取るようになった.かつての i-mutation という音韻変化の効果が,類推という形態変化の効果により打ち消されたといえる.
さて,類推により longer につらなる形態が現れたのがいつ頃のことかが気になったので,調べてみた.OED では longer として見出しは立っていないので,long の項で例文を探してみると,a1533 に longer が現れている.MED でも同じ事情だったので lōng (adj. (1)) の例文を探すと,a1400 (a1325) に langer が初出する.しかし,例文検索から得られる初出年の情報だけでは心許ない.
一方,leng(er) の最終使用年代を調べるという逆方向の調べ方もしてみた.OED によると,副詞 leng の最終は Chaucer で c1386,形容詞・副詞の lenger は,副詞の用法としての Spenser の1590年が最終例だった.以上を総合すると,14--15世紀頃に longer が現れ,16世紀には歴史的な leng(er) を置き換えたという筋書きになりそうだ.
だが,先に述べたように longer の見出しが立っていない以上,OED の例文に頼るのみで新旧形態の交代過程を結論づけるわけにはいかない.このような目的には,補助的に歴史コーパスが有用である.Helsinki Corpus により,ざっと新旧それぞれの異形態を拾い上げてみた.古英語では第2音節の r は原級の屈折形であることを考慮し,また取りこぼしや雑音混入の可能性にも気をつけたが,完璧ではないかもしれないことを断りつつ,以下に数字を示す.
LONGER | LENG(ER) | |
---|---|---|
O1 | 0 | 1 |
O2 | 0 | 14 |
O3 | 0 | 45 |
O4 | 0 | 7 |
M1 | 0 | 14 |
M2 | 0 | 21 |
M3 | 11 | 26 |
M4 | 3 | 25 |
E1 | 11 | 6 |
E2 | 19 | 0 |
E3 | 46 | 0 |
LONGER | LENG(ER) | |
---|---|---|
CEECS1 | 31 | 6 |
CEECS2 | 37 | 0 |
今年3月に Leuven 大学の Hendrik De Smet により The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) が公開された.編者にメールで使用許可をもらえば無償でダウンロードし利用できる.1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパスである(先行版 CLMETEV の1500万語から大幅に拡大).プレーンテキストとタグ付きテキストで配布されており,70年間で分けた3つの時代区分ごとにヒット数を数える Perl スクリプトが付属しており,とりあえず使うのに便利である.コーパスの構成は以下の通り.
Sub-period | Number of authors | Number of texts | Number of words |
---|---|---|---|
1710--1780 | 51 | 88 | 10,480,431 |
1780--1850 | 70 | 99 | 11,285,587 |
1850--1920 | 91 | 146 | 12,620,207 |
TOTAL | 212 | 333 | 34,386,225 |
Genre | 1710--1780 | 1780--1850 | 1850--1920 |
---|---|---|---|
Narrative fiction | 4,642,670 words | 4,830,718 | 6,311,301 |
Narrative non-fiction | 1,863,855 | 1,940,245 | 958,410 |
Drama | 407,885 | 347,493 | 607,401 |
Letters | 1,016,745 | 714,343 | 479,724 |
Treatise | 1,114,521 | 1,692,992 | 1,782,124 |
Other | 1,434,755 | 1,759,796 | 2,481,247 |
Sub-period | between | betwixt |
---|---|---|
1710--1780 | 4,869 words (464.58 wpm) | 657 (62.69 wpm) |
1780--1850 | 5,457 (483.54 wpm) | 109 (9.66 wpm) |
1850--1920 | 7,672 (607.91 wpm) | 51 (4.04 wpm) |
「#1567. 英語と日本語のオンラインコーパスをいくつか紹介」 ([2013-08-11-1]) で,現代日本語のコーパスとしてKOTONOHA 「現代日本語書き言葉均衡コーパス」に言及した.この『現代日本語書き言葉均衡コーパス』 (BCCWJ: Balanced Corpus of Contemporary Written Japanese) は,大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した本格的なコーパスである.
コーパスの内容については,同サイトに「2012年3月現在,検索対象となっているのは,以下の11種のデータ,合計約1億500万語です」とある.サンプルは,1976--2008年にかけての文書で,その11のジャンルは書籍,雑誌,新聞,白書,教科書,広報紙,Yahoo!知恵袋,Yahoo!ブログ,韻文,法律,国会会議録にわたる.各テキストからは2種類のサンプルが取られており,「ひとつは長さを1000字に固定したサンプル (固定長サンプル),もうひとつは,節や章など文章の意味上のまとまりに対応した単位の全体です (可変長サンプル).これまでの調査によれば,可変長サンプルの平均長は新聞で約1000字,書籍で4000字弱です.」とある.
BCCWJ を利用する方法やインターフェースはいくつかあるが,もっとも簡便なものが,上にもリンクを張った少納言である.登録不要で,表層の文字列によるコーパスの全文検索ができる.出力は無作為の500件と制限があるが,お手軽に試すことができる.
一方,利用申請が必要な中納言では,同コーパスに対して,短単位・長単位・文字列の3つの方法により,形態論的な複雑な検索をかけることができる.
また別のインターフェーとして,NINJAL-LWP for BCCWJ (NLB) がある.現行の1.20版では,BBCWJ のほとんどのデータを対象として,検索をかけることができる.検索ページはこちら.
関連して,NLB と同じインターフェースで利用できるもう1つの日本語コーパスを紹介する.筑波大学がウェブサイトからテキストを収集して編纂した11億語からなる筑波ウェブコーパス (Tsukuba Web Corpus: TWC) へのインターフェース,NINJAL-LWP for TWC (NLT)である.検索ページはこちら.
ノルウェーの Stavanger 大学で,Merja Stenroos 氏が中心となって The Middle English Scribal Texts Programme (MEST) が進行中である.Glasgow 大学と Helsinki 大学の協力のもとに,中英語のテキストのコーパス化が進んでいる.このプログラムは具体的には2つのプロジェクトからなり,1つは1998年に Glasgow 大学が立ち上げた Middle English Grammar Project の延長線上にある The Middle English Grammar Corpus (MEG-C) の編纂で,もう1つは2012年に開始された Language and Geography in Middle English Local Documents (MELD) である.
今回は,前者のプロジェクト MEG-C について紹介したい.このコーパスは,後期中英語の方言地図 LALME のソースとなったテキストを電子化するという目的で編纂されている.姉妹版である初期中英語の方言地図 LAEME が最初からコーパス付きでオンライン公開されたのと対照的に,LALME では,編纂された時代が時代だけに,方言地図が紙媒体で公表されたにすぎなかった.2013年に LALME が改訂・電子化され eLALME としてアクセスできるようになったが,方言地図作成のもととなった資料自体は電子化されていなかった.現在,そのコーパスファイル群がMEG-C files から自由にダウンロードできるようになっている.
MEG-C は,実際には LALME の参照した1350--1500年のソーステキストのみならず,より早い時期のテキストをも含むコーパスとして成長している.長いテキストについては3000語のサンプルを取って収容しているが,現行の2011.1版では,目標とするテキストの半分ほどがカバーされているという.写本やファクシミリから転写しているというから,LAEME のコーパスに勝るとも劣らぬ大変な労力である.ありがたく利用させていただきたい.
早速,MEG-C にちょっとした検索をかけてみた.「#1394. between の異形態の分布の通時的変化」 ([2013-02-19-1]) で見た between の歴史的異形の分布のなかで,とりわけ語尾において x をもつ betwix(t) タイプが,後期中英語でどれくらい使用されていたかに関心があった.そこで検索してみると,104例が -x で終わるタイプ,14例が -xe で終わるタイプ,2例が -xt で終わるタイプという結果が出た.この頻度の傾向は,Helsinki Corpus による M3--M4期からの証拠とほぼ符合する.互いのコーパスの信頼度を測ることができたといえるだろう.
中英語の方言研究も,ますますツールが充実してきた感がある.
・ Stenroos, Merja, Martti Mäkinen, Simon Horobin, and Jeremy Smith. The Middle English Grammar Corpus, version 2011. 1. U of Stavanger, 2011. Online at http://www.uis.no/research/culture/the_middle_english_grammar_project/. Accessed : 4 October 2013.
ウェブ上で用いることのできるコーパスをいくつか紹介したい.
まず,「#1441. JACET 8000 等のベース辞書による語彙レベル分析ツール」 ([2013-04-07-1]) で取り上げた染谷泰正氏は,Business Letter Corpus のオンライン・コンコーダンサーをこちらで公開している.27種のコーパスからの検索が選択可能となっているが,メインは100万語超からなる Business Letter Corpus (BLC2000) とそれにタグ付けした POS-tagged BLC の2つだ.これは1970年代以降の英米その他の出版物から収集したデータである.
Instructions for the First-Time User でまとめられているように,種々のコーパスのなかには,167万語を超える State of the Union Address (1790--2006) などデータをダウンロードできるものもあり,有用である.英作文の学習・教育や,独自データベースのコンコーダンサー作成のために参考になる.
なお,同サイトでは,上述の各種コーパスから N-Gram Search を行なえる Bigram Plus の機能も提供している.N-Gram の検索には,本ブログより「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.
次は,英国のリーズ大学 (University of Leeds) が作成した大規模な Leeds collection of Internet corpora.英語を始め,フランス語,日本語などの様々な言語のコーパスをオンラインで検索できる.
日本語のコーパスの情報については詳しくないが,KOTONOHA 「現代日本語書き言葉均衡コーパス」は充実しているようだ.ほかの日本語コーパスの情報源としては,コーパス日本語学のための情報館 --- コーパス紹介が有用.
昨日の記事「#1554. against の -st 語尾」 ([2013-07-29-1]) に引き続き,非語源的 -st 語の話題.標題の形式張った表現がある.主として文頭などに置かれ,文修飾として「?に知られないで」の意味で用いられる.BrE では unbeknown to が多く用いられるが,AmE では古めかしく見える unbeknownst to がより一般的である.unbeknow(e)ns のように -t が落ちた非標準的な形態も見られる.例文を挙げよう.
・ Unbeknownst to his parents, he and his girlfriend had gotten married.
・ Unbeknownst to her father, she began taking dancing lessons.
・ Unbeknownst to the students, the teacher had entered the room.
・ A person may overhear others unbeknownst to them.
中英語にあった動詞 beknown (recognise, acknowledge) の否定過去分詞形 unbeknown がもとになっている(MED の biknouen (v) を参照).OED によると,否定の接頭辞 un- のついた unbeknown は1636年に初出しているが,さらに語尾に -st を付加した unbeknownst の初出は1854年である.後者はもともと口語的,方言的な響きがあったようだが,20世紀にかけて広く使われるようになった.実際に,COCA (Corpus of Contemporary American English) や Google Books Ngram Viewer で調べてみると,英米変種ともに20世紀後半からの伸び率が著しい.
さて,unbeknownst の -st の語尾音添加 (paragoge) が説明を要する問題である.OED では不明とされており,各種の語源辞典では against, amongst などの -st 語尾からの類推だろうかと自信なさげに述べられている程度である.これらの語と unbeknownst to との類似点は, 前置詞的に機能しているということと,-st の直前の音が鼻音であることぐらいだろうか.-st(t)- という子音連続の観点からは,next to, thanks to などの表現とも関連してくるかもしれない.また,ほかの非語源的な -st 語 (against, amidst, amongst, betwixt, whilst) を並べてみると,およそ「間,中,最中」という共通の意味がくくり出されるように思われるが,unbeknownst も「知られない間に」と解釈することはできる.
非語源的 -st 語に関する記事へのリンクを昨日の記事[2013-07-29-1]の末尾にまとめておいたので,要参照.
(後記 2014/02/24(Mon):Merriam-Webster の辞書の記述を参照.)
英語史では,中英語の方言研究は盛んだが,近代英語期の方言研究はほとんど進んでいない.「#1430. 英語史が近代英語期で止まってしまったかのように見える理由 (2)」 ([2013-03-27-1]) でも触れた通り,近代英語期は英語が標準化,規範化していった時期であり,現代世界に甚大な影響を及ぼしている標準英語という視点に立って英語史を研究しようとすると,どうしても標準変種の歴史を追うことに専心してしまうからかもしれない.その結果か,あるいは原因か,近代英語方言テキストの収集や整理もほとんど進んでいない状況である.近代英語の方言状況を知る最大の情報源は,いまだ「#869. Wright's English Dialect Dictionary」 ([2011-09-13-1]) であり,「#868. EDD Online」 ([2011-09-12-1]) で紹介した通り,そのオンライン版が利用できるようになったとはいえ,まだまだである.
2011年より,University of Salamanca がこの分野の進展を促そうと,近代英語期 (c.1500--c.1950) の方言テキストの収集とデジタル化を進めている.The Salamanca Corpus: Digital Archive of English Dialect Texts は,少しずつ登録テキストが増えてきており,今後,貴重な情報源となってゆくかもしれない.
コーパスというよりは電子テキスト集という体裁だが,その構成は以下の通りである.まず,内容別に DIALECT LITERATURE と LITERARY DIALECTS が区別される.前者は方言で書かれたテキスト,後者は方言について言及のあるテキストである.次に,テキストの年代により1500--1700年, 1700--1800年, 1800--1950年へと大きく3区分され,さらに州別の整理,ジャンル別の仕分けがなされている.
コーパスに収録されている最も早い例は,LITERARY DIALECTS -> 1500--1700年 -> The Northern Counties -> Prose と追っていったところに見つけた William Caxton による Eneydos の "Prologue"(1490年)だろう.テキストは221語にすぎないが,こちらのページ経由で手に入る.[2010-03-30-1]の記事「#337. egges or eyren」で引用した,卵をめぐる方言差をめぐる話しを含む部分である.やや小さいが,刊本画像も閲覧できる.Caxton の言語観を知るためには,[2010-03-30-1]の記事で引用した前後の文脈も重要なので,ぜひ一読を.
「#1424. CELEX2」 ([2013-03-21-1]) で紹介した巨大データベースで何かしてみようと考え,Version 2 で新たに加えられた音節頻度 (English Frequency, Syllables) のサブデータベースにより,現代英語で最も多い音節タイプのランキングを得た.
これは,CELEX2 のもとになっているコーパス全体のうち,7.26%を構成する約130万語の話し言葉サブコーパスから引き出された音節頻度であり,タイプ頻度ではなくトークン頻度によるものである.つまり,話し言葉におけるある単語の頻度が高ければ,その分,その単語に含まれる音節タイプの頻度も高くなるということである.例えば,of を構成する "Ov" (= /ɒv/) と表現される音節は,第4位の頻度である.なお,強勢の有無は考慮せずに頻度を数えている.
以下のリストに挙げる音素表記は,IPA ではなく CELEX 仕様の独特の表記なので,先に対応表を挙げておこう.
では,以下にランキング表でトップ50位までを掲載する.高頻度の単音節語の音節タイプがそのまま上位に反映されていて,あまりおもしろい表ではないが,何かの役に立つときもあるかもしれない.
Rank | Syllable | Frequency |
---|---|---|
1 | eI | 72971 |
2 | Di: | 60967 |
3 | tu: | 31446 |
4 | Ov | 30108 |
5 | In | 29906 |
6 | &nd | 28709 |
7 | aI | 23822 |
8 | lI | 19728 |
9 | @ | 19566 |
10 | rI | 14356 |
11 | ju: | 12598 |
12 | dI | 12465 |
13 | D&t | 12118 |
14 | It | 11504 |
15 | wOz | 10834 |
16 | fO:r* | 9778 |
17 | Iz | 9517 |
18 | tI | 9161 |
19 | fO | 9042 |
20 | Sn, | 8969 |
21 | hi: | 8928 |
22 | r@n | 8638 |
23 | bi: | 8505 |
24 | bI | 7936 |
25 | nI | 7068 |
26 | wID | 7046 |
27 | On | 7030 |
28 | &z | 6919 |
29 | O:l | 6569 |
30 | h&d | 6240 |
31 | E | 6165 |
32 | bl, | 6021 |
33 | sI | 5836 |
34 | @U | 5824 |
35 | t@r* | 5687 |
36 | &t | 5652 |
37 | hIz | 5564 |
38 | bVt | 5416 |
39 | mI | 5397 |
40 | s@ | 5391 |
41 | nOt | 5357 |
42 | D@r* | 5339 |
43 | I | 5283 |
44 | tId | 5259 |
45 | DeI | 5162 |
46 | IN | 5063 |
47 | t@ | 5053 |
48 | s@U | 4974 |
49 | baI | 4894 |
50 | h&v | 4769 |
Please note that the English corpus used by CELEX for deriving these frequencies contains only 7.3% spoken material. This means there is a rather tenuous relationship between the full frequency figures, which are based on written forms, and the syllable frequencies, which merely refer to phonemic conversions of these graphemic transcriptions. Of course it could be argued that frequencies of syllables, as lexical sub-units, are less liable to get skewed from differences in medium than full words, but it has to be taken into account that NO FIRM EVIDENCE ABOUT SPOKEN FREQUENCIES can be derived from these data.
「#13. 英国のパブから ye が消えていくゆゆしき問題」 ([2009-05-11-2]) で,ye や ye が定冠詞 the の代わりに用いられる擬古的な綴字について触れた.
þ (thorn) と y との字形の類似による混同は中英語期から見られたが,この混乱がいわば慣習化したのは þ が衰退してからである.þ が廃れていったのは,「#1329. 英語史における eth, thorn, <th> の盛衰」 ([2012-12-16-1]) や「#1330. 初期中英語における eth, thorn, <th> の盛衰」 ([2012-12-17-1]) で確認したように,Helsinki Corpus の時代区分によるME第4期 (1420--1500) 以降である.それに呼応して,擬古的な定冠詞 ye は近代英語期に入ってから頻度を増してきた.OED を参照すると,ye の使用は中英語から17世紀にかけて,とある.
では,中英語から初期近代英語にかけて,具体的にどの程度 ye が用いられたのだろうか.これを調べるために PPCME2, PPCEME, PPCMBE のPOSファイル群で "ye/D" を検索してみた.MEからは1例のみ,EModEから1259例,LModEから5例が挙がった.各コーパスはおよそ130万語,180万語,100万語からなるが,総語数を考えずとも,傾向は歴然としている.初期近代英語で急激に現われだし,一気に衰微したということである.ただし,PPCEME の1259例のうち975例は,The Journal of George Fox (1673--74) という1作品からである.ほかには10例以上現われるテキストが4つあるのみで,残りは20テキストに少数例ずつ散らばっているにすぎないという分布ではある.隆盛を極めたというよりは,地味な流行といった感じだろうか.
先日,ロンドンを訪れた際に,145 Fleet St の老舗パブ "Ye Olde Cheshire Cheese" と 42 Ludgate Hill の "Ye Olde London" の看板を撮影してきた.残念ながらここでエールを一杯やる機会はなかったけれども,別のパブでは一杯(だけではなく)やりました.
英単語の頻度に関連する諸研究(Betty Phillips など)で,CELEX という語彙データベースが使用されているのを見かけることがある.現在取りかかっている研究で,巨大コーパスに基づいた信頼できる語彙頻度統計が必要になったので,郵送料込みで350ドルするこの高価なデータベースを入手してみた.現行版は第2版であり,CELEX2 として購入できる.(なお,予想していなかったが,入手した CD-ROM には,LDC99T42 というデータベースも含まれていた.ここには tagged Brown Corpus, Wall Street Journal, Switchboard tagged など Treebank 系のコーパスが入っている.)
さて,CELEX2 には,英語語彙に関する複数のデータベースが納められている.それぞれのデータベースには,正書法,音韻,音節,形態,統語の各観点から,見出し語 (lemma) あるいは語形 (wordform) ごとに,ソース・コーパス内での頻度等の情報が格納されている.具体的には,次の11のデータベースが利用可能である.
ect (English Corpus Types)
efl (English Frequency, Lemmas)
efs (English Frequency, Syllables)
efw (English Frequency, Wordforms)
eml (English Morphology, Lemmas)
emw (English Morphology, Wordforms)
eol (English Orthography, Lemmas)
eow (English Orthography, Wordforms)
epl (English Phonology, Lemmas)
epw (English Phonology, Wordforms)
esl (English Syntax, Lemmas)
見出し語あるいは語形ごとの token 頻度の取り出しに強いデータベースという認識で購入したが,実際には,含まれている情報の種類は驚くほど豊富で,11のデータベースすべてを合わせたフィールド数はのべ250以上に及ぶ.行数は efl で52,447行,efw で160,595行という巨大さだ.検索用の SQLite DB をこしらえたら,容量にして90MBを超えてしまった.
CELEX2 のソースは,辞書情報については Oxford Advanced Learner's Dictionary (1974) 及び Longman Dictionary of Contemporary English (1978) であり,頻度情報については 1790万語からなる COBUILD/Birmingham corpus である.このコーパスの構成は,1660万語 (92.74%) が書き言葉コーパス,130万語 (7.26%) が話し言葉コーパスで,前者を構成する284テキストのうち44テキスト (15.49%) がアメリカ英語である.しかし,これらのアメリカ英語はほとんどがイギリス英語の綴字に直されていることに注意したい.
CELEX2 における "lemma" の定義は,以下の5点に依存する.
(1) orthography of the wordforms: peek vs peak
(2) syntactic class: meet (adj.) vs meet (adv.)
(3) inflectional paradigm: water (v.) vs water (n.)
(4) morphological structure: rubber (someone or something that rubs) vs rubber (the elastic substance)
(5) pronunciation of the wordforms: recount [ˈriː-kaʊnt] vs recount [rɪ-ˈkaʊnt]
したがって,通常異なる lexeme として扱われる bank (土手)と bank (銀行)などは,CELEX2 では同一の lemma として扱われているので注意が必要である.
このように CELEX2 は非常に強力な語彙頻度データベースだが,その他にも語彙頻度研究に資するデータベースやツールは存在する.本ブログで触れたものとしては,frequency statistics lexicology の各記事や,特に以下の記事が参考になるだろう.
・ 「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1])
・ 「#607. Google Books Ngram Viewer」 ([2010-12-25-1])
・ 「#708. Frequency Sorter CGI」 ([2011-04-05-1])
・ 「#1159. MRC Psycholinguistic Database Search」 ([2012-06-29-1])
・ Baayen R. H., R. Piepenbrock and L. Gulikers. CELEX2. CD-ROM. Philadelphia: Linguistic Data Consortium, 1996.
Powered by WinChalow1.0rc4 based on chalow