hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 12 次ページ / page 5 (12)

corpus - hellog〜英語史ブログ

最終更新時間: 2023-06-04 11:37

2014-12-01 Mon

#2044. なぜ mayn't が使われないのか? (1) [auxiliary_verb][negative][tag_question][bnc][corpus][sobokunagimon]

 なぜ may not の短縮形 mayn't が現代英語では一般的に用いられないのかという質問をいただいた.確かに不思議だと思っていたのだが,これまで扱わずにきたので少し考えてみたい.
 法助動詞が否定辞を伴う形には,たいてい対応する短縮形がある.can't, couldn't, won't, wouldn't, shouldn't, mightn't, mustn't, needn't, use(d)n't, oughtn't 等々だ.しかし,mayn't はあまりお目にかからない.実際のところ大きな辞書には記載があるのだが,レーベルとしては口語的であるとか古風であるとか,特殊な用法とされている.OED でも mayn't は "(colloq., now rare)" や "rare in all varieties of English" とあり,標準英語をターゲットとする英語教育において教えられていないのも無理からぬことである.Quirk et al. (122) でも,mayn'tshan't とともに用いられなくなってきていることが述べられている.

Every auxiliary except the am form of BE has a contracted negative form . . ., but two of these, mayn't and shan't, are now virtually nonexistent in AmE, while in BrE shan't is becoming rare and mayn't even more so.


 また Quirk et al. (811--12) は,付加疑問において mayn't I? などの形が使いにくい現状のぎこちなさにも言い及んでいる.mightn't I?can't I? で代用する話者もいるようだが,スマートではない.may I not? は常に可能だが,堅苦しすぎて多くの文脈にはふさわしくない.

The negative tag question following a positive statement with modal auxiliary may poses a problem because the abbreviated form mayn't is rare (virtually not found in AmE). There is no obvious solution for the tag question, though some speakers will substitute mightn't or can't or --- when the reference is future --- won't:
   ?I may inspect the books, | mightn't I?
                             | can't I?
   ?They may be here next week, | mightn't they?
                                | won't they?
The abbreviated form is fully acceptable, but limited to formal usage:
   I may inspect the books, may I not?
   They may be here next week, may they not?


 さて,BNC で mayn't を検索すると7例のみヒットした.話し言葉サブコーパスからは2例のみだが,書き言葉サブコーパスからの5例も口語的な文脈において生起している.7例中3例が mayn't you?, mayn't it?, mayn't there といった付加疑問のなかで現われており,一応は使用されていることがわかるが,1億語規模のコーパスでこれだけの例数ということは,やはり事実上の不使用といってよいだろう.
 can'tmightn't との平行性を断ち切り,かつ付加疑問におけるそのぎこちなさを甘受してまでも mayn't の使用は避けるというこの状況は,いったいどのように理解すればよいのだろうか.歴史的に何か解明できるのだろうか.歴史的な事情について,明日の記事で考察したい.

 ・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.

Referrer (Inside): [2019-05-22-1] [2014-12-02-1]

[ 固定リンク | 印刷用ページ ]

2014-11-05 Wed

#2018. <nacio(u)n> → <nation> の綴字変化 [spelling][latin][etymological_respelling][corpus][hc][eebo]

 近現代英語で <nation> と綴られる語は,中英語では主として <nacio(u)n> と綴られていた.<nacio(u)> → <nation> の変化は,具体的にはなぜ,いつ,どのように生じたのだろうか.ここでは母音字 <ou> → <o> の変化と,子音字 <c> → <t> の変化を分けて考える必要がある.
 まず母音字の変化について考えよう.中尾 (331) によると,俗ラテン語において /o/ + 鼻音で終わる閉音節は,対応する Norman French の形態では鼻母音化した短母音 /ʊ/ あるいは長母音 /uː/ を示した.この音をもつ語が中英語へ借用されると,round, troumpe, count, nombre, countrefeten, countour, cuntree, counseil, commissioun, condicioun, nacioun, resoun, sesoun, religioun などと綴られた.-<sioun> や -<tioun> の発音は,対応する現代の -<sion> や -<tion> の発音 /ʃ(ə)n/ とは異なり,いまだ同化も弱化もしておらず,完全な音価 /siuːn/ を保っていたと考えられる.後期中英語から初期近代英語にかけてこの音節に強勢が落ちなくなってくると,同化や弱化が始まり,現在の /ʃ(ə)n/ に近づいていったろう.この過程で長母音を示唆する綴字 -<ioun> はふさわしくないと感じられ,1文字を落として -<ion> とするのが一般化したと想像される.
 しかし,<ou> → <o> の変化が単に発音と綴字を一致させるべく生じたものであるという説明が妥当かどうかは検証の余地がある.そこには多少なりとも語源的綴字 (etymological_respelling) の作用があったのではないか.というのは,ME nacioun が後に nation へ変化したとき,変化したのは問題の母音字だけではなく,先行する子音字の <c> から <t> への変化もろともだったからである.Upward and Davidson (97) によると,

The letter C with the value /s/ before E and I in OFr had two main sources. One was Lat C: Lat certanus > certain. The other was Lat T, which before unstressed E, I acquired the same value, /ts/, as C had in LLat. Medieval Lat commonly alternated T and C in such cases: nacionem or nationem, whence the widespread use of forms such as nacion in OFr and ME. The C adopted in LLat, OFr and ME for classical Lat T has sometimes survived into ModE: Lat spatium > space; platea > place. Elsewhere, a later preference for classical Lat etymology has led to the restoration of T in place of C, as in the -TION endings: ModE nation.


つまり,<nacio(u)n> → <nation> における母音字の変化も子音字の変化も,古典ラテン語の綴字に一致させるべく生じたものではないか.
 この綴字変化がいつ,どのように生じたかについて,歴史コーパスを用いて調査してみた.まずは Helsinki Corpus に当たって,次の結果を得た(以下の検索では,いずれも複数語尾のついた綴字なども一緒に拾ってある).件数は少ないものの,16世紀が変化の時期だったことがうかがわれる.


<nacion> (<nacioon>)<nation>
M2 (1250--1350) 0 (1)0
M3 (1350--1420)7 (1)0
M4 (1420--1500)2 (0)0
E1 (1500--1569)2 (0)2
E2 (1570--1639)0 (0)13
E3 (1640--1710)0 (0)14


 前回と同様,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,大雑把な年代区分で仕分けした限り,明確な結果の解釈は難しい.


<nacion><nation>
CEECS1 (1418--1638)212
CEECS2 (1580--1680)127


 有用な結果を得ることができたのは,EEBO (Early English Books Online) からのテキストを蓄積して個人的に作っている巨大なデータベースの検索によってである.半世紀ごとに区分した各サブコーパスの規模はそれぞれ異なるので,通時的な数値の単純比較はできないが,それぞれの時代における異綴字の相対的な分布は一目瞭然だろう.


<nacion><nacioun><nation><natioun>
1451--1500 (123,537 words)4000
1501--1550 (1,825,565 words)900820
1551--1600 (6,648,588 words)64094713
1601--1650 (21,296,378 words)1806,4510
1651--1700 (38,545,254 words)11022,3501
1701--1750 (33,741 words)00120


 母音字については,初期近代英語期の入り口までにすでに <-ioun> 形はほぼ廃れていたようである.そして,子音字については,16世紀中に一気に <t> が <c> を置き換えていった様子がわかる.少なくともこの子音字の変化のタイミングについては,一般に語源的綴字の最盛期といわれる16世紀に一致していることは指摘しておいてよいだろう.一方,母音字の変化については,語源的綴字による説明を排除するわけではないが,生じた時期が相対的に早かったことから,先述のとおり発音と綴字を一致させようという動機づけに基づいていた可能性が高いのではないか.

 ・ 中尾 俊夫 『音韻史』 英語学大系第11巻,大修館書店,1985年.

Referrer (Inside): [2015-11-26-1] [2014-12-06-1]

[ 固定リンク | 印刷用ページ ]

2014-10-09 Thu

#1991. 歴史語用論の発展の背景にある言語学の "paradigm shift" [historical_pragmatics][pragmatics][history_of_linguistics][corpus]

 「#545. 歴史語用論」 ([2010-10-24-1]) で紹介したように,近年,歴史語用論 (historical_pragmatics) が勢いを増している.ここ数年の国際学会の発表や出版物のタイトルを見ていても,その影響力が増してきていることは疑いえない.2013年に英語歴史語用論の入門書を著わした Jucker and Taavitsainen は,この勢いを言語学の "paradigm shift" によるものと位置づけている.その "paradigm shift" は,以下の6点に要約される (5--9) .

 (1) From core areas to sociolinguistics and pragmatics
 (2) From homogeneity to heterogeneity
 (3) From internalised to externalised language
 (4) From introspection to empirical investigation
 (5) Renewed interest in diachrony
 (6) From stable to discursive features

 逆にいえば,この6つの潮流の行き着く先を眺めると,そこに歴史語用論や歴史社会言語学があるといった風の箇条書きである.歴史語用論学者の手前味噌という気味もないではないが,ここ四半世紀の言語学の潮流をよく言い表しているとは思う.この6点を強引に手短にまとめれば,近年の言語学では「外部化された言語実体の多様性,通時的な振る舞い,あるいは談話に対する社会的・語用的な関心が高まってきており,経験主義的な研究方法が重視されるようになってきた」ということになるだろう.さらに私的に短縮していえば「言語の揺らぎへの関心の高まり」である.
 上の6つの潮流は互いに密接に関係し合っており,その扇の要に位置している部品として(特に歴史的な)電子コーパスを指摘しておくことは重要だろう.コーパスを歴史語用論の研究に応用することは必ずしも容易ではないが,事例研究は着実に増えてきているし,その方法論も開発されてきている.
 この分野の発展には,おおいに期待したいところである.というのは,"English historical sociopragmatic" なる分野の興隆は,伝統的に日本の中世英語研究が目指してきた "English philology" の再発展へとつながるはずだからだ.一皮むけた英語文献学を見るべく,英語歴史語用論も学んでいく必要がある.

 ・ Jucker, Andreas H. and Irma Taavitsainen. English Historical Pragmatics. Edinburgh: Edinburgh UP, 2013.

Referrer (Inside): [2019-12-28-1] [2014-10-18-1]

[ 固定リンク | 印刷用ページ ]

2014-10-01 Wed

#1983. -ick or -ic (3) [suffix][corpus][spelling][emode][eebo][johnson]

 昨日の記事「#1982. -ick or -ic (2)」 ([2014-09-30-1]) に引き続き,初期近代英語での -ic(k) 語の異綴りの分布(推移)を調査する.使用するコーパスは市販のものではなく,個人的に EEBO (Early English Books Online) からダウンロードして蓄積した巨大テキスト集である.まだコーパス風に整備しておらず,代表性も均衡も保たれていない単なるテキストの集合という体なので,調査結果は仮のものとして解釈しておきたい.時代区分は16世紀と17世紀に大雑把に分け,それぞれコーパスサイズは923,115語,9,637,954語である(コーパスサイズに10倍以上の開きがある不均衡な実態に注意).以下では,100万語当たりの頻度 (wpm) で示してある.

Spelling pairPeriod 1 (1501--1600) (in wpm)Period 2 (1601--1700) (in wpm)
angelick / angelic0.00 / 0.001.45 / 0.21
antick / antic0.00 / 0.002.49 / 0.10
apoplectick / apoplectic0.00 / 0.000.21 / 0.00
aquatick / aquatic0.00 / 0.000.10 / 0.00
arabick / arabic0.00 / 0.000.52 / 0.10
archbishoprick / archbishopric0.00 / 0.000.10 / 0.00
arctick / arctic0.00 / 0.000.42 / 0.00
arithmetick / arithmetic0.00 / 0.003.22 / 0.31
aromatick / aromatic0.00 / 0.000.83 / 0.10
asiatick / asiatic0.00 / 0.000.31 / 0.00
attick / attic0.00 / 0.000.31 / 0.21
authentick / authentic0.00 / 0.003.94 / 0.42
balsamick / balsamic0.00 / 0.000.73 / 0.10
baltick / baltic0.00 / 0.000.93 / 0.00
bishoprick / bishopric1.08 / 0.004.25 / 0.00
bombastick / bombastic0.00 / 0.000.10 / 0.00
catholick / catholic5.42 / 0.0038.39 / 1.97
caustick / caustic0.00 / 0.000.21 / 0.00
characteristick / characteristic0.00 / 0.000.21 / 0.10
cholick / cholic0.00 / 0.000.93 / 0.00
comick / comic1.08 / 0.001.45 / 0.10
critick / critic0.00 / 0.001.76 / 1.87
despotick / despotic0.00 / 0.000.62 / 0.21
domestick / domestic0.00 / 0.008.09 / 0.21
dominick / dominic1.08 / 0.000.62 / 0.42
dramatick / dramatic0.00 / 0.000.83 / 0.10
emetick / emetic0.00 / 0.000.31 / 0.00
epick / epic0.00 / 0.000.21 / 0.10
ethick / ethic0.00 / 0.000.00 / 0.10
exotick / exotic0.00 / 0.000.73 / 0.10
fabrick / fabric0.00 / 0.008.72 / 0.31
fantastick / fantastic1.08 / 0.003.42 / 0.10
frantick / frantic1.08 / 0.003.94 / 0.00
frolick / frolic1.08 / 0.003.32 / 0.00
gallick / gallic0.00 / 0.003.32 / 0.52
garlick / garlic0.00 / 0.002.28 / 0.00
heretick / heretic2.17 / 0.006.02 / 0.00
heroick / heroic0.00 / 0.0016.91 / 1.35
hieroglyphick / hieroglyphic0.00 / 0.000.31 / 0.00
lethargick / lethargic0.00 / 0.000.52 / 0.10
logick / logic0.00 / 0.007.06 / 1.04
lunatick / lunatic0.00 / 0.001.66 / 0.00
lyrick / lyric0.00 / 0.000.42 / 0.10
magick / magic2.17 / 0.003.32 / 0.10
majestick / majestic0.00 / 0.004.88 / 0.42
mechanick / mechanic0.00 / 0.004.15 / 0.00
metallick / metallic0.00 / 0.000.21 / 0.00
metaphysick / metaphysic0.00 / 0.000.10 / 0.21
mimick / mimic0.00 / 0.000.42 / 0.00
musick / music7.58 / 627.2240.98 / 251.40
mystick / mystic0.00 / 0.001.45 / 0.10
panegyrick / panegyric0.00 / 0.004.46 / 0.10
panick / panic0.00 / 0.001.35 / 0.10
paralytick / paralytic0.00 / 0.000.10 / 0.00
pedantick / pedantic0.00 / 0.000.93 / 0.00
philosophick / philosophic0.00 / 0.000.00 / 0.21
physick / physic1.08 / 0.0027.39 / 1.56
plastick / plastic0.00 / 0.000.21 / 0.00
platonick / platonic0.00 / 0.000.93 / 0.00
politick / politic0.00 / 0.0015.98 / 1.14
prognostick / prognostic0.00 / 0.000.52 / 0.00
publick / public5.42 / 3.25237.39 / 5.71
relick / relic0.00 / 0.000.52 / 0.00
republick / republic0.00 / 0.003.01 / 0.31
rhetorick / rhetoric0.00 / 0.005.71 / 0.21
rheumatick / rheumatic0.00 / 0.000.21 / 0.00
romantick / romantic0.00 / 0.000.83 / 0.00
rustick / rustic0.00 / 0.001.66 / 0.00
sceptick / sceptic0.00 / 0.000.10 / 0.10
scholastick / scholastic0.00 / 0.000.31 / 0.42
stoick / stoic0.00 / 0.000.93 / 0.00
sympathetick / sympathetic0.00 / 0.000.21 / 0.00
topick / topic0.00 / 0.001.45 / 0.00
traffick / traffic3.25 / 0.008.61 / 0.42
tragick / tragic3.25 / 0.002.91 / 0.00
tropick / tropic0.00 / 0.001.04 / 0.00


 全体として眺めると,初期近代英語では -ick のほうが -ic よりも優勢である.-ic が例外的に優勢なのは,16世紀からの music と,17世紀の critic, scholastic くらいである.昨日の結果と合わせて推測すると,1700年以降,おそらく18世紀前半の間に,-ick から -ic への形勢の逆転が比較的急速に進行していたのではないか.個々の語において逆転のスピードは多少異なるようだが,一般的な傾向はつかむことができた.18世紀半ばに -ick を選んだ Johnson は,やはり保守的だったようだ.

[ 固定リンク | 印刷用ページ ]

2014-09-30 Tue

#1982. -ick or -ic (2) [suffix][johnson][webster][corpus][spelling][clmet][lmode]

 「#872. -ick or -ic」 ([2011-09-16-1]) の記事で,<public> と <publick> の綴字の分布の通時的変化について,Google Books Ngram ViewerGoogle Books: American English を用いて簡易調査した.-ic と -ick の歴史上の変異については,Johnson の A Dictionary of the English Language (1755) では前者が好まれていたが,Webster の The American Dictionary of the English Language (1828) では後者へと舵を切っていたと一般論を述べた.しかし,この一般論は少々訂正が必要のようだ.
 「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で紹介した CLMET3.0 を用いて,後期近代英語の主たる -ic(k) 語の綴字を調査してみた.1710--1920年の期間を3期に分けて,それぞれの綴字で頻度をとっただけだが,結果を以下に掲げよう.

Spelling pairPeriod 1 (1710--1780)Period 2 (1780--1850)Period 3 (1850--1920)
angelick / angelic6 / 500 / 680 / 50
antick / antic4 / 101 / 60 / 3
apoplectick / apoplectic0 / 101 / 190 / 14
aquatick / aquatic1 / 20 / 350 / 56
arabick / arabic2 / 1010 / 450 / 115
archbishoprick / archbishopric4 / 72 / 20 / 8
arctick / arctic1 / 50 / 200 / 93
arithmetick / arithmetic9 / 320 / 770 / 98
aromatick / aromatic4 / 140 / 290 / 36
asiatick / asiatic1 / 1010 / 480 / 76
attick / attic1 / 320 / 340 / 71
authentick / authentic4 / 1600 / 790 / 68
balsamick / balsamic1 / 10 / 50 / 1
baltick / baltic4 / 500 / 330 / 43
bishoprick / bishopric3 / 282 / 90 / 19
bombastick / bombastic1 / 20 / 30 / 4
cathartick / cathartic0 / 11 / 00 / 0
catholick / catholic7 / 2910 / 3420 / 296
caustick / caustic1 / 20 / 110 / 20
characteristick / characteristic8 / 920 / 3540 / 687
cholick / cholic1 / 130 / 20 / 1
comick / comic1 / 680 / 670 / 165
coptick / coptic1 / 110 / 30 / 35
critick / critic12 / 1530 / 1680 / 155
despotick / despotic9 / 660 / 510 / 65
dialectick / dialectic1 / 00 / 00 / 6
didactick / didactic0 / 101 / 200 / 23
domestick / domestic46 / 7330 / 7360 / 488
dominick / dominic4 / 110 / 141 / 3
dramatick / dramatic8 / 2140 / 2060 / 216
elliptick / elliptic1 / 10 / 80 / 2
emetick / emetic4 / 50 / 70 / 5
epick / epic1 / 680 / 831 / 38
ethick / ethic1 / 60 / 00 / 3
exotick / exotic2 / 70 / 200 / 38
fabrick / fabric15 / 1161 / 840 / 111
fantastick / fantastic9 / 450 / 1570 / 198
frantick / frantic5 / 882 / 1630 / 124
frolick / frolic19 / 440 / 460 / 32
gaelick / gaelic1 / 10 / 300 / 64
gallick / gallic1 / 750 / 110 / 10
gothick / gothic2 / 4980 / 1310 / 66
heretick / heretic2 / 310 / 370 / 24
heroick / heroic17 / 2012 / 2240 / 211
hieroglyphick / hieroglyphic2 / 40 / 70 / 8
hysterick / hysteric1 / 90 / 100 / 6
laconick / laconic2 / 130 / 140 / 7
lethargick / lethargic1 / 120 / 80 / 14
logick / logic4 / 620 / 3610 / 367
lunatick / lunatic2 / 320 / 340 / 77
lyrick / lyric3 / 150 / 260 / 37
magick / magic9 / 1100 / 2960 / 292
majestick / majestic4 / 730 / 1491 / 115
mechanick / mechanic6 / 790 / 470 / 58
metallick / metallic1 / 90 / 790 / 137
metaphysick / metaphysic1 / 20 / 110 / 9
mimick / mimic2 / 251 / 460 / 23
musick / music87 / 5493 / 12203 / 1684
mystick / mystic1 / 390 / 920 / 167
obstetrick / obstetric1 / 20 / 10 / 0
panegyrick / panegyric19 / 1210 / 430 / 16
panick / panic14 / 581 / 900 / 314
paralytick / paralytic1 / 150 / 410 / 14
pedantick / pedantic3 / 310 / 280 / 29
philippick / philippic2 / 20 / 30 / 2
philosophick / philosophic1 / 1400 / 800 / 155
physick / physic35 / 1574 / 513 / 38
plastick / plastic1 / 40 / 190 / 32
platonick / platonic5 / 480 / 300 / 22
politick / politic8 / 402 / 370 / 51
prognostick / prognostic2 / 180 / 50 / 1
publick / public767 / 33501 / 31712 / 2606
relick / relic1 / 264 / 560 / 65
republick / republic12 / 5150 / 1850 / 171
rhetorick / rhetoric26 / 1092 / 400 / 65
rheumatick / rheumatic1 / 70 / 330 / 30
romantick / romantic32 / 1910 / 3460 / 322
rustick / rustic3 / 1020 / 1570 / 80
sarcastick / sarcastic1 / 370 / 660 / 60
sceptick / sceptic3 / 260 / 190 / 26
scholastick / scholastic2 / 240 / 420 / 46
sciatick / sciatic1 / 10 / 10 / 3
scientifick / scientific2 / 160 / 4510 / 814
stoick / stoic5 / 341 / 150 / 26
sympathetick / sympathetic3 / 260 / 700 / 248
systematick / systematic1 / 130 / 640 / 104
topick / topic12 / 1280 / 1770 / 176
traffick / traffic80 / 671 / 1640 / 203
tragick / tragic4 / 650 / 650 / 209
tropick / tropic12 / 370 / 70 / 23


 第2期以降 (1780--1920) は,すべての語において事実上 -ic のみとなったとみてよいが,18世紀の大半を含む第1期 (1710--1780) については,ここかしこに保守的な -ick が散見される.語によっては <critick>, <frolick>, <heroick>, <musick>, <panegyrick>, <panick>, <physick>, <publick>, <rhetorick>, <romantick>, <tropick> など そこそこの頻度を示すものもあるし,<traffick> ではむしろ -ic 形よりも優勢だ(なお,屈折語尾としての -ic(k) ではないが,garlick/garlic は,第1期 17 / 7, 第2期 1 / 8, 第3期 0 / 11 を数え,最初期に -ick が優勢だったもう1つの例である).しかし,全体として -ick 形は散見されるにすぎず,すでに18世紀より -ic 形が幅を利かせていたことがわかる.つまり,18世紀半ばの Johnson の辞書では,すでに影の薄くなっていた保守的な -ic が,半ば意識的に採用されたという解釈が成り立ちそうだ.Webster の時代ではなく,Johnson の時代にすでに -ic 形は事実上の市民権を得ていたと考えられる.
 しかし,CLMET で得られた後期近代英語の趨勢を歴史の中に適切に位置づけて解釈するためには,先行する初期近代英語における異綴字の分布(変化)も押えておく必要があるだろう.それについては明日の記事で.

Referrer (Inside): [2014-10-01-1]

[ 固定リンク | 印刷用ページ ]

2014-04-15 Tue

#1814. 18--19世紀の be 完了の衰退を CLMET で確認 [perfect][clmet][corpus][syntax][be][auxiliary_verb][aspect][participle][lmode]

 「#1653. be 完了の歴史」 ([2013-11-05-1]) で,変移動詞 (mutative verb) は,18世紀末まで,通常 be + 過去分詞というかたちで完了形を作っていたことを見た.英語史では,この be 完了が18世紀末辺りを境に衰退の一途をたどることになったとされている.「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で紹介した CLMET3.0 は,1710--1920年をカバーする約3,400万語からなる大型バランスコーパスであり,この種の言語変化を追うには最適なリソースと思われるので,これを用いて be 完了の衰退を確認してみた.
 今回は,先の記事でも取り上げた7つの変移動詞 (arrive, become, come, fall, flee, grow; go) に限定し,CLMET3.0 の3つの時代区分 (1710--1780, 1780--1850, 1850--1920) と6つのジャンル分け (Narrative fiction, Narrative non-fiction, Drama, Letters, Treatise, Other) にしたがって,コーパスから用例を拾った.3つの時期のサブコーパスの規模はおよそ同程度だが,ジャンル別のサブコーパスは,[2013-10-20-1]の表で示したように,Narrative fiction に大きく偏っているので,その解釈には注意を要する.以下,(1)--(7) に各動詞に関する推移の積み上げ棒グラフ,(8), (9) に7動詞をひっくるめたジャンル別,動詞別のシェアを示す積み上げ棒グラフを示す.(1)--(6) については,比較のためにY軸の最大値を揃えてある.データファイルと頻度表はソースHTMLを参照されたい.

Be Perfect with Seven Verbs


 動詞によって衰退のスピードに若干の違いがみられるが,全体として急激に衰退したというよりは,比較的穏やかに,着実に衰退していったという印象を受ける.ただし,(7) の go は(現代英語でも be gone がイディオム化して残っていることから分かるように)後期近代英語期中にはそれほど落ち込んでおらず,しかも用例数が他の動詞よりも大きく上回っているために,(8) や (9) に示されるような be 完了の衰退の全体像を多少なりとも歪めていることには注意する必要がある.

[ 固定リンク | 印刷用ページ ]

2014-04-09 Wed

#1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter) [cgi][web_service][corpus][archer][mode]

 この2日間の記事「#1806. ARCHER で shewshow」 ([2014-04-07-1]) と「#1807. ARCHER で betweenbetwixt」 ([2014-04-08-1]) で,ARCHERUntagged 版 を用いて,語の変異形の頻度が通時的にどのように推移してきたかを調査した.
 近代英語の初期から後期を含むコーパスとしては,ほかに CEECS (The Corpus of Early English Correspondence, LC (The Lampeter Corpus of Early Modern English Tracts), CLMET3.0 (The Corpus of Late Modern English Texts, version 3.0), PPCMBE, COHA などがあり,それぞれに特徴があるが,ARCHER は,1600--1999年というまとまった期間をカバーし,英米変種それぞれについてジャンル分けがなされており,比較的大型の歴史コーパスとして価値が高い.しかし,「#1802. ARCHER 3.2」 ([2014-04-03-1]) で紹介した通り,現在ウェブ上で一般公開されている版については,いまだタグ検索などが実装されておらず,可能性を最大限に利用することはできない.しかし,工夫次第でいろいろと活用できる.実装されている Frequency lists や Keywords の機能はアイディア次第で有効に使えそうだし,コーパス全体の単語頻度リスト (TXT)も公開されている.
 通時的な言語変化という観点から ARCHER に望む機能は,この2日間の記事で調査したように,ある検索語の頻度が時期を追って(ついでにジャンル別に)どのように推移してきたかを,簡単に確認できるようにすることだ.Restricted query で時期とジャンルを絞り,検索欄に検索語を入力してヒット数を数えてゆくということは手作業でできるが,時間がかかるし面倒だ.「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) や COHA では,この通時的な一覧を可能にする機能が実装されているので,ARCHER でも余計に同様の機能が欲しくなる.そこで,欲しいのならば作ってしまおうということで,簡単なスクリプトを組んだ.ARCHER の検索結果のコンコーダンス・ラインには,テキストを表わすファイル名が付されているが,ファイル名の仕様によれば,末尾3文字がそれぞれジャンル,時期,英米変種のいずれかを表わす記号となっている.そこで,検索結果をコピーして,以下のテキストボックスに貼り付けてやると,適切にファイル名を解析し,時期,ジャンル,変種ごとにヒット数を整理してくれ,グラフ化してくれるというツール (ARCHER Period-Genre Sorter) を作成した.ARCHER での出力結果が数ページにまたがる場合には,少し手数がかかるが,各ページをコピペして累積していけばよい.

    


 このツールの使用の応用例として,ここ数世紀の間で使用頻度が衰退しただろうと疑われる4語,shall, thou (= thou, thy, thee, thine), upon, whom を取り上げる.今回は,イギリス英語のサブコーパスのみに限定した.以下は,ツールが返した集計表をもとにグラフ化したものである.(ツールがどのように機能するかを確認するために,試しに ARCHER による 'thou' の出力結果のテキストファイル (194KB) の内容を上のテキストボックスにコピペされたい.)

'shall', 'thou', 'upon', and 'whom' in ARCHER

Referrer (Inside): [2018-01-12-1]

[ 固定リンク | 印刷用ページ ]

2014-04-08 Tue

#1807. ARCHER で betweenbetwixt [spelling][corpus][archer][mode]

 昨日の記事「#1806. ARCHER で shewshow」 ([2014-04-07-1]) に引き続き,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,別の問題に臨む.標記の betweenbetwixt の後期近代英語における分布について,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で話題にしたが,ARCHERUntagged 版ではどのような調査結果が出るだろうか.
 検索にあたっては,とりわけ17世紀の段階では綴字が完全に定まっていたわけではないため,それぞれの語の異綴字も考慮に入れた.具体的には,between 系列として between, betweene, betwen, betwene, betwn が,betwixt 系列として betwixt, betwext が異綴字として挙がってきた.昨日と同様に,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.以下に,集計結果のグラフのみ示す(データファイルと頻度表はソースHTMLを参照されたい).なお,betwixt and between の形では1例も現れていない.

'between' or 'betwixt' in ARCHER

 全体として,17--19世紀のどの時期においても between が圧倒していることは,以前の CLMET3.0 による調査結果からも予想されたことである.しかし,P2--P3 (1650--1749) の時期に限ってではあるが,betwixt が20%ほどのシェアを占めていたという事実は注目してよい(P1のサブコーパスは他の各時期のサブコーパスの1/3ほどの規模であることにも注意).CLMET3.0 による調査でも18世紀中までは bewixt が10%ほどのシェアを占めていたという結果が出ているから,大雑把にいって1750年くらいまでは betwixbetween の異形としてそれなりの存在感を示していたことが確認できた.

[ 固定リンク | 印刷用ページ ]

2014-04-07 Mon

#1806. ARCHER で shewshow [spelling][corpus][archer][mode]

 標記の語を巡る綴字の変異について,「#1415. shewshow (1)」 ([2013-03-12-1]),「#1416. shewshow (2)」 ([2013-03-13-1]),「#1716. shewshow (3)」 ([2014-01-07-1]) で取り上げてきた.今回は,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,近代英語期における両綴字の分布を改めて確認しよう.
 ARCHER: A Representative Corpus of Historical English RegistersUntagged 版で,shew 系列 (shew, shews, shewed, shewn, shewing) と show 系列 (show, shows, showed, shown, showing) の語形を検索し,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.データファイルと頻度表はソースHTMLを参照してもらうとして,結果をグラフ化したもののみ示そう.

'shew' or 'show' in ARCHER

 ジャンルの考慮はおいておくとして,通時的な推移に注目しよう.P1 (1600--49) から P4 (1750--99) まで,つまり17--18世紀には,絶対頻度で shew のほうが show より優勢だが,P5 (1800--49) に両者がおよそ肩を並べ,P6 以降には show が一気に shew を駆逐してゆく過程が見てとれる.この推移の概要は,過去の記事で調査した Helsinki Corpus および PPCMBE の結果とは符合するが,CLMET3.0 の結果とは少々異なる.CLMET3.0 では,[2014-01-07-1]の記事で見たように,18世紀中から絶対頻度で showshew を圧倒的に上回っていたのである.このコーパス間の違いが,各コーパスの代表性の違いによるものなのか,それともジャンル分け等が関与しているのか,あるいは複数の語形を一括して数えたことに由来するものなのか,詳しくは調査していない(P1のサブコーパスについては,他の各時期のサブコーパスの1/3ほどの規模であることに注意).しかし,両系列の相対的な盛衰ではなく,shew 系列の衰退という観点で考えるのであれば,いずれのコーパスを参照しても,それは19世紀前半の出来事とみなしてよいだろう.

[ 固定リンク | 印刷用ページ ]

2014-04-03 Thu

#1802. ARCHER 3.2 [corpus][archer][mode][frequency]

 昨年末のことになるが,近代英米語コーパス ARCHER: A Representative Corpus of Historical English RegistersUntagged 版が公開された.詳細は,公式の Documentation,あるいは VARIENG によるコーパスの解説からどうぞ.英語史研究会のオンライン会報より,三浦あゆみさんの記事「ARCHERの新版公開」も参考になる.
 ARCHER は,1990年代初頭より Biber and Finegan が編纂してきたもので,現在では14の大学が合同で管理している.2013年に公開されたこの3.2版は Manchester 大学 ( David Denison and Nuria Yáñez-Bouza) による提供である.コーパスの内容と用途を端的に表現すれば,"a multi-genre historical corpus of British and American English covering the period 1600--1999. The corpus has been designed as a tool for the analysis of language change and variation in a range of written and speech-based registers of English." ということである.
 コーパスの規模は1,710ファイル,3,298,080語からなり,語数での英米比は6:4ほど.また,時期として8期,内容により12種類にジャンル分けされている (a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries) .ファイル数と語数の内訳は以下の通り.

BRITISHadfhjlmnpsxyTOTAL
1600--49files01000010001000030
words032,34200021,0260032,74100086,109
1650--99files0101110101021100107510177
words030,32841,66721,81821,18620,46623,81122,304021,42738,76720,488262,262
1700--49files0101110111014100107710173
words027,86244,05721,51123,26521,31522,06621,612020,81233,89620,495256,891
1750--99files10101010101020100107011181
words25,38627,48445,19821,75221,28420,36721,00223,172020,59929,58923,043278,876
1800--49files10101010111010100102510126
words30,80431,21145,10721,77723,24920,53120,28622,951021,01512,67120,883270,485
1850--99files10101010101010100102610126
words30,68434,85643,42721,32221,24320,75722,26523,072021,81010,81921,789272,044
1900--49files10111010101010100102910130
words26,71731,39145,40821,12322,20821,16020,21321,977021,66412,52922,424266,814
1950--99files10111010101013100102810132
words23,43732,20045,10921,09322,72320,72120,99422,935021,38511,36122,060264,018
TOTALfiles50827270728098701070330711,075
words137,028247,674309,973150,396155,158166,343150,637158,02332,741148,712149,632151,1821,957,499
AMERICANadfhjlmnpsxyTOTAL
1750--99files310101010129100105810152
words9,21429,98038,98021,27121,89641,17723,54122,265020,66827,86021,315278,167
1800--49files1101001012010010101083
words2,82240,56844,676021,47633,409037,107020,90420,73920,695242,396
1850--99files8101110101010100102811128
words24,48032,72144,39421,05622,43628,50620,54721,994021,31111,36123,419272,225
1900--49files101010010110150105210138
words30,46052,51453,430021,66121,607022,802020,98425,02120,731269,210
1950--99files10101010101210100123010134
words29,56331,03744,38221,05122,10925,51722,61723,069025,62311,96121,654278,583
TOTALfiles325051305057295505217851635
words96,539186,820225,86263,378109,578150,21666,705127,2370109,49096,942107,8141,340,581


 Documentation のページより,完全単語リストをダウンロード可能.タグ付きの検索が可能な版もいずれ公開されるということなので,期待したい.「#1752. interpretorinterpreter (2)」 ([2014-02-12-1]) の記事で少し使ってみたので,そちらも参照を.

[ 固定リンク | 印刷用ページ ]

2014-03-05 Wed

#1773. ich, everich, -lich から語尾の ch が消えた時期 [me][corpus][hc][phonetics][personal_pronoun][consonant][-ly]

 「#1198. icI」 ([2012-08-07-1]) の記事で,古英語から中英語にかけて用いられた1人称単数代名詞の主格 ich が,語末の子音を消失させて近代英語の I へと発展した経緯について論じた.そこでは,純粋な音韻変化というよりは,機能語に見られる強形と弱形の競合が関わっているのではないかと提案した.
 しかし,音韻的な要因が皆無というわけではなさそうだ.Schlüter によれば,後続する語頭の音に種類によって,従来の長形 ich か刷新的な短形 i かのいずれかが選ばれやすいという事実が,確かにある.
 Schlüter は,Helsinki Corpus を用いて中英語期内で時代ごとに,そして後続音の種類別に,ich, everich, -lich それぞれの変異形の分布を調査した.以下に,Schlüter (224, 227, 226) に掲載されている,各々の分布表を示そう.

I1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
tokens%tokens%tokens%tokens%
before Vich169100121954300
I006513597253100
before <h>ich171100105973200
I003315698316100
before Cich51394363420000
I3364945811061002043100
EVERY1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
tokens%tokens%tokens%tokens%
before Veverich- 686764939
everiche- 1140000
every- 004361461
before <h>everich- 00120- 
everiche- 1100120- 
every- 00360- 
before Ceverich- 6292200
everiche- 10482200
every- 52410596138100
-LY1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
tokens%tokens%tokens%tokens%
before V-lich231281212410
-liche162875177238215
-ly117112518842195
before <h>-lich13187211200
-liche5982247381400
-ly0026498476100
before C-lich7013181518220
-liche468859377395232
-ly1121087889394797


 3つの表で,とりわけ子音の前位置 (before C) で ch の脱落した短形のパーセンテージを通時的に追ってもらいたい.短形の拡大の速度に多少の違いはあるが,ME II と ME III の境である1350年の前後で,明らかな拡大が観察される.14世紀半ばに,ichI, everichevery, -lich → -ly の変化が著しく生じたことが読み取れる.
 もう少し細かくいえば,問題の3項目を比べる限り,ich, everich, -lich の順で,語尾の ch が,とりわけ子音の前位置において脱落していったことがわかる.この変化に関して重要なのは,音節境界における音韻的な要因は確かに作用しているものの,そこに語彙的な要因がかぶさるように作用しているらしいことである.Schlüter (228) の調査のまとめ部分を引用しよう.

. . . the affricate [ʧ] in final position has turned out to constitute another weak segment whose disappearance is codetermined by syllable structure constraints militating against the adjacency of two Cs or Vs across word boundaries. . . . [T]he three studies have shown that the demise of final [ʧ] proceeds at different speeds depending on the item concerned: it is given up fastest in the personal pronoun, not much later in the quantifier, and most hesitantly in the suffix. In other words, the phonetic erosion is overshadowed by lexical distinctions. Relics of the obsolescent long variants are typically found in high-frequency collocations like ich am or everichone, where the affricate is protected from erosion by the ideal phonotactic constellation it ensures.


 関連して,「#40. 接尾辞 -ly は副詞語尾か?」 ([2009-06-07-1]) 及び「#832. everyeach」 ([2011-08-07-1]) も参照.

 ・ Schlüter, Julia. "Weak Segments and Syllable Structure in ME." Phonological Weakness in English: From Old to Present-Day English. Ed. Donka Minkova. Basingstoke: Palgrave Macmillan, 2009. 199--236.

[ 固定リンク | 印刷用ページ ]

2014-02-12 Wed

#1752. interpretorinterpreter (2) [spelling][suffix][corpus][emode][hc][ppcme2][ppceme][archer][lc]

 標記の件については「#1740. interpretorinterpreter」 ([2014-01-31-1]) と「#1748. -er or -or」 ([2014-02-08-1]) で触れてきたが,問題の出発点である,16世紀に interpretorinterpreter へ置換されたという言及について,事実かどうかを確認しておく必要がある.この言及は『英語語源辞典』でなされており,おそらく OED の "In 16th cent. conformed to agent-nouns in -er, like speak-er" に依拠しているものと思われるが,手近にある16世紀前後の時代のいくつかのコーパスを検索し,詳細を調べてみた.
 まずは,MED で中英語の綴字事情をのぞいてみよう.初例の Wycliffite Bible, Early Version (a1382) を含め,33例までが -our あるいは -or を含み,-er を示すものは Reginald Pecock による Book of Faith (c1456) より2例のみである.初出以来,中英語期中の一般的な綴字は,-o(u)r だったといっていいだろう.
 同じ中英語の状況を,PPCME2 でみてみると,Period M4 (1420--1500) から Interpretours が1例のみ挙った.
 次に,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,2期に区分されたコーパスの第2期分 (1580--1680) から interpreterinterpretor がそれぞれ1例ずつあがったにすぎない.
 続いて,MEMEM (Michigan Early Modern English Materials) を試す.このオンラインコーパスは,こちらのページに説明のあるとおり,初期近代英語辞書の編纂のために集められた,主として法助動詞のための例文データベースだが,簡便なコーパスとして利用できる.いくつかの綴字で検索したところ,interpretour が2例,いずれも1535?の Thomas Elyot による The Education or Bringing up of Children より得られた.一方,現代的な interpreter(s) の綴字は,9の異なるテキスト(3つは16世紀,6つは17世紀)から計16例確認された.確かに,16世紀からじわじわと -er 形が伸びてきているようだ.
 LC (The Lampeter Corpus of Early Modern English Tracts) は,1640--1740年の大衆向け出版物から成る約119万語のコーパスだが,得られた7例はいずれも -er の綴字だった.
 同様の結果が,約330万語の近現代英語コーパス ARCHER 3.2 (A Representative Corpus of Historical English Registers) (1600--1999) でも認められた.1672年の例を最初として,13例がいずれも -er である.
 最後に,中英語から近代英語にかけて通時的にみてみよう.HC (Helsinki Corpus) によると,E1 (1500--70) の Henry Machyn's Diary より,"he becam an interpretour betwen the constable and certein English pioners;" が1例のみ見られた.HC を拡大させた PPCEME によると,上記の例を含む計17例の時代別分布は以下の通り.

 -o(u)r-er(s)
E1 (1500--1569)21
E2 (1570--1639)35
E3 (1640--1710)06


 以上を総合すると,確かに16世紀に,おそらくは同世紀の後半に,現代的な -er が優勢になってきたものと思われる.なお,OED では,1840年の例を最後に -or は姿を消している.

[ 固定リンク | 印刷用ページ ]

2014-02-03 Mon

#1743. ICE Frequency Comparer [corpus][web_service][cgi][frequency][new_englishes][variety][ice]

 「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]), 「#1739. AmE-BrE Diachronic Frequency Comparer」 ([2014-01-30-1]) で,the Brown family of corpora ([2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照)を利用した,変種間あるいは通時的な頻度比較ツールを作った.Brown family といえば,似たような設計で編まれた ICE (International Corpus of English) も想起される([2010-09-26-1]の記事「#517. ICE 提供の7種類の地域変種コーパス」を参照).1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパス群で,互いに比較可能となるように作られている.
 そこで,手元にある ICE シリーズのうち,Canada, Jamaica, India, Singapore, the Philippines, Hong Kong の英語変種コーパス計6種を対象に,前と同じように頻度表を作り,データベース化し,頻度比較が可能となるツールを作成した.使い方については,「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) を参照されたい.

    
Sort: ICE-Canada frequency ICE-Jamaica frequency ICE-India frequency ICE-Singapore frequency ICE-Philippines frequency ICE-Hong Kong frequency alphabetically nothing (non-regex mode only)


 どんな使い道があるかは,アイデア次第だが.例えば,"^snow(s|ed|ing)?$", "^Japan(ese)?$", "^bananas?$", "^Asia(n?)s?$" などで検索してみるとおもしろいかもしれない.

Referrer (Inside): [2020-09-25-1] [2015-04-22-1]

[ 固定リンク | 印刷用ページ ]

2014-01-30 Thu

#1739. AmE-BrE Diachronic Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][representativeness]

 「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で,2006年前後の書き言葉テキストを編纂した英米各変種コーパスを紹介し,それに基づいた頻度比較ツールを作成・公開した.そのツールを作成しながら気づいたのだが,同じ方法で編纂され,規模も同じく100万語程度の the Brown family of corpora (「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1]))と連携させれば,直近50年間ほどの通時的な英米間頻度比較が容易に可能となる.
 そこで,前の記事で紹介した Professor Paul Baker - Linguistics and English Language at Lancaster University による AmE06 と BrE06 に加えて,書き言葉アメリカ英語を代表する Brown (1961), Frown (1992),書き言葉イギリス英語を代表する LOB (1961), FLOB (1991) より語形頻度表を抽出し,合わせてデータベース化した.利用の仕方は,AmE-BrE 2006 Frequency Comparer とほぼ同じなので,そちらの取説 ([2014-01-21-1]) を参照されたい.ただし,出力される表では,問題の語形が出現するテキストの数や頻度順位は省いており,純粋に約100万語当たりの頻度を表示するにとどめているので,AmE06 と BE06 について前者の情報が必要な場合には,AmE-BrE 2006 Frequency Comparer をどうぞ.

    
Sort: by Brown freq by LOB freq by Frown freq by FLOB freq by AmE06 freq by BE06 freq alphabetically nothing (non-regex mode only)

 例えば,^movies?$ と入力してみると,伝統的にアメリカ英語的とされてきたこの語の分布が,過去50年ほどの間に,イギリス英語にも浸透してきている様子がわかる.
 英米差の通時的な変化を調査したいのであれば,単語だけではなく語句も受けつけ,かつ規模も巨大な「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) のほうが簡便だろう.しかし,今回のツールは,the Brown family of corpora をベースにしているがゆえに,(1) 均衡かつ比較可能であり,(2) 「素性」がわかっている(再現可能性が確保されている)という利点があることは指摘しておきたい.望ましいのは,小型できめ細かなコーパスと,大型で傾向を大づかみにするコーパスとを上手に連携させることだろう.

[ 固定リンク | 印刷用ページ ]

2014-01-21 Tue

#1730. AmE-BrE 2006 Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][spelling]

 先日,Professor Paul Baker - Linguistics and English Language at Lancaster University というページを教えてもらった.Baker 氏の編纂した現代英語・米語コーパス BE06 と AmE06 の情報と,そこから抽出した単語リストが得られる.当該のコーパス自体は,ユーザIDを請求すれば,ランカスター大学の CQP (Corpus Query Processor) system よりアクセスできる.
 BE06 と AmE06 は,2006年前後に出版されたイギリス変種とアメリカ変種の書き言葉均衡コーパスである.編纂方式や構成は「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1]) で紹介した The Brown family に準じており,500テキスト×2000語の計100万語ほどの規模だ.
 さて,上のページからダウンロードできる BE06 Wordlist in WordSmith 5 formatAmE06 Wordlist in WordSmith 5 format より(見出し語ではなく)語形による頻度表を抽出し,それぞれをデータベース化して,英米変種の語の頻度を比較してくれる AmE-BrE Frequency 2006 Comparer なるツールを作成してみた.

    
Sort: by AmE freq by BrE freq alphabetically nothing (non-regex mode only)


 入力するのは原則としてPerl5相当の正規表現だが,カンマ,タブ,改行などで区切った(非正規表現の)単語リストも受け付ける.1つの語形のみを入力したい場合には ^ と $ で挟んで ^loves$ のようにするか,あるいは "nothing (non-regex mode only)" のラジオボックスをオンにする.
 出力形式は,デフォルトではアメリカ英語コーパスにおける頻度の高い順でソートされるようになっている ("by AmE freq") が,イギリス英語コーパスの頻度順 ("by BrE freq"),語形のアルファベット順 ("alphabetically") も可能.単語リストで入力した場合に,入力したそのままの順序で出力したいときには,"nothing (non-regex mode only)" をオンにする.
 いずれも100万語規模の(今となっては)小さめのコーパスなので,語形によっては十分な頻度が得られないこともあるが,簡便に英米差をチェックしたいときには便利だろう.出力結果の WORD, AME_2006, BRE_2006 の3列を切り出して,最後の行にコーパスサイズとして "total\t1000000\t1000000" と補ったうえで,Log-Likelihood Tester, Ver. 1 に放り込めば,英米差を統計的に検定することができる.
 例として,「#244. 綴字の英米差のリスト」 ([2009-12-27-1]) のうち,とりわけよく知られている類の米英綴字のペアを抜き出したリストを挙げよう.以下をコピーして,上のテキストボックスに放り込み,"nothing (non-regex mode only)" を選択して実行すると,数値として米英差が実感できる.

acknowledgment, acknowledgement, aging, ageing, aluminum, aluminium, analyze, analyse, apologize, apologise, armor, armour, behavior, behaviour, center, centre, civilization, civilisation, color, colour, defense, defence, disk, disc, endeavor, endeavour, favor, favour, favorite, favourite, fiber, fibre, flavor, flavour, fulfill, fulfil, gray, grey, harbor, harbour, honor, honour, humor, humour, inquiry, enquiry, judgment, judgement, labor, labour, license, licence, liter, litre, marvelous, marvellous, mold, mould, mom, mum, neighbor, neighbour, neighborhood, neighbourhood, odor, odour, organize, organise, pajamas, pyjamas, parlor, parlour, program, programme, realize, realise, recognize, recognise, skeptic, sceptic, specter, spectre, sulfur, sulphur, theater, theatre, traveler, traveller, tumor, tumour


 これまでは,語彙や綴字に関する英米差のコーパスによる比較は,「#708. Frequency Sorter CGI」 ([2011-04-05-1]) を用いたり,「BNC Frequency Extractor」 ([2012-12-08-1]) と「#1322. ANC Frequency Extractor」 ([2012-12-09-1]) を組み合わせたり,the Brown Family corpora を併用するなど,各変種コーパスの個別比較により対処してきたが,今回のツールにより多少便利な環境ができた.

[ 固定リンク | 印刷用ページ ]

2014-01-07 Tue

#1716. shewshow (3) [spelling][corpus][clmet][representativeness]

 「#1415. shewshow (1)」 ([2013-03-12-1]) と「#1416. shewshow (2)」 ([2013-03-13-1]) で扱った問題を,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で紹介した The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) により再訪したい.具体的には,同タグ付きコーパスを "\bshow(s|n|ed|ing)?_VB" と "\bshew(s|n|ed|ing)?_VB" で検索して,3時代区分ごとに生起頻度数を比べた.以下の結果が出た.


shew 系列show 系列総語数
1710--17803351,54510,480,431
1780--18501593,10011,285,587
1850--1920925,11812,620,207


 前回「#1416. shewshow (2)」 ([2013-03-13-1]) で利用した PPCMBE (Penn Parsed Corpus of Modern British English) は100万語弱のコーパスだが,今回の CLMET3.0 は約3,400万語の巨大コーパスである.ほぼ同じ時代をカバーしているので比較には都合がよい.前回と同様に今回も showshew を着実に置き換えている様子がうかがえるが,前回と大きく異なるのは,1710--1780年の第1期においてすでに show が圧倒的に勝っていることである.これを信じるならば,後期近代英語期に入るまでに,すでに show は勝敗を決していたということになる.PPCMBE では shew は後期近代英語期中に「優勢→同列→劣勢」と推移したが,CLMET3.0 では「当初から劣勢→もっと劣勢→さらに劣勢」と推移している.2世紀にわたる通時的な視点からは両コーパスともに大雑把には似たような傾向を示すとはいえるものの,18世紀の共時的な分布については両コーパスの示す数値の差は大きすぎるように思われる.ここには「#1280. コーパスの代表性」 ([2012-10-28-1]) という問題が関わってきそうであり,慎重な解釈が求められることになろう.
 なお,1つの文脈で shewshow がともに用いられている興味深い例もいくつかあった.3例のみ挙げよう.

 ・ Why, you have shewn your wit upon the subject, and I mean to show your courage;
 ・ Mr. Wright, as well as Nadin, professed they were perfectly satisfied of this, and appeared to shew to me all the polite attention that they were capable of showing.
 ・ Assuredly I did not show him the face which I shewed Folderico.

Referrer (Inside): [2019-10-15-1] [2014-04-07-1]

[ 固定リンク | 印刷用ページ ]

2014-01-03 Fri

#1712. as regards [preposition][conjunction][impersonal_verb][corpus][clmet]

 標題の熟語は,形式張った文体で「?に関しては,?について(いうと)」の意味で用いられる.典型的には "As regards the result, you need not worry so much." のように新しい主題を導くのに用いられる.機能的には前置詞といってよいだろう.
 この複合前置詞は,歴史的には「#1201. 後期中英語から初期近代英語にかけての前置詞の爆発」 ([2012-08-10-1]) で示唆したように,近代英語で発達してきた.だが,細かくいえば as regards は初期近代英語ではなく後期近代英語での発達と考えられる.OED の regard, v. によると,語義 8b にこの用法が記述されており,初例としては1797年の "A distinction is made, as regards moral rectitude, in the minds of many individuals." という例文が挙げられている.

b. as regards, as regarded (now rare), †as regarding: with respect or reference to


 一方,同じ動詞の現在分詞から発展した regarding, prep. も同様に用いられるが,こちらの初例としては1779年から " The servant was called, and examined regarding the import of the answer he had brought from Madame la Comtesse." の例文が挙げられている.ただし,名詞句に後続する regarding については17世紀より例があり,これが現在分詞なのか前置詞なのかを決定することは難しい.
 初出年代の細かな問題はあるにせよ,as regardsregarding も後期近代英語期になって根付いた動詞由来の前置詞であると解釈することに大きな異論はないだろう.OED に記載のある †as regarding も含めて,動詞 regard から派生した前置詞の複数の異形が18世紀後半辺りに活躍しだしたと考えられる.
 それを確かめるべく,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で紹介した The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) により,as regards を検索してみた(as regarding は2例ほどヒット).70年間ごとに区切った頻度をまとめると以下のようになった.

DecadeFrequencyCorpus size
1710--17805 (5)10,480,431 words
1780--185070 (18)11,285,587
1850--1920347 (6)12,620,207


 OED が示唆するよりも少し早く,18世紀半ばからの例が確認される.しかし,例文を眺めてみると,おもしろいことに第1期からの例はいずれも so [as] far as regards . . . という形で現れている(上の表でかっこ内に示した頻度は,(in) so [as] far as regards . . . の形で現れる内数)."so far as regards the present subject", "as far as regards your knowledge", "so far as regards our present purpose" の如くである.第2期にも同種の例が多いことを考えると,as regardsas far as regards の省略形として発展・定着してきたとも考えられるかもしれない.
 なお,現在 as regards は複合前置詞としてとらえられており,統語的に分析する意味はないだろうが,歴史的な関心からあえて統語的に分析すれば,as は従属接続詞であり,主語を取らない非人称構文を導いているということになる.regards に後続する名詞句はあくまで動詞の目的語と分析される.

[ 固定リンク | 印刷用ページ ]

2013-11-21 Thu

#1669. longestlengest を置き換えたのはいつか? [hc][corpus][adjective][comparison][i-mutation][analogy]

 「#1649. longerleng(er) を置き換えたのはいつか?」 ([2013-11-01-1]) で,歴史的な i-mutation 形の比較級 leng(er) が,いつ類推形 longer に置換されたのかをコーパスによって調査した.今回は,同じ過程を経たと想定される最上級について同様の調査を施した結果を報告する.歴史的な i-mutation 形の最上級 lengest は,英語史のどの段階で類推形 longest に置換されたのだろうか.
 Helsinki Corpus で,語幹母音のヴァリエーションを念頭に置きつつ,両形を検索した.結果を通時的に整理すると以下のようになる.


LONGESTLENGEST
O100
O202
O3013
O403
M101
M200
M301
M401
E130
E240
E320


 比較級よりも例がずっと少ないが,傾向ははっきりしている.比較級の場合と同様に,E1 (1500--1570) が転換期となっている.もちろん,この少数の例のみで結論を急ぐことはできない.例えば,lōng (adj. (1)) の用例を参照すれば,後期中英語の15世紀の Higden's Polychronicon 訳において,"In Armeny..Ytaly and other regiones..the longeste day other ny3hte is but oonly of xv houres equinoccialle." として longest が確かに文証される.それでも,比較級のケースと通時的な分布が似ているということは,今回の結果を評価する上で,重要な点となるだろう.
 前回と同様,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,2期に区分されたコーパスの第1期分 (1418--1638) から longest が1例ヒットしたのみだったので,ここから意味ある見解を引き出すことはできかった.

[ 固定リンク | 印刷用ページ ]

2013-11-01 Fri

#1649. longerleng(er) を置き換えたのはいつか? [hc][corpus][adjective][comparison][i-mutation][analogy]

 現代英語の形容詞・副詞 long の比較級の形態は規則的な longer だが,古英語から中英語にかけては lenger (副詞としては leng も)のように語幹に前母音をもつ諸形態が用いられていた.ゲルマン祖語の比較級を表わす形態素 *-iþo が契機となって直前の語幹母音に i-mutation が生じ,本来の語幹の後母音が前母音へと変化した.その効果は,古英語 leng(ra) や中英語の leng(er) に現れている.
 ところが,原級は古英語でも中英語でも lang, long などと常に後母音を示していたので,やがて類推作用 (analogy) により比較級も原級に -er を付けるだけの規則的な形態を取るようになった.かつての i-mutation という音韻変化の効果が,類推という形態変化の効果により打ち消されたといえる.
 さて,類推により longer につらなる形態が現れたのがいつ頃のことかが気になったので,調べてみた.OED では longer として見出しは立っていないので,long の項で例文を探してみると,a1533 に longer が現れている.MED でも同じ事情だったので lōng (adj. (1)) の例文を探すと,a1400 (a1325) に langer が初出する.しかし,例文検索から得られる初出年の情報だけでは心許ない.
 一方,leng(er) の最終使用年代を調べるという逆方向の調べ方もしてみた.OED によると,副詞 leng の最終は Chaucer で c1386,形容詞・副詞の lenger は,副詞の用法としての Spenser の1590年が最終例だった.以上を総合すると,14--15世紀頃に longer が現れ,16世紀には歴史的な leng(er) を置き換えたという筋書きになりそうだ.
 だが,先に述べたように longer の見出しが立っていない以上,OED の例文に頼るのみで新旧形態の交代過程を結論づけるわけにはいかない.このような目的には,補助的に歴史コーパスが有用である.Helsinki Corpus により,ざっと新旧それぞれの異形態を拾い上げてみた.古英語では第2音節の r は原級の屈折形であることを考慮し,また取りこぼしや雑音混入の可能性にも気をつけたが,完璧ではないかもしれないことを断りつつ,以下に数字を示す.


LONGERLENG(ER)
O101
O2014
O3045
O407
M1014
M2021
M31126
M4325
E1116
E2190
E3460


 M3 (1350--1420) に longer が現れ,E1 (1500--1570) を最後に lenger が姿を消したことがわかる.1500年頃を境に新旧形態の立場が比較的急速に入れ替わったように見えるが,Helsinki Corpus も小規模なコーパスといわざるを得ないので,あくまで近似的な結論ととらえておく必要がある.だが,全体としてこの結果は OED からの証拠が示唆するところとおよそ同じであり,歴史辞書と歴史コーパスが互いに補完し合って結論を強めているといってよいだろう.
 さらに,手元にあった初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも同様の検索を施した.約24万6千語を含む第1期分 (1418--1638) と約20万4千語を含む第2期分 (1580--1680) を区別して調べたところ,以下の通りとなり,やはりおよそ16世紀後半には古い lenger が廃れたといえそうだ.


LONGERLENG(ER)
CEECS1316
CEECS2370

Referrer (Inside): [2013-11-21-1]

[ 固定リンク | 印刷用ページ ]

2013-10-20 Sun

#1637. CLMET3.0 で betweenbetwixt の分布を調査 [corpus][lmode][preposition][clmet]

 今年3月に Leuven 大学の Hendrik De Smet により The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) が公開された.編者にメールで使用許可をもらえば無償でダウンロードし利用できる.1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパスである(先行版 CLMETEV の1500万語から大幅に拡大).プレーンテキストとタグ付きテキストで配布されており,70年間で分けた3つの時代区分ごとにヒット数を数える Perl スクリプトが付属しており,とりあえず使うのに便利である.コーパスの構成は以下の通り.

Sub-periodNumber of authorsNumber of textsNumber of words
1710--1780518810,480,431
1780--1850709911,285,587
1850--19209114612,620,207
TOTAL21233334,386,225

Genre1710--17801780--18501850--1920
Narrative fiction4,642,670 words4,830,7186,311,301
Narrative non-fiction1,863,8551,940,245958,410
Drama407,885347,493607,401
Letters1,016,745714,343479,724
Treatise1,114,5211,692,9921,782,124
Other1,434,7551,759,7962,481,247


 現在関心をもっている betweenbetwixt の揺れについて,後期近代英語でそれぞれがどのような分布を示すか,CLMET3.0 で軽く調査してみた.付属の検索ツールで検索した結果は,以下の通り.

Sub-periodbetweenbetwixt
1710--17804,869 words (464.58 wpm)657 (62.69 wpm)
1780--18505,457 (483.54 wpm)109 (9.66 wpm)
1850--19207,672 (607.91 wpm)51 (4.04 wpm)


 18世紀中は,between (88.11%) と並んで betwixt (11.89%) が,まだある程度の比率で使われていた.しかし,19世紀以降に激減し,現代英語における影の薄い変異形となったことがわかる.
 なお,De Smet は同じサイトで The Corpus of English Novels (CEN) も公開している.こちらは1882--1922年という1世代の間に書かれた英米の小説を集めたもので,短期間の言語変化調査や作家間の語法比較を念頭に置いたコーパスだという.全体で2,600万語からなる(内訳はソースHTMLを参照).こちらで調べると,between が9,905例 (98.86%),betwixt が114例 (1.14%) であり,確かに後者はすでに影が薄い.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow