英語にギリシア語からの借用が多いことは,「現代英語の借用語の起源と割合」 ([2009-11-14-1]) やその他のギリシア語に関連する記事 (greek) で触れてきた.ギリシア借用語の多くはラテン語やフランス語を経由して入ってきており,中世以前はこの経路がほぼ唯一の経路だった.
しかし,15世紀になるとギリシア文化が直接西ヨーロッパ諸国に影響を及ぼすようになった.というのは,この時期に大量のギリシア語写本がイタリア人によって Constantinople から西側へもたらされたからである.さらに1453年にオスマントルコにより Constantinople が陥落すると,ギリシア文化の知識も西へ逃れてくることになった.
The possibility of direct Greek influence on English did not arise, however, until Western Europeans began to learn about Greek culture for themselves in the fifteenth century. (This revival of interest was stimulated partly by a westward migration of Greek scholars from Constantinople, later called Istanbul, after it was captured by the Ottoman Turks in 1453.) (Carstairs-McCarthy 101)
続く16世紀にはギリシア語で書かれた新訳聖書の原典への関心から,イギリスでもギリシア語が盛んに研究されるようになった.16世紀前半には Cambridge でギリシャ語を講義した Erasmus (1469--1536) が原典を正確に読むという目的でギリシア語の発音を詳細に研究したが,聖書の言語にあまりに忠実であったその研究態度が,口頭の伝統に支えられてきた保守派の学者の反発を招き,ギリシア語正音論争を巻き起こした.ギリシア語への関心が宗教や政治の世界にまで影響を及ぼしたことになる (Knowles 67--68) .
[2009-08-19-1]で示したように初期近代英語期にギリシア語の借用語が着実に増加していった背景には,上記のような歴史的な事情があったのである.
・ Carstairs-McCarthy, Andrew. An Introduction to English Morphology. Edinburgh: Edinburgh UP, 2002. 134.
・ Knowles, Gerry. A Cultural History of the English Language. London: Arnold, 1997.
[2009-08-19-1],[2009-11-05-1]などで触れたように,近代英語期にはものすごい勢いでラテン単語が英語に借用された.その勢いは中英語期のフランス語借用をも上回るほどである.[2009-06-12-1]で示したように,16世紀だけでも7000語ほどが借用されたというから凄まじい.背景には以下のような事情があった.
16世紀後半,中英語期のフランス語のくびきから解放され,自信を回復しつつあった英語にとっての大きな悩みは,本格的に聖書を英訳するにあたって自前の十分な語彙を欠いていたことだった.そこで考えられた最も効率のよい方法は,直接ラテン語から語彙を借用することだった.さらに,ルネサンスのもたらした新しい思想や科学,古典の復活により,ギリシア語やラテン語といった古典語に由来する無数の専門用語が必要とされ,英語に流入したという事情もあった.かくして16世紀後半の数十年ほどの短期間に,大量のラテン単語が英語に取り込まれた.しかし「インク壺語」( inkhorn term )と揶揄されるほどに難解で衒学的な借用語も多く,この時期に入ったラテン単語の半分は現代にまで伝わっていないと言われる.
現代にまで残ったものは,基本語彙とまでは言わないが,文章では比較的よくみかける次のような単語が挙げられる(以下,Brinton and Arnovick, pp. 357--58 より).
confidence, dedicate, describe, discretion, education, encyclopedia, exaggerate, expect, industrial, maturity
現代までに残らなかったものは,以下のような単語である.当然ながら我々には馴染みのない単語ばかりなので,ラテン語を勉強していない限り意味を推測するのは困難だ.
adjuvate "aid", deruncinate "weed", devulgate "set forth", eximious "excellent", fatigate "make tired", flantado "flaunting", homogalact "foster-brother", illecebrous "delicate", pistated "baked", suppeditate "supply"
どの語が生き残りどの語が捨てられたのかについては,理由らしい理由はないといってよいだろう.ランダムに受容され,ランダムに廃棄されたと考えるのが妥当だ.現代英語に慣れている感覚では,education や expect などの語がなかったら不便だろうなと思う一方で,flantado や illecebrous などは必要のない語に思える.だが,場合によってはまったく逆の状況が生じていた可能性があると想像すると不思議である.現代英語の語彙が歴史の偶然によってもたらされたものだということがよく分かるだろう.
・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
古英語の語彙の多くが現代までに失われてしまっていることは,英語史でもよく話題にされる.背景には,特に中英語期以降,諸外国語から借用語が大量に流入して本来語彙を置き換えたという経緯がある.では,具体的に数でいうと,古英語語彙のどのくらいが現代までに死に絶え,どのくらいが受け継がれているのだろうか.参考になる数値が,Brinton and Arnovick (165--66) に掲載されていたので紹介する(数値の究極のソースは Cassidy and Ringler (4--7) に引用されている J. F Madden and F. P. Magoun, Jr である).
・ 古英詩での最頻1,000語のうち,半数を少々超えるほどの語しか現代に残っていない.
・ 古英語語彙の最頻100語のうち,76%が現代に残っている.
・ 古英語にあった数詞の100%,前置詞の82%,代名詞の80%,接続詞の75%が現代に残っている.
高頻度語や機能語ほど残存率が高いということは,これらの語群が失われる機会が少なく,他言語からの借用語で置換されにくいことによるだろう.だが,逆に言えば,内容語(名詞,動詞,形容詞,副詞)で同様の統計をとれば,死に絶えた語の数が劇的に増加するだろうことは予想できる.
ただ,古英語の語彙が現代まで残存している場合でも,意味や形態がほぼ古英語のままであるという保証はない.in, word, fæst "fast", nū "now" などは意味も形態もほぼそのままで受け継がれているが,brēad "bit" ( not "bread" ), sellan "to give" ( not "to sell" ) などは意味が変化している.また,古英語の意味や形態が,限られた使用域 ( register ) でのみ生きながらえているケースも少なくない.例えば,古英語 gāst 「魂,霊」の意味は,現代英語では the Holy Ghost 「聖霊」というキリスト教用語として限定的に生き残っているに過ぎず,一般的な意味は「幽霊」である.
もし仮に古英語より意味や使用域の変化を経た語は同一語とみなさないとするのであれば,古英語語彙の残存率は相当に低くなることだろう.千年を超える時間のなかでは,変化しない方が珍しいと考えるべきかもしれない.
・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
・ Cassidy, Frederic G and Richard N. Ringer, eds. Bright's Old English Grammar and Reader. 3rd ed. New York: Holt, Rinehart and Winston, 1971.
現代英語の語彙の起源と割合については,[2010-05-16-1]でまとめたとおり,本ブログでも何度か扱ってきた.
・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
この種の英語語彙の語源調査については本格的なものは存在しないようだが,もう一つ関連する先行研究をみつけたので紹介したい.
Williams (67--68) は,数千通の商用書簡から最頻1万語を取り出し,頻度の高い順に1000語単位で10のグループを設けた.各グループについて語源別に比率をまとめた表を Williams より再掲する(宇賀治,pp. 84--85 にも掲載あり).ついでに,見やすいように棒グラフも作った.
|
English | 78.1% |
French | 15.2 |
Latin | 3.1 |
Danish | 2.4 |
Other (Greek, Dutch, Italian, Spanish, German, etc.) | 1.3 |
昨日の記事[2010-05-23-1]で取りあげた antidisestablishmentarianism という語を英語史の視点からみると,英語のロマンス語化が,語や形態素という表面的なレベルだけではなく,語形成や形態論の規則という抽象的なレベルにまで染みこんでいるという点が意義深い.
一般に英語がロマンス語化したというときには,中英語期のフランス単語の大量借用が出発点として念頭におかれるのではないか.確かに古英語期やそれ以前の大陸時代にも英語はラテン語と接してきたので,ロマンス語への慣れは多少はあったといえるが,本格的なロマンス語化の引き金を引いたのは中英語期のフランス語との接触に他ならない.フランス語が開始したこのロマンス語化の波に乗るかのように,次の初期近代英語期にラテン語単語が大量に英語に流れ込んだ.さらに,このフランス語とラテン語の流れには,実はギリシャ語要素も隠れて多く含まれており,近代英語期から現在までに多くのギリシャ語形態素が英語へ供給された.中英語以来の英語語彙のロマンス語化,より正確には Greco-Latin 化は,[2010-05-16-1]の記事でも述べた通り,The Great Vocabulary Shift とでも名付けたくなるくらいに英語の概観を一変させた.
しかし,仏・羅・希は単に語や形態素を英語に供給しただけではない.英語は長期の接触と影響により,ラテン語やギリシャ語の語形成規則や形態論規則を半ばネイティブであるかのように獲得してしまったのである.現在,日々新しく作られている科学用語や専門用語に主として用いられている言語的リソースは Neo-Latin と呼ばれるが,これはラテン語やギリシャ語の形態素をラテン語やギリシャ語の形態規則にのっとって派生・合成させる仕組みといってよい.標題の antidisestablishmentarianism は Greco-Latin 要素とその組み合わせ規則にのっとった典型的な Neo-Latin の語であるが,フランス単語やラテン単語としてではなく,あくまで英単語として造語された点がポイントである.英語のロマンス語化は,語彙のみの表面的な現象だと見なされることがあるが,現代英語の生きた語形成にも非常に大きく貢献している点で,もっと積極的に評価してもいいのではないか.
フランス語が窓口となり英語がロマンス語化してきた経緯と意義については,Gachelin の評が言い得て妙である.
French acted as the Trojan horse of Latinity in English, the sluice gate through which Latin was able to pour into English on a scale without any equivalent in any Germanic language. The process of 'classicization' which had originated in Greece was to spread from Latin to Romance languages, and via French to English. (9--10)
・ Gachelin, Jean-Marc. "Is English a Romance Language?" English Today 23 (July 1990): 8--14.
[2009-06-30-1]の記事で,英語で最も長い単語として45文字19音節からなる pneumonoultramicroscopicsilicovolcanoconiosis を紹介したが,これは一般の辞書には載っていない,意識的に合成された超専門語である.一般の辞書に載っていることが多い最長の単語と言われるのは antidisestablishmentarianism である.28文字12音節の堂々たる長語である.
OED によると初出は1900年で,次のように定義が与えられている.
Properly, opposition to the disestablishment of the Church of England (rare): but popularly cited as an example of a long word. So antidisestablishmentarian.
イギリスで19世紀から20世紀初頭に起こった国教会の廃止 ( disestablishment ) の運動に反対した人々の主義を指す.England ではこの主義が成功して国教会は現在に至るまで守られているが,Wales, Scotland, またローマ・カトリック教徒の多い Ireland では廃止論が影響力を持ち,国教分離が進んだ.
形態素としては anti-, dis-, establish, -ment, -arian, -ism と6部分に分割できる.一語のなかに形態素をこれほど長く数珠つなぎにできるのかと驚きあきれるかもしれないが,日本語の「反国教会廃止主義」だって負けていない.日本語母語話者はこの手の数珠つなぎには慣れっこのはずである.ただ,アルファベット28文字だと目がちかちかするのは確かである.
おもしろいのは,両言語ともに,数珠つなぎの全要素が非本来語由来の形態素であることだ.英語の6形態素はすべて(究極的にはギリシャ語もあるが)ラテン語かフランス語に由来する形態素であり,日本語の8漢字はすべて漢語である.長く専門的な語は,いずれの言語でも大陸からの「レベルの高い」形態素から成り立っているのが普通である.[2010-03-27-1], [2010-03-28-1]の記事で両言語の語彙の三層構造をみたが,改めて日英の言語文化の比較は興味深い.
[2010-03-27-1]の記事で英語語彙の三層構造を紹介した.その記事では,foe, enemy, adversary などの三語一組の例を挙げ,それぞれ (1) 英語本来語,(2) フランス借用語,(3) ラテン・ギリシャ借用語の層をなしていることを示した.英語語彙に見られるこの特異な三層構造を言い表す術語がないかなと思っていたが,McArthur が trisociation と呼んでいるのをみつけた.この三語一組のことは triset と呼んでいる.
ただ,McArthur の trisociation は,(1) 英語本来語,(2) フランス語・ラテン語,(3) ギリシャ語というように層別しているようで,上述の foe の例の層別とは異なる.実際には四層あるものを三層に分けて考えているのだからこのようなヴァリエーションもありうるが,語という単位ではなく形態素という単位で考える場合には McArthur の層別のほうがうまくいく.McArthur が挙げている triset の例を再掲する(主に本来語が b-, n-, s- で始まる triset の例).
triset of morphemes | triset of words |
---|---|
ant, formic-, myrmec- | ant-eater, formicarium, myrmecology |
bad, mal-, caco- | badly, malign, cacophony |
be, ess-, ont- | being, essence, ontology |
belly, ventr-, gastr- | potbellied, ventral, gastritis |
best, optim-, aristo- | bestseller, optimal, aristocrat |
big, magn-, mega(lo)- | bigheaded, magnitude, megalomania |
bird, avi-, ornith- | bird-watcher, aviary, ornithology |
birth, nasc-/nat-, gen-/gon- | birthday, nascent/native, genesis/cosmogony |
black, nigr-, melan- | blacken, denigrate, melanin/melancholy |
blood, sanguin-, (h)aem(at)-/(h)em(at)- | bloody, sanguinary, an(a)emic |
body, corp(or)-, som(at)- | bodily, corporeal/incorporate, psychosomatic |
bone, oss(e)-, osteo- | rawboned, osseous, osteopath |
book, libr-, biblio- | bookish, library, bibliography |
breast, mamm-, mast- | doublebreasted, mammography, mastitis |
earth, terr-, ge- | earthquake, terrestrial, geography |
fire, ign-, pyr- | fire-fighter, igneous, pyromania |
naked, nud(e)-, gymn- | nakedness, nudity, gymnosophist |
name, nomin-, onom-/onym- | namely, nominate, onomastic/synonym |
new, nov-, neo- | newness, innovate, neologism |
night, noct-, nyct- | nightly, nocturnal, nyctalopia |
nose, nas-, rhin- | nosiness, nasal, rhinitis |
salt, sal-, (h)al- | salty, salinity, halophyte |
say, dict-, phas-/phat- | saying, dictum, emphasis |
sea, mar-, thalass- | seascape, marine, thalassocracy |
see, vid-/vis-, scop- | all-seeing, evident/vision, telescope |
self, ips-, aut(o)- | unselfish, solipsism, autistic |
shape, form-, morph- | shapely, formal, metamorphosis |
sharp, ac(u)-, oxy- | sharpen, acute, oxygen |
skin, cut(i)-, derm(at)- | skinny, subcutaneous, dermatitis |
sound, son-, phon- | soundless, sonic, telephone |
speak, loqu-/loc(ut)-, log- | unspeakable, eloquent, dialog(ue) |
stand, sta(t)-, stas-/stat- | outstanding, stable, stasis/statis |
star, stell-, aster- | starry, stellar, asteroid |
stone, lapid-, lith- | stony, lapidary, megalithic |
sun, sol, heli(o)- | sunny, solar, heliograph |
これまでも現代英語の語彙数と起源別割合については,グラフとともにいろいろなソースから具体的な数値を挙げてきた.
・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
それとは別に,語彙や起源別割合の通時的な増減やその他を扱った話題としては,以下のような記事を書いてきた.
・ [2009-08-22-1]: フランス借用語の年代別分布
・ [2009-08-19-1]: 初期近代英語の借用語の起源と割合
・ [2009-06-12-1]: 英語語彙にまつわる数値
語彙の数値というのは,参照する辞書などのソースを何にするのか,単語の頻度を考慮に入れるのか,などによって調査結果が大きく変わる可能性があり,なかなか難しい.起源言語別で数えるにしても,語源そのものが不詳だったり,フランス語なのかラテン語なのかなどで判断のつかないケースがあったりと,やはり難しい.ただ,予想される通り OED や SOED の情報に基づいた数値が多いようではある.
今回は,使用されている語彙リストのソース自体は不明なのだが,広く参照される可能性のある Encyclopedia of Linguistics に掲載されている数値を調べてみた.それぞれ "Old English" と "English" の項から関連箇所を引用する.
The recorded vocabulary of OE is estimated at approximately 30,000 words. Only about 3% of these were of non-Germanic origin. (779)
As a result of borrowing, the Gmc word stock is now a low 30% and the Romance one is 50%. (292)
後者では現代英語の総語彙を対象語彙としているようではあるが,その語数は記されていない.もし OED2 に準拠しているのであれば,定義・例説の与えられている語の数として 615,100 辺りを念頭においているのかもしれない ( see Dictionary facts ) .あるいは,定義されている語源の数である 219,800 辺りを念頭においているのだろうか.不明の点が多いが,現代英語の語彙数として仮に 615,100 という数を採用するとして,古英語と現代英語の語彙とそのなかのゲルマン語彙比率について比べる表を掲げよう.ゲルマン語彙とは,Anglo-Saxon 起源の本来語と(特に現代英語において)Old Norse 起源の借用語を合わせたものが中心になると考えてよいだろう.
Old English | Present-Day English | |
---|---|---|
vocabulary | 30,000 | 615,100? |
native words (%) | 97 | 30 |
昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.
少し変わり種のコーパスとして,COLT: The Bergen Corpus Of London Teenage Language を紹介する.1993年におけるロンドンの若者(13歳から17歳)の話し言葉を収集したコーパスで,約50万語からなる.31人のロンドン各地・各階層の男子女子の会話を,合計50時間だけ録音し,文字に起こしたものである.BNC ( The British National Corpus ) にも組み込まれているコーパスだ.語類情報や休止などの韻律情報がタグ付けされており,若者言葉によって先導される言語変化の調査や語用論的な研究において実績がある.
コーパス自体は有料だが,上記のHPから手に入る COLT による最頻1000語のリスト が目を引いた.COLT に現れる表記語 ( graphic word ) の最頻リストで,lemmatise されていない.要するに,do と did,laugh と laughing などは別々にカウントされている.
今回,このコーパスに目を付けたのは,先日[2010-04-10-1], [2010-04-11-1]でパイロット・スタディとしておこなった「BNC Word Frequency List による音節数の分布調査」の COLT 版を試してみようと思ったからである.BNC による音節数分布調査では,書き言葉と話し言葉の両方を対象とし,lemmatise された基底形 ( base form ) での頻度表を用いたが,COLT を用いれば,大きく異なった条件のもとで類似した調査をおこなうことができる( COLT が BNC の一部になっていることを考慮しても).具体的には,話し言葉に限定された,表記語に基づく頻度表をベースとして音節数の分布を調べられる.
注意を要するのは,COLT の頻度表には unclear, nv, singing など,地の文の語ではなくタグ名として使われている語もうっかり数えられてしまっていることだ.したがって,この種の語は手作業で除去し,最終的に有効最頻語976語のリストが得られた.これをもとにして,音節数の分布をいざ探ってみることにする.結果は,明日.
今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)
昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.
・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える
昨日の記事[2010-04-09-1]に続く話題.BNC Word Frequency List の6318語の見出し語化された ( lemmatised ) 最頻語リストを材料として,音節数の分布がどのようになっているかを調査してみた.
まずはリストを頻度順に眺めてみるだけで,ある程度の検討はついた.[2010-03-02-1]の記事「現代英語の基本語彙100語の起源と割合」からも明らかなとおり,最頻基本語にはゲルマン系の本来語が多い.このことは,単音節語が多いということにもつながる.しかし,リストを下って頻度のより低い語に目をやると,徐々に2音節語,3音節語が目につくようになってくる.したがって,頻度で上位どのくらいまでを対象にするかによって,音節数の相対的な分布は変わってくることが予想される.そこで,まず6318語すべての音節数を出した上で,最頻100語,200語,500語,1000語,2000語,3000語,4000語,5000語,6000語というレベルで音節数の分布を調査した.レベル間の比較が可能となるようにグラフ化したのが下図である.(数値データはこのページのHTMLソースを参照.)
このグラフからいくつかの興味深い事実を読み取ることができる.
・ どのレベルでも単音節語が最も多い
・ 対象語彙が大きくなればなるほど,2音節語数が単音節語数に肉薄する
・ 英語語彙の圧倒的多数が単音節語か2音節語である
・ 対象語彙が大きくなればなるほど,平均音節数が漸増する
・ いずれにせよ英単語の平均音節数はせいぜい2音節ほどである
今回は最頻約6000語レベルの語彙で調査したが,対象語彙をどんどん大きくしてゆくとどのような結果が出るのか,おおいに気になった.やがては2音節語が単音節語を追い抜き,平均音節数も漸増を続けるのだろうか? あるいは平均音節数がこれ以上は変わらないという限界点が存在するのだろうか? non-lemmatised な語彙リストを材料にすると平均音節数はどのくらい変化するのだろうか? 次々に疑問が生じた.
ちなみに,最頻5000語レベルで初めて現れる7音節語が一つある.英語の平均音節数からすると異常に長い超多音節語だが,比較的よくお目にかかる単語ということになる.何であるか,想像できるだろうか? 答えは,4657番目に現れる
telecommunication
(←クリック)である.なるほど?.
ここ数ヶ月のあいだに取り組んでいる研究課題と関連して,標題の問いについて調査する必要が生じている.この問いの背後にある問題意識としては,単語の語源別の平均音節数を比較して,たとえば「ゲルマン系の単語はロマンス系の単語よりも○音節だけ短い」などという統計的な数値を得たいと思っているのだが,この問題は何段階かに分けてアプローチしてゆくのがよさそうである.標題の問いのままでは適切な問題設定とはいえないいくつかの理由がある.
一つは,言語学で最も悪名高い問題の一つである「単語とは何か」という問いに関係する.わかりやすい例として,合成語 ( compound ) を考えるとよい.school boy は1語なのだろうか,2語なのだろうか? さらに,固有名詞の New York City はどうだろうか? いずれも綴字上の慣習により複数の語とみなすこともできるが,一方で意味のまとまりとしては一つであるから1語だという理屈も成り立ちうる.kick the bucket のようなイディオムはどうだろうか? [2010-02-07-1], [2010-02-08-1]で触れた crane のような多義語 ( polysemy ) は,語義ごとに別の語と考えることもできるのではないか? 英単語の平均音節を考えるにあたっても,こうした基本的な問題は避けて通れない.
二つ目の理由は,英語語彙というときの範囲の問題である.OED には50万語ほどがエントリーされているが,辞書の保守性を考慮すると,実際にはその倍の語彙があるのではないかともいわれている.平均値を出すからには,理想的にはありったけの単語を考慮に入れることが必要である.となると,[2009-06-30-1]の記事でみた pneumonoultramicroscopicsilicovolcanoconiosis のような極端な語(19音節)も含めることになる.だが,そもそも現代英語語彙の総覧が存在しない以上,どこまで含めてどこから含めないかの判断は恣意的にならざるをえない.実際的な研究に際しては,どこかで強引に切る必要がある.
三つ目は,同一の語でも,変種によって1音節程度の増減が起こりうるという問題である.[2010-03-08-1]で触れたように,secretary は典型的な英米発音のあいだで音節数の揺れがある.もっとも,この問題は対象とする変種を定めてしまえば,上記の二つの問題ほど大きな問題にはならないかもしれない.
一つ目,二つ目の問題については当面の根本的な解決策はないが,そんなに難しいことを言っていては仕方がないというのも確かである.具体的に調査を進めてみようと思うと,[2010-03-01-1]で紹介した最頻英単語リスト辺りからスタートするのがよさそうである.ひとまずは,BNC Word Frequency List の6318語のリストから始めてみようと思う.
・ 齊藤 俊雄,中村 純作,赤野 一郎 編 『英語コーパス言語学?基礎と実践?』 研究社,1998年.110--13頁.
昨日の記事[2010-03-27-1]で,類義語の豊富さに関しては英語は他言語と比べても異例だと述べた.しかし,もっと異例なことに,英語と日本語はこの点でよく似ているのである.英語では,アングロサクソン語(本来語),フランス語,ラテン・ギリシャ語の三層構造をなしているが,日本語では,和語(本来語),漢語,西洋語の三層構造をなしている.日本語の例(思いつき)を見てみよう.
和語 | 漢語 | 西洋語 |
---|---|---|
おおうなばら(大海原) | 大洋 | オーシャン |
おかね(お金) | 金銭 | マネー |
およぎ(泳ぎ) | 水泳 | スイミング |
おんなのこ(女の子) | 女子 | ギャル |
かみのけ(髪の毛) | 毛髪 | ヘアー |
かわや(厠) | 便所 | トイレ |
くすりや(薬屋) | 薬局 | ドラッグストア |
くるま(車) | 乗用車 | カー |
さくらんぼ | 桜桃 | チェリー |
たたかい(戦い) | 戦闘 | バトル |
たまご(卵) | 鶏卵 | エッグ |
ひとつ(一つ) | 一 | ワン |
ひるめし(昼飯) | 昼食 | ランチ |
やど(宿) | 旅館 | ホテル |
類似概念を表すのに二つ以上の語が存在するという状況はどの言語でも珍しくない.確かに,完全な「同義語」というものが存在することは珍しいが,少し条件をゆるめて「類義語」ということであれば,多くの言語に存在する.とはいうものの,英語の類義語の豊富さは,多くの言語と比べても驚くべきほどである.このことは類義語辞典 ( thesaurus ) を開いてみれば,一目瞭然である.
英語史の観点から類義語の豊富さを説明すれば,それは英語が多くの言語と接触してきた事実に帰せられる.異なった言語から対応する語を少しずつ異なったニュアンスで取り入れ,語彙のなかに蓄積していったために,結果として英語は類義語の宝庫 ( thesaurus ) となったのである.
類義語を語源別にふるい分けてみると,そこに「層」があることがわかる.例えば,典型的な類義語のパターンとして「三層構造」とでも呼ぶべきものがある.下層が本来語,中層がフランス語,上層がラテン・ギリシャ語というパターンである.
native | French | Latin/Greek |
---|---|---|
ask | question | interrogate |
book | volume | text |
fair | beautiful | attractive |
fast | firm | secure |
foe | enemy | adversary |
help | aid | assistance |
kingly | royal | regal |
rise | mount | ascend |
昨日の記事[2010-03-24-1]に関連する話題.英語史で必ずといってよいほど取りあげられる「動物は英語,肉はフランス語」という区分は,語り継がれてきた神話であるという主張がある.OED の編集主幹を務めた Burchfield によると,"[an] enduring myth about French loanwords of the medieval period" だという.少し長いが,引用する (18).
The culinary revolution, and the importation of French vocabulary into English society, scarcely preceded the eighteenth century, and consolidated itself in the nineteenth. The words veal, beef, venison, pork, and mutton, all of French origin, entered the English language in the early Middle Ages, and would all have been known to Chaucer. But they meant not only the flesh of a calf, of an ox, of a deer, etc., but also the animals themselves. . . . The restriction of these French words to the sense 'flesh of an animal eaten as food' did not become general before the eighteenth century.
試しに beef を OED や MED で確認してみると,確かに動物そのものの語義も確認される.しかし,複数の例文を眺めてみると,動物本体と関連して肉が言及されているケースが多いようである.例えば,この語義での初例として両辞書ともに14世紀前半の次の例文を掲げている.
Hit mot boþe drink and ete .. Beues flesch and drinke þe broþt.
それでも,Burchfield の主張するように「動物は英語,肉はフランス語」という区分が一般的になったのは18世紀になってからということを受け入れるとするならば,それはなぜだろうか.18世紀には料理関係の語がフランス語から大量に入ってきたという事実もあり,これが関係しているかもしれない.
肉・動物の使い分けの始まりが中世であれ近代であれ,英語話者の意識下に「高きはフランス語,低きは英語」という印象が伝統的に定着してきたことは確かだろう.
・ Burchfield, Robert, ed. The New Fowler's Modern English Usage. 3rd ed. Oxford: Clarendon, 1996.
中英語期を中心とするフランス語彙の借用を論じるときに,この話題は外せない.食用の肉のために動物を飼い育てるのはイギリスの一般庶民であるため,動物を表す語はアングロサクソン系の語を用いる.一方で,料理された肉を目にするのは,通常,上流階級のフランス貴族であるため,肉を表す語はフランス系の語を用いる.これに関しては,Sir Walter Scott の小説 Ivanhoe (38) の次の一節が有名である.
. . . when the brute lives, and is in the charge of a Saxon slave, she goes by her Saxon name; but becomes a Norman, and is called pork, when she is carried to the Castle-hall to feast among the nobles . . . .
具体的に例を示すと次のようになる.
Animal in English | Meat in English | French |
---|---|---|
calf | veal | veau |
deer | venison | venaison |
fowl | poultry | poulet |
sheep | mutton | mouton |
swine ( pig ) | pork, bacon | porc, bacon |
ox, cow | beef | boeuf |
昨日の記事[2010-03-01-1]で,現代英語の最頻英単語リストをいくつか紹介した.そのなかで,やや古いが広く参照されている GSL ( General Service List ) に基づき,最頻100語の語源別の内訳を調べてみた.
英語の本来語 ( native words ) の一人勝ちであることは一目瞭然である.借用語 ( loan words ) はわずかである.最頻語彙の血は紛れもなく Anglo-Saxon である.
古ノルド語由来の語は they, she, take, get, give の5語のみ.ただし,she の語源にはイングランド北部方言説など諸説がある.また,get と give については,語頭子音 /g/ こそ古ノルド語形に由来すると言ってよいが,対応する語は古英語にもあり,考え方によってはどちらの言語にも帰せられる.ここでは,いずれも古ノルド語由来として数えた.
フランス語由来の語は,state, use, people の3語のみ.
過去の記事でも類似する統計をいくつか載せているので,そちらも要参照.
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
・ [2009-08-15-1]: 現代英語の借用語の起源と割合
現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.
[主要な頻度表]
・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.
[他のリストへのリンク集]
・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
・ Famous Frequency Lists: 様々な頻度表へのリンク集.
・ Basic English and Common Words: ML上の最頻語頻度表についての議論.
[アルファベットの文字の頻度表]
・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.
(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)
現代英語の語彙研究あるいは英語語彙の歴史的研究をおこなうときに,情報源は二つある.一つは辞書であり,もう一つは(電子)コーパスである.(膨大な量のテキストに体当たりという力業もあるが,ここではその可能性は考えないことにする.)歴史的な観点から英語の語彙論や形態論に関心のある私は,とりわけ OED 等の辞書(電子版)にお世話になることが多いが,The Helsinki Corpus of English Texts (Diachronic Part) を始めとする電子コーパスをもっと活用すべきだと自認している.
辞書は語と語にまつわる諸情報を集めることに特化した出版物なので,電子版を用いれば「かくかくしかじかの条件に当てはまる語彙を一覧にせよ」という類の命令にはめっぽう強い.一方で,電子コーパスは通常,語彙研究に特化しているわけではなく広く言語研究全般に供する情報源として出版されている.だが,語彙研究において電子コーパスのほうが辞書よりも有用であるケースは少なくない.Baayen and Lieber (803) によると,語彙研究におけるコーパスの利点は以下の通り.
(1) コーパスで語を検索すると,その頻度を知ることができる.辞書では頻度はわからない.
(2) コーパスは生の言語使用を反映しており,辞書に掲載されない語を含んでいる可能性が高い.(辞書は一般に保守的な傾向が強く,俗語や新語を含んでいないことが多い.)
(3) 逆に辞書に掲載されていてもコーパスではヒットしない語が多く存在する.
まとめると,語彙研究にコーパスを用いる利点は,「生きた語彙を頻度つきで集めることができる」という点だろう.要は,辞書とコーパスそれぞれの長所と短所をわきまえたうえで,目的に応じて両者を使い分ければよいということになろう.
辞書とコーパスのちょっとした比較例としては,octopus の複数形 ([2009-08-26-1]) と rhinoceros の複数形 ([2009-10-05-1]) の記事を参照.
・Baayen, Harald and Rochelle Lieber. "Productivity and English Derivation: A Corpus-Based Study." Linguistics 29 (1991): 801--43.
Powered by WinChalow1.0rc4 based on chalow