Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burnt と burned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American English と British English のそれぞれのサブコーパスから出力されたグラフは以下の通り.
in と on の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
[2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
他のオンラインコーパスについては[2010-11-16-1]を参照.
英語の語源辞書も多数あるが,主立ったものの書誌をまとめた.語源情報は一般の英語辞書にも埋め込まれることが多く,特に OED や Web3 などの本格派辞書はそのまま語源辞書として使うことができるので,リストに含めた.英語語彙の起源が豊富であることは英語語源辞書が関連諸言語の語源辞書とも連携すべきであることを意味するが,ここでは割愛した.また,印欧祖語に関連する辞書については,Watkins のものを1点挙げるにとどめた.オンラインで利用できる語源辞書やその他の語源情報については[2010-08-25-1]の記事に挙げたリンクを参照.
・ Barnhart, Robert K. and Sol Steimetz, eds. The Barnhart Dictionary of Etymology. Bronxville, NY: The H. W. Wilson, 1988.
・ Brown, Leslie, ed. The New Shorter Oxford English Dictionary on Historical Principles. 2 vols. Oxford: Clarendon, 1993.
・ Burchfield, Robert William, ed. A Supplement to the Oxford English Dictionary. 4 vols. Oxford: Clarendon, 1972--86.
・ Ekwall, Bror Oscar Eilert. The Concise Oxford Dictionary of English Place-Names. 4th ed. Oxford: Clarendon, 1960. 1st ed. 1936.
・ Gove, Philip Babcock (editor-in-chief). Webster's Third New International Dictionary of the English Language. Unabridged. A Merriam-Webster. Springfield, MA: G. & C. Merriam, 1976. 1st ed. 1961.
・ Hoad, Terence Frederick, ed. The Concise Oxford Dictionary of English Etymology. Oxford: Clarendon, 1986.
・ Holthausen, Ferdinand. Etymologisches Wörterbuch der englischen Sprache. 3rd ed. Göttingen: Vanderhoeck & Ruprecht, 1949. 1st ed. Leipzig: Bernhard Tauchnitz, 1917.
・ Klein, Ernest. A Comprehensive Etymological Dictionary of the English Language, Dealing with the Origin of Words and Their Sense Development, Thus Illustrating the History of Civilization and Culture. 2 vols. Amsterdam/London/New York: Elsevier, 1966--67. Unabridged, one-volume ed. 1971.
・ Murray, James Augustus Henry, Henry Bradley, William Alexander Craigie, and Charles Talbut Onions, eds. The Oxford English Dictionary Being A Corrected Re-issue with an Introduction, Supplement, and Bibliography of A New English Dictionary on Historical Principles Founded Mainly on the Materials Collected by the Philological Society. 13 vols. Oxford: Clarendon, 1933.
・ Onions, Charles Talbut, ed. The Shorter Oxford English Dictionary on Historical Principles. Prepared by William Little, Henry Watson Fowler and Jessie Coulson. Rev. ed. C. T. Onions. 3rd ed. Completely reset with Etymologies revised by George Washington, Salisbury Friedrichsen, and with Revised Addenda. 2 vols. Oxford: Clarendon, 1973. 1st ed. 1933.
・ Onions, Charles Talbut, ed. The Oxford Dictionary of English Etymology. With the assistance of G. W. S. Friedrichsen and R. W. Burchfield. Oxford: Clarendon, 1966.
・ Partridge, Eric Honeywood. Origins: A Short Etymological Dictionary of Modern English. 4th ed. London: Routledge and Kegan Paul, 1966. 1st ed. London: Routledge and Kegan Paul; New York: Macmillan, 1958.
・ Simpson, John Andrew and Edmund S. C. Weiner (prepared). The Oxford English Dictionary. 2nd ed. 20 vols. Oxford: Clarendon, 1989.
・ Skeat, Walter William, ed. An Etymological Dictionary of the English Language. 4th ed. Oxford: Clarendon, 1910. 1st ed. 1879--82. 2nd ed. 1883.
・ Skeat, Walter William, ed. A Concise Etymological Dictionary of the English Language. New ed. Oxford: Clarendon, 1910. 1st ed. 1882.
・ 寺澤 芳雄 (編集主幹) 『英語語源辞典』 研究社,1997年.
・ Watkins, Calvert Ward, ed. The American Heritage Dictionary of Indo-European Roots. Rev. ed. Boston, MA: Houghton Mifflin, 1985.
・ Weekly, Ernest. An Etymological Dictionary of Modern English. With a New Biographical Memoir of the Author by Montague Weekley. 2 vols. New York: Dover, 1967. 1st ed. London: John Murray, 1921.
[2010-08-18-1]の記事で「インク壺語」( inkhorn term )について触れた.16世紀,ルネサンスの熱気にたきつけられた学者たちは,ギリシア語やラテン語から大量に語彙を英語へ借用した.衒学的な用語が多く,借用の速度もあまりに急だったため,これらの語は保守的な学者から inkhorn terms と揶揄されるようになった.その代表的な批判家の1人が Thomas Wilson (1528?--81) である.著書 The Arte of Rhetorique (1553) で次のように主張している.
Among all other lessons this should first be learned, that wee never affect any straunge ynkehorne termes, but to speake as is commonly received: neither seeking to be over fine nor yet living over-carelesse, using our speeche as most men doe, and ordering our wittes as the fewest have done. Some seeke so far for outlandish English, that they forget altogether their mothers language.
Wilson が非難した "ynkehorne termes" の例としては次のような語句がある.ex. revolting, ingent affabilitie, ingenious capacity, magnifical dexteritie, dominicall superioritie, splendidious.このラテン語かぶれの華美は,[2010-02-13-1]の記事で触れた15世紀の aureate diction 「華麗語法」の拡大版といえるだろう.
inkhorn controversy は16世紀を通じて続くが,その副産物として英語史上,重要なものが生まれることになった.英語辞書である.inkhorn terms が増えると,必然的に難語辞書が求められるようになった.Robert Cawdrey (1580--1604) は,1604年に約3000語の難語を収録し,平易な定義を旨とした A Table Alphabeticall を出版した(表紙の画像はこちら.そして,これこそが後に続く1言語使用辞書 ( monolingual dictionary ) すなわち英英辞書の先駆けだったのである.現在,EFL 学習者は平易な定義が売りの各種英英辞書にお世話になっているが,その背景には16世紀の inkhorn terms と inkhorn controversy が隠れていたのである.
A Table Alphabeticall については,British Museum の解説が有用である.
・ Crystal, David. The Cambridge Encyclopedia of the English Language. 2nd ed. Cambridge: CUP, 2003.
・ McArthur, Tom, ed. The Oxford Companion to the English Language. Oxford: OUP, 1992.
英語には,名詞に対応する形容詞語彙が難解であるという問題点がある.ここには,形容詞が主にフランス語,ラテン語,ギリシア語からの借用語によってまかなわれているという事情がある.この問題には3つの側面があるように思われる.
(1) 名詞は本来語だが対応する形容詞は借用語である場合に,形態の類似性が認められない.father に対して paternal,king に対して royal, regal など,形態的に予測不可能であり,学習者は一つひとつ暗記するよりほかない.father -- paternal のようなペアは究極的には同語源だが ( see [2009-08-07-1] ) ,それを知るには専門的な知識が必要である.[2010-04-18-1]の記事で列挙したように,動物名に対応する形容詞はこの問題を表わす典型的な例である.
(2) 上の (1) のようなペアには本来語の派生形容詞が並存する場合があり,その場合,複数種類の形容詞の間に意味の分化が生じる.father に対する形容詞としては paternal のほかに fatherly も存在する.同様に,king に対しては royal や regal のほかに kingly も存在する ( see [2010-03-27-1] ) .これらの形容詞の間には意味や使用域 ( register ) の差があり,学習者はやはり一つひとつ違いを学ばなければならない.
(3) 名詞自体が借用語の場合,通常,対応する形容詞も同語源の借用語なので,一見すると予測可能性が高そうだが,付加される形容詞語尾が複数種類あるのでどれが「正しい」形容詞か分からない.例えば,labyrinth 「迷宮」を例に取ろう.この語はギリシア語からラテン語を経て英語に借用され,英語での初例は1387年となっている.そして,16世紀以降,その形容詞形が英語で用いられることになった.ところが,出ること出ること,17世紀を中心にしてなんと7種類の形容詞が記録されている.OED での初出年とともに形態を示そう
Adjective | Year |
---|---|
labyrinthial (obsolete) | a1550 |
labyrinthian | 1588 |
labyrinthical (rare) | 1628 |
labyrinthine | 1632 |
labyrinthic | 1641 |
labyrinthal (rare) | 1669 |
labyrinthiform | 1835 |
[2010-10-03-1], [2010-10-04-1]に引き続き,フランス借用語の使用で注目されがちな Chaucer が,英語本来語をいかに用いていたかを考えてみたい.今回注目したいのは,接頭辞 for- を含む派生語である ( Horobin 75--76 ) .この接頭辞は語根の意味を強めたり,悪い意味を添えたりする機能がある.現代英語の例(古めかしいものもあるが)では forbear 「自粛する」, fordo 「滅ぼす」, forfend 「予防する」, forget 「忘れる」, forbid 「禁じる」, forsake 「見捨てる」, forswear 「誓って否認する」などがある.
以下の3語は,OED でも MED でも Chaucer が初例として挙げられている(以下,引用は The Riverside Chaucer より).
・ forbrused "severely bruised" (MkT: 2613--14)
But in a chayer men aboute hym bar,
Al forbrused, bothe bak and syde.
・ forcracchen "scratched severely" (RRose: 322--23)
Nor she hadde nothyng slowe be
For to forcracchen al hir face,
・ forsongen "exhausted with singing" (RRose: 663--64)
Chalaundres fele sawe I there,
That wery, nygh forsongen were;
・ forwelked "withered, shriveled up" (RRose: 361-62)
A foul, forwelked thyng was she,
That whylom round and softe had be.
・ forwrapped "wrapped up, covered" (PardT: 718; ParsT: 320)
Why artow al forwrapped save thy face?
Al moot be seyd, and no thyng excused ne hyd ne forwrapped,
他に fordronke "completely drunk", forlost "disgraced", forpampred "spoiled by indulgence", forpassing "surpassing", fortroden "trampled upon", forwaked "tired by lack of sleep", forweped "worn out by weeping" なども,Chaucer が(初例ではなくとも)利用した for- 派生語である.
昨日の記事[2010-10-04-1]で触れた drasty の「下品さ」とも関連するかもしれないが,感情のこもりやすい「強調」という機能は本来語要素を用いる方がふさわしいとも考えられる.「感情に訴えかけるための本来語の開拓」という視点でとらえると,Chaucer の語彙の違った側面が見えてくるのではないか.
本来語意の感情に訴えかける性質については,[2010-03-27-1]を参照.
・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.
昨日の記事[2010-10-03-1]に引き続き,Chaucer の英語本来語の話題.今回も Horobin より例を取り上げる.drasty 「くずのような;下手な,へぼい」 (p. 75) という語の使い方をみてみよう.この語は古英語の dræstig に由来し,dærst 「(液体の)おり,かす」の形容詞である.古英語以来しばらく文献からは姿を消していた語だが,Chaucer が中英語期で初めて復活させた語である.Horobin (74) 曰く,
According to the MED, Chaucer is the first ME writer to use a number of words that appeared in Old English but were not used by earlier ME authors.
しかし,Chaucer にせよその後の著者にせよ,この語の使用は中英語では稀である.おもしろいことに,Chaucer での2例は,いずれも宿屋(居酒屋)の主人の口から発せられている.いずれも Chaucer による "The Tale of Sir Thopas" の途中で主人が語りを遮るという場面で,「へぼ話し」「へぼ詩」ほどの意味で使われている(以下,引用は The Riverside Chaucer より).
Myne eres aken of thy drasty speche. (l. 923)
Thy drasty rymyng is nat worth a toord! (l. 930)
酒を造るときに生じる「おり」を表わす一種の専門用語であるから,一般的には頻度の低い語である.だが,宿屋(居酒屋)の主人の口から出たというのは合点がゆく.本来語ならではの「下品さ」のようなものも伝わって来るかのようでもある.「へぼい」の類義語は他にもあったろうが,ここでの drasty の使用は十分に動機づけられているということが分かる.
・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.
[2010-01-09-1], [2010-02-19-1]の記事で,Chaucer の英語史上に果たした役割について触れた.従来,語彙については,Chaucer がフランス借用語の初例を多く提供しているとして,その英語史上の意義が喧伝されたが,最近ではそれは言い過ぎであるとの評が出てきている.Chaucer が文体や韻律のためにフランス借用語を大いに活用したことは事実だが,それは必ずしも Chaucer がもたらした革新ではなく,あくまで既存の言語資源を「最大限に」活用した点に Chaucer の特徴があるということだろう.
フランス借用語を最大限に活用するためには,当然ながらそれと対比される英語本来語や他の言語からの借用語(主として古ノルド語やラテン語)をも最大限に活用していなければならないはずだ.今回は,Chaucer の語彙についてフランス借用語の陰であまり注目されることのない語類の1つ,英語本来語に注目してみたい.具体例として,Horobin に挙げられている stevene 「声」 (pp. 72--73) の例を取り上げる.
Chaucer の時代には「声」を表わす語には英語本来語の stevene ( < OE stefn ) とフランス借用語の voice の2つがあったが,両者の分布は一様ではない.コーパスを The Canterbury Tales に絞ると,前者が6例,後者が28例現われる(この件数調査は A Glossarial DataBase of Middle English: Canterbury Tales の検索に基づく).圧倒的に後者のほうが普通である.しかも,前者の6例のうち5例までが行末に現われ,明らかに脚韻の要請に動機づけられている.特に興味深いのは "The Knight's Tale" ll. 2561--62 の次の例である(以下,引用は The Riverside Chaucer より).
The voys of peple touchede the hevene, (l. 2561)
So loude cride they with murie stevene, (l. 2562)
voys と stevene の両方が用いられており,英仏語彙の variation が文体的に活用されている.一方で,stevene の使用によって hevene 「天国」との脚韻が成立しており,韻律上も見事にまとまっている.しかも,声が天に届く様子が生き生きと伝わって来る.stevene の使われている他の例でも4例までに hevene との脚韻が見られることから,この古英語由来の語はほぼ脚韻専門の語と考えてよさそうだ.stevene は Chaucer の頃にはもはや一般的でなくなっていたのかもしれないが,それでも死語にはなっていないという状況を Chaucer は最大限に利用してこれだけの文体的効果を生み出しているのである.
・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.
英語にギリシア語からの借用が多いことは,「現代英語の借用語の起源と割合」 ([2009-11-14-1]) やその他のギリシア語に関連する記事 (greek) で触れてきた.ギリシア借用語の多くはラテン語やフランス語を経由して入ってきており,中世以前はこの経路がほぼ唯一の経路だった.
しかし,15世紀になるとギリシア文化が直接西ヨーロッパ諸国に影響を及ぼすようになった.というのは,この時期に大量のギリシア語写本がイタリア人によって Constantinople から西側へもたらされたからである.さらに1453年にオスマントルコにより Constantinople が陥落すると,ギリシア文化の知識も西へ逃れてくることになった.
The possibility of direct Greek influence on English did not arise, however, until Western Europeans began to learn about Greek culture for themselves in the fifteenth century. (This revival of interest was stimulated partly by a westward migration of Greek scholars from Constantinople, later called Istanbul, after it was captured by the Ottoman Turks in 1453.) (Carstairs-McCarthy 101)
続く16世紀にはギリシア語で書かれた新訳聖書の原典への関心から,イギリスでもギリシア語が盛んに研究されるようになった.16世紀前半には Cambridge でギリシャ語を講義した Erasmus (1469--1536) が原典を正確に読むという目的でギリシア語の発音を詳細に研究したが,聖書の言語にあまりに忠実であったその研究態度が,口頭の伝統に支えられてきた保守派の学者の反発を招き,ギリシア語正音論争を巻き起こした.ギリシア語への関心が宗教や政治の世界にまで影響を及ぼしたことになる (Knowles 67--68) .
[2009-08-19-1]で示したように初期近代英語期にギリシア語の借用語が着実に増加していった背景には,上記のような歴史的な事情があったのである.
・ Carstairs-McCarthy, Andrew. An Introduction to English Morphology. Edinburgh: Edinburgh UP, 2002. 134.
・ Knowles, Gerry. A Cultural History of the English Language. London: Arnold, 1997.
[2009-08-19-1],[2009-11-05-1]などで触れたように,近代英語期にはものすごい勢いでラテン単語が英語に借用された.その勢いは中英語期のフランス語借用をも上回るほどである.[2009-06-12-1]で示したように,16世紀だけでも7000語ほどが借用されたというから凄まじい.背景には以下のような事情があった.
16世紀後半,中英語期のフランス語のくびきから解放され,自信を回復しつつあった英語にとっての大きな悩みは,本格的に聖書を英訳するにあたって自前の十分な語彙を欠いていたことだった.そこで考えられた最も効率のよい方法は,直接ラテン語から語彙を借用することだった.さらに,ルネサンスのもたらした新しい思想や科学,古典の復活により,ギリシア語やラテン語といった古典語に由来する無数の専門用語が必要とされ,英語に流入したという事情もあった.かくして16世紀後半の数十年ほどの短期間に,大量のラテン単語が英語に取り込まれた.しかし「インク壺語」( inkhorn term )と揶揄されるほどに難解で衒学的な借用語も多く,この時期に入ったラテン単語の半分は現代にまで伝わっていないと言われる.
現代にまで残ったものは,基本語彙とまでは言わないが,文章では比較的よくみかける次のような単語が挙げられる(以下,Brinton and Arnovick, pp. 357--58 より).
confidence, dedicate, describe, discretion, education, encyclopedia, exaggerate, expect, industrial, maturity
現代までに残らなかったものは,以下のような単語である.当然ながら我々には馴染みのない単語ばかりなので,ラテン語を勉強していない限り意味を推測するのは困難だ.
adjuvate "aid", deruncinate "weed", devulgate "set forth", eximious "excellent", fatigate "make tired", flantado "flaunting", homogalact "foster-brother", illecebrous "delicate", pistated "baked", suppeditate "supply"
どの語が生き残りどの語が捨てられたのかについては,理由らしい理由はないといってよいだろう.ランダムに受容され,ランダムに廃棄されたと考えるのが妥当だ.現代英語に慣れている感覚では,education や expect などの語がなかったら不便だろうなと思う一方で,flantado や illecebrous などは必要のない語に思える.だが,場合によってはまったく逆の状況が生じていた可能性があると想像すると不思議である.現代英語の語彙が歴史の偶然によってもたらされたものだということがよく分かるだろう.
・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
古英語の語彙の多くが現代までに失われてしまっていることは,英語史でもよく話題にされる.背景には,特に中英語期以降,諸外国語から借用語が大量に流入して本来語彙を置き換えたという経緯がある.では,具体的に数でいうと,古英語語彙のどのくらいが現代までに死に絶え,どのくらいが受け継がれているのだろうか.参考になる数値が,Brinton and Arnovick (165--66) に掲載されていたので紹介する(数値の究極のソースは Cassidy and Ringler (4--7) に引用されている J. F Madden and F. P. Magoun, Jr である).
・ 古英詩での最頻1,000語のうち,半数を少々超えるほどの語しか現代に残っていない.
・ 古英語語彙の最頻100語のうち,76%が現代に残っている.
・ 古英語にあった数詞の100%,前置詞の82%,代名詞の80%,接続詞の75%が現代に残っている.
高頻度語や機能語ほど残存率が高いということは,これらの語群が失われる機会が少なく,他言語からの借用語で置換されにくいことによるだろう.だが,逆に言えば,内容語(名詞,動詞,形容詞,副詞)で同様の統計をとれば,死に絶えた語の数が劇的に増加するだろうことは予想できる.
ただ,古英語の語彙が現代まで残存している場合でも,意味や形態がほぼ古英語のままであるという保証はない.in, word, fæst "fast", nū "now" などは意味も形態もほぼそのままで受け継がれているが,brēad "bit" ( not "bread" ), sellan "to give" ( not "to sell" ) などは意味が変化している.また,古英語の意味や形態が,限られた使用域 ( register ) でのみ生きながらえているケースも少なくない.例えば,古英語 gāst 「魂,霊」の意味は,現代英語では the Holy Ghost 「聖霊」というキリスト教用語として限定的に生き残っているに過ぎず,一般的な意味は「幽霊」である.
もし仮に古英語より意味や使用域の変化を経た語は同一語とみなさないとするのであれば,古英語語彙の残存率は相当に低くなることだろう.千年を超える時間のなかでは,変化しない方が珍しいと考えるべきかもしれない.
・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
・ Cassidy, Frederic G and Richard N. Ringer, eds. Bright's Old English Grammar and Reader. 3rd ed. New York: Holt, Rinehart and Winston, 1971.
現代英語の語彙の起源と割合については,[2010-05-16-1]でまとめたとおり,本ブログでも何度か扱ってきた.
・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
この種の英語語彙の語源調査については本格的なものは存在しないようだが,もう一つ関連する先行研究をみつけたので紹介したい.
Williams (67--68) は,数千通の商用書簡から最頻1万語を取り出し,頻度の高い順に1000語単位で10のグループを設けた.各グループについて語源別に比率をまとめた表を Williams より再掲する(宇賀治,pp. 84--85 にも掲載あり).ついでに,見やすいように棒グラフも作った.
|
English | 78.1% |
French | 15.2 |
Latin | 3.1 |
Danish | 2.4 |
Other (Greek, Dutch, Italian, Spanish, German, etc.) | 1.3 |
昨日の記事[2010-05-23-1]で取りあげた antidisestablishmentarianism という語を英語史の視点からみると,英語のロマンス語化が,語や形態素という表面的なレベルだけではなく,語形成や形態論の規則という抽象的なレベルにまで染みこんでいるという点が意義深い.
一般に英語がロマンス語化したというときには,中英語期のフランス単語の大量借用が出発点として念頭におかれるのではないか.確かに古英語期やそれ以前の大陸時代にも英語はラテン語と接してきたので,ロマンス語への慣れは多少はあったといえるが,本格的なロマンス語化の引き金を引いたのは中英語期のフランス語との接触に他ならない.フランス語が開始したこのロマンス語化の波に乗るかのように,次の初期近代英語期にラテン語単語が大量に英語に流れ込んだ.さらに,このフランス語とラテン語の流れには,実はギリシャ語要素も隠れて多く含まれており,近代英語期から現在までに多くのギリシャ語形態素が英語へ供給された.中英語以来の英語語彙のロマンス語化,より正確には Greco-Latin 化は,[2010-05-16-1]の記事でも述べた通り,The Great Vocabulary Shift とでも名付けたくなるくらいに英語の概観を一変させた.
しかし,仏・羅・希は単に語や形態素を英語に供給しただけではない.英語は長期の接触と影響により,ラテン語やギリシャ語の語形成規則や形態論規則を半ばネイティブであるかのように獲得してしまったのである.現在,日々新しく作られている科学用語や専門用語に主として用いられている言語的リソースは Neo-Latin と呼ばれるが,これはラテン語やギリシャ語の形態素をラテン語やギリシャ語の形態規則にのっとって派生・合成させる仕組みといってよい.標題の antidisestablishmentarianism は Greco-Latin 要素とその組み合わせ規則にのっとった典型的な Neo-Latin の語であるが,フランス単語やラテン単語としてではなく,あくまで英単語として造語された点がポイントである.英語のロマンス語化は,語彙のみの表面的な現象だと見なされることがあるが,現代英語の生きた語形成にも非常に大きく貢献している点で,もっと積極的に評価してもいいのではないか.
フランス語が窓口となり英語がロマンス語化してきた経緯と意義については,Gachelin の評が言い得て妙である.
French acted as the Trojan horse of Latinity in English, the sluice gate through which Latin was able to pour into English on a scale without any equivalent in any Germanic language. The process of 'classicization' which had originated in Greece was to spread from Latin to Romance languages, and via French to English. (9--10)
・ Gachelin, Jean-Marc. "Is English a Romance Language?" English Today 23 (July 1990): 8--14.
[2009-06-30-1]の記事で,英語で最も長い単語として45文字19音節からなる pneumonoultramicroscopicsilicovolcanoconiosis を紹介したが,これは一般の辞書には載っていない,意識的に合成された超専門語である.一般の辞書に載っていることが多い最長の単語と言われるのは antidisestablishmentarianism である.28文字12音節の堂々たる長語である.
OED によると初出は1900年で,次のように定義が与えられている.
Properly, opposition to the disestablishment of the Church of England (rare): but popularly cited as an example of a long word. So antidisestablishmentarian.
イギリスで19世紀から20世紀初頭に起こった国教会の廃止 ( disestablishment ) の運動に反対した人々の主義を指す.England ではこの主義が成功して国教会は現在に至るまで守られているが,Wales, Scotland, またローマ・カトリック教徒の多い Ireland では廃止論が影響力を持ち,国教分離が進んだ.
形態素としては anti-, dis-, establish, -ment, -arian, -ism と6部分に分割できる.一語のなかに形態素をこれほど長く数珠つなぎにできるのかと驚きあきれるかもしれないが,日本語の「反国教会廃止主義」だって負けていない.日本語母語話者はこの手の数珠つなぎには慣れっこのはずである.ただ,アルファベット28文字だと目がちかちかするのは確かである.
おもしろいのは,両言語ともに,数珠つなぎの全要素が非本来語由来の形態素であることだ.英語の6形態素はすべて(究極的にはギリシャ語もあるが)ラテン語かフランス語に由来する形態素であり,日本語の8漢字はすべて漢語である.長く専門的な語は,いずれの言語でも大陸からの「レベルの高い」形態素から成り立っているのが普通である.[2010-03-27-1], [2010-03-28-1]の記事で両言語の語彙の三層構造をみたが,改めて日英の言語文化の比較は興味深い.
[2010-03-27-1]の記事で英語語彙の三層構造を紹介した.その記事では,foe, enemy, adversary などの三語一組の例を挙げ,それぞれ (1) 英語本来語,(2) フランス借用語,(3) ラテン・ギリシャ借用語の層をなしていることを示した.英語語彙に見られるこの特異な三層構造を言い表す術語がないかなと思っていたが,McArthur が trisociation と呼んでいるのをみつけた.この三語一組のことは triset と呼んでいる.
ただ,McArthur の trisociation は,(1) 英語本来語,(2) フランス語・ラテン語,(3) ギリシャ語というように層別しているようで,上述の foe の例の層別とは異なる.実際には四層あるものを三層に分けて考えているのだからこのようなヴァリエーションもありうるが,語という単位ではなく形態素という単位で考える場合には McArthur の層別のほうがうまくいく.McArthur が挙げている triset の例を再掲する(主に本来語が b-, n-, s- で始まる triset の例).
triset of morphemes | triset of words |
---|---|
ant, formic-, myrmec- | ant-eater, formicarium, myrmecology |
bad, mal-, caco- | badly, malign, cacophony |
be, ess-, ont- | being, essence, ontology |
belly, ventr-, gastr- | potbellied, ventral, gastritis |
best, optim-, aristo- | bestseller, optimal, aristocrat |
big, magn-, mega(lo)- | bigheaded, magnitude, megalomania |
bird, avi-, ornith- | bird-watcher, aviary, ornithology |
birth, nasc-/nat-, gen-/gon- | birthday, nascent/native, genesis/cosmogony |
black, nigr-, melan- | blacken, denigrate, melanin/melancholy |
blood, sanguin-, (h)aem(at)-/(h)em(at)- | bloody, sanguinary, an(a)emic |
body, corp(or)-, som(at)- | bodily, corporeal/incorporate, psychosomatic |
bone, oss(e)-, osteo- | rawboned, osseous, osteopath |
book, libr-, biblio- | bookish, library, bibliography |
breast, mamm-, mast- | doublebreasted, mammography, mastitis |
earth, terr-, ge- | earthquake, terrestrial, geography |
fire, ign-, pyr- | fire-fighter, igneous, pyromania |
naked, nud(e)-, gymn- | nakedness, nudity, gymnosophist |
name, nomin-, onom-/onym- | namely, nominate, onomastic/synonym |
new, nov-, neo- | newness, innovate, neologism |
night, noct-, nyct- | nightly, nocturnal, nyctalopia |
nose, nas-, rhin- | nosiness, nasal, rhinitis |
salt, sal-, (h)al- | salty, salinity, halophyte |
say, dict-, phas-/phat- | saying, dictum, emphasis |
sea, mar-, thalass- | seascape, marine, thalassocracy |
see, vid-/vis-, scop- | all-seeing, evident/vision, telescope |
self, ips-, aut(o)- | unselfish, solipsism, autistic |
shape, form-, morph- | shapely, formal, metamorphosis |
sharp, ac(u)-, oxy- | sharpen, acute, oxygen |
skin, cut(i)-, derm(at)- | skinny, subcutaneous, dermatitis |
sound, son-, phon- | soundless, sonic, telephone |
speak, loqu-/loc(ut)-, log- | unspeakable, eloquent, dialog(ue) |
stand, sta(t)-, stas-/stat- | outstanding, stable, stasis/statis |
star, stell-, aster- | starry, stellar, asteroid |
stone, lapid-, lith- | stony, lapidary, megalithic |
sun, sol, heli(o)- | sunny, solar, heliograph |
これまでも現代英語の語彙数と起源別割合については,グラフとともにいろいろなソースから具体的な数値を挙げてきた.
・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
それとは別に,語彙や起源別割合の通時的な増減やその他を扱った話題としては,以下のような記事を書いてきた.
・ [2009-08-22-1]: フランス借用語の年代別分布
・ [2009-08-19-1]: 初期近代英語の借用語の起源と割合
・ [2009-06-12-1]: 英語語彙にまつわる数値
語彙の数値というのは,参照する辞書などのソースを何にするのか,単語の頻度を考慮に入れるのか,などによって調査結果が大きく変わる可能性があり,なかなか難しい.起源言語別で数えるにしても,語源そのものが不詳だったり,フランス語なのかラテン語なのかなどで判断のつかないケースがあったりと,やはり難しい.ただ,予想される通り OED や SOED の情報に基づいた数値が多いようではある.
今回は,使用されている語彙リストのソース自体は不明なのだが,広く参照される可能性のある Encyclopedia of Linguistics に掲載されている数値を調べてみた.それぞれ "Old English" と "English" の項から関連箇所を引用する.
The recorded vocabulary of OE is estimated at approximately 30,000 words. Only about 3% of these were of non-Germanic origin. (779)
As a result of borrowing, the Gmc word stock is now a low 30% and the Romance one is 50%. (292)
後者では現代英語の総語彙を対象語彙としているようではあるが,その語数は記されていない.もし OED2 に準拠しているのであれば,定義・例説の与えられている語の数として 615,100 辺りを念頭においているのかもしれない ( see Dictionary facts ) .あるいは,定義されている語源の数である 219,800 辺りを念頭においているのだろうか.不明の点が多いが,現代英語の語彙数として仮に 615,100 という数を採用するとして,古英語と現代英語の語彙とそのなかのゲルマン語彙比率について比べる表を掲げよう.ゲルマン語彙とは,Anglo-Saxon 起源の本来語と(特に現代英語において)Old Norse 起源の借用語を合わせたものが中心になると考えてよいだろう.
Old English | Present-Day English | |
---|---|---|
vocabulary | 30,000 | 615,100? |
native words (%) | 97 | 30 |
昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.
少し変わり種のコーパスとして,COLT: The Bergen Corpus Of London Teenage Language を紹介する.1993年におけるロンドンの若者(13歳から17歳)の話し言葉を収集したコーパスで,約50万語からなる.31人のロンドン各地・各階層の男子女子の会話を,合計50時間だけ録音し,文字に起こしたものである.BNC ( The British National Corpus ) にも組み込まれているコーパスだ.語類情報や休止などの韻律情報がタグ付けされており,若者言葉によって先導される言語変化の調査や語用論的な研究において実績がある.
コーパス自体は有料だが,上記のHPから手に入る COLT による最頻1000語のリスト が目を引いた.COLT に現れる表記語 ( graphic word ) の最頻リストで,lemmatise されていない.要するに,do と did,laugh と laughing などは別々にカウントされている.
今回,このコーパスに目を付けたのは,先日[2010-04-10-1], [2010-04-11-1]でパイロット・スタディとしておこなった「BNC Word Frequency List による音節数の分布調査」の COLT 版を試してみようと思ったからである.BNC による音節数分布調査では,書き言葉と話し言葉の両方を対象とし,lemmatise された基底形 ( base form ) での頻度表を用いたが,COLT を用いれば,大きく異なった条件のもとで類似した調査をおこなうことができる( COLT が BNC の一部になっていることを考慮しても).具体的には,話し言葉に限定された,表記語に基づく頻度表をベースとして音節数の分布を調べられる.
注意を要するのは,COLT の頻度表には unclear, nv, singing など,地の文の語ではなくタグ名として使われている語もうっかり数えられてしまっていることだ.したがって,この種の語は手作業で除去し,最終的に有効最頻語976語のリストが得られた.これをもとにして,音節数の分布をいざ探ってみることにする.結果は,明日.
今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)
昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.
・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える
昨日の記事[2010-04-09-1]に続く話題.BNC Word Frequency List の6318語の見出し語化された ( lemmatised ) 最頻語リストを材料として,音節数の分布がどのようになっているかを調査してみた.
まずはリストを頻度順に眺めてみるだけで,ある程度の検討はついた.[2010-03-02-1]の記事「現代英語の基本語彙100語の起源と割合」からも明らかなとおり,最頻基本語にはゲルマン系の本来語が多い.このことは,単音節語が多いということにもつながる.しかし,リストを下って頻度のより低い語に目をやると,徐々に2音節語,3音節語が目につくようになってくる.したがって,頻度で上位どのくらいまでを対象にするかによって,音節数の相対的な分布は変わってくることが予想される.そこで,まず6318語すべての音節数を出した上で,最頻100語,200語,500語,1000語,2000語,3000語,4000語,5000語,6000語というレベルで音節数の分布を調査した.レベル間の比較が可能となるようにグラフ化したのが下図である.(数値データはこのページのHTMLソースを参照.)
このグラフからいくつかの興味深い事実を読み取ることができる.
・ どのレベルでも単音節語が最も多い
・ 対象語彙が大きくなればなるほど,2音節語数が単音節語数に肉薄する
・ 英語語彙の圧倒的多数が単音節語か2音節語である
・ 対象語彙が大きくなればなるほど,平均音節数が漸増する
・ いずれにせよ英単語の平均音節数はせいぜい2音節ほどである
今回は最頻約6000語レベルの語彙で調査したが,対象語彙をどんどん大きくしてゆくとどのような結果が出るのか,おおいに気になった.やがては2音節語が単音節語を追い抜き,平均音節数も漸増を続けるのだろうか? あるいは平均音節数がこれ以上は変わらないという限界点が存在するのだろうか? non-lemmatised な語彙リストを材料にすると平均音節数はどのくらい変化するのだろうか? 次々に疑問が生じた.
ちなみに,最頻5000語レベルで初めて現れる7音節語が一つある.英語の平均音節数からすると異常に長い超多音節語だが,比較的よくお目にかかる単語ということになる.何であるか,想像できるだろうか? 答えは,4657番目に現れる
telecommunication
(←クリック)である.なるほど?.
ここ数ヶ月のあいだに取り組んでいる研究課題と関連して,標題の問いについて調査する必要が生じている.この問いの背後にある問題意識としては,単語の語源別の平均音節数を比較して,たとえば「ゲルマン系の単語はロマンス系の単語よりも○音節だけ短い」などという統計的な数値を得たいと思っているのだが,この問題は何段階かに分けてアプローチしてゆくのがよさそうである.標題の問いのままでは適切な問題設定とはいえないいくつかの理由がある.
一つは,言語学で最も悪名高い問題の一つである「単語とは何か」という問いに関係する.わかりやすい例として,合成語 ( compound ) を考えるとよい.school boy は1語なのだろうか,2語なのだろうか? さらに,固有名詞の New York City はどうだろうか? いずれも綴字上の慣習により複数の語とみなすこともできるが,一方で意味のまとまりとしては一つであるから1語だという理屈も成り立ちうる.kick the bucket のようなイディオムはどうだろうか? [2010-02-07-1], [2010-02-08-1]で触れた crane のような多義語 ( polysemy ) は,語義ごとに別の語と考えることもできるのではないか? 英単語の平均音節を考えるにあたっても,こうした基本的な問題は避けて通れない.
二つ目の理由は,英語語彙というときの範囲の問題である.OED には50万語ほどがエントリーされているが,辞書の保守性を考慮すると,実際にはその倍の語彙があるのではないかともいわれている.平均値を出すからには,理想的にはありったけの単語を考慮に入れることが必要である.となると,[2009-06-30-1]の記事でみた pneumonoultramicroscopicsilicovolcanoconiosis のような極端な語(19音節)も含めることになる.だが,そもそも現代英語語彙の総覧が存在しない以上,どこまで含めてどこから含めないかの判断は恣意的にならざるをえない.実際的な研究に際しては,どこかで強引に切る必要がある.
三つ目は,同一の語でも,変種によって1音節程度の増減が起こりうるという問題である.[2010-03-08-1]で触れたように,secretary は典型的な英米発音のあいだで音節数の揺れがある.もっとも,この問題は対象とする変種を定めてしまえば,上記の二つの問題ほど大きな問題にはならないかもしれない.
一つ目,二つ目の問題については当面の根本的な解決策はないが,そんなに難しいことを言っていては仕方がないというのも確かである.具体的に調査を進めてみようと思うと,[2010-03-01-1]で紹介した最頻英単語リスト辺りからスタートするのがよさそうである.ひとまずは,BNC Word Frequency List の6318語のリストから始めてみようと思う.
・ 齊藤 俊雄,中村 純作,赤野 一郎 編 『英語コーパス言語学?基礎と実践?』 研究社,1998年.110--13頁.
Powered by WinChalow1.0rc4 based on chalow