hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 次ページ / page 14 (15)

lexicology - hellog〜英語史ブログ

最終更新時間: 2020-01-17 20:56

2010-10-03 Sun

#524. Chaucer の用いた英語本来語 --- stevene [chaucer][lexicology]

 [2010-01-09-1], [2010-02-19-1]の記事で,Chaucer の英語史上に果たした役割について触れた.従来,語彙については,Chaucer がフランス借用語の初例を多く提供しているとして,その英語史上の意義が喧伝されたが,最近ではそれは言い過ぎであるとの評が出てきている.Chaucer が文体や韻律のためにフランス借用語を大いに活用したことは事実だが,それは必ずしも Chaucer がもたらした革新ではなく,あくまで既存の言語資源を「最大限に」活用した点に Chaucer の特徴があるということだろう.
 フランス借用語を最大限に活用するためには,当然ながらそれと対比される英語本来語や他の言語からの借用語(主として古ノルド語やラテン語)をも最大限に活用していなければならないはずだ.今回は,Chaucer の語彙についてフランス借用語の陰であまり注目されることのない語類の1つ,英語本来語に注目してみたい.具体例として,Horobin に挙げられている stevene 「声」 (pp. 72--73) の例を取り上げる.
 Chaucer の時代には「声」を表わす語には英語本来語の stevene ( < OE stefn ) とフランス借用語の voice の2つがあったが,両者の分布は一様ではない.コーパスを The Canterbury Tales に絞ると,前者が6例,後者が28例現われる(この件数調査は A Glossarial DataBase of Middle English: Canterbury Tales の検索に基づく).圧倒的に後者のほうが普通である.しかも,前者の6例のうち5例までが行末に現われ,明らかに脚韻の要請に動機づけられている.特に興味深いのは "The Knight's Tale" ll. 2561--62 の次の例である(以下,引用は The Riverside Chaucer より).

The voys of peple touchede the hevene, (l. 2561)
So loude cride they with murie stevene, (l. 2562)


 voysstevene の両方が用いられており,英仏語彙の variation が文体的に活用されている.一方で,stevene の使用によって hevene 「天国」との脚韻が成立しており,韻律上も見事にまとまっている.しかも,声が天に届く様子が生き生きと伝わって来る.stevene の使われている他の例でも4例までに hevene との脚韻が見られることから,この古英語由来の語はほぼ脚韻専門の語と考えてよさそうだ.stevene は Chaucer の頃にはもはや一般的でなくなっていたのかもしれないが,それでも死語にはなっていないという状況を Chaucer は最大限に利用してこれだけの文体的効果を生み出しているのである.

 ・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.

[ | 固定リンク | 印刷用ページ ]

2010-09-25 Sat

#516. 直接のギリシア語借用は15世紀から [greek][emode][loan_word][history][lexicology]

 英語にギリシア語からの借用が多いことは,「現代英語の借用語の起源と割合」 ([2009-11-14-1]) やその他のギリシア語に関連する記事 (greek) で触れてきた.ギリシア借用語の多くはラテン語やフランス語を経由して入ってきており,中世以前はこの経路がほぼ唯一の経路だった.
 しかし,15世紀になるとギリシア文化が直接西ヨーロッパ諸国に影響を及ぼすようになった.というのは,この時期に大量のギリシア語写本がイタリア人によって Constantinople から西側へもたらされたからである.さらに1453年にオスマントルコにより Constantinople が陥落すると,ギリシア文化の知識も西へ逃れてくることになった.

The possibility of direct Greek influence on English did not arise, however, until Western Europeans began to learn about Greek culture for themselves in the fifteenth century. (This revival of interest was stimulated partly by a westward migration of Greek scholars from Constantinople, later called Istanbul, after it was captured by the Ottoman Turks in 1453.) (Carstairs-McCarthy 101)


 続く16世紀にはギリシア語で書かれた新訳聖書の原典への関心から,イギリスでもギリシア語が盛んに研究されるようになった.16世紀前半には Cambridge でギリシャ語を講義した Erasmus (1469--1536) が原典を正確に読むという目的でギリシア語の発音を詳細に研究したが,聖書の言語にあまりに忠実であったその研究態度が,口頭の伝統に支えられてきた保守派の学者の反発を招き,ギリシャ語正音論争を巻き起こした.ギリシア語への関心が宗教や政治の世界にまで影響を及ぼしたことになる (Knowles 67--68) .
 [2009-08-19-1]で示したように初期近代英語期にギリシア語の借用語が着実に増加していった背景には,上記のような歴史的な事情があったのである.

 ・ Carstairs-McCarthy, Andrew. An Introduction to English Morphology. Edinburgh: Edinburgh UP, 2002. 134.
 ・ Knowles, Gerry. A Cultural History of the English Language. London: Arnold, 1997.

Referrer (Inside): [2017-07-28-1] [2015-09-12-1]

[ | 固定リンク | 印刷用ページ ]

2010-08-18 Wed

#478. 初期近代英語期に湯水のように借りられては捨てられたラテン語 [emode][loan_word][latin][inkhorn_term][ranaissance][lexicology]

 [2009-08-19-1],[2009-11-05-1]などで触れたように,近代英語期にはものすごい勢いでラテン単語が英語に借用された.その勢いは中英語期のフランス語借用をも上回るほどである.[2009-06-12-1]で示したように,16世紀だけでも7000語ほどが借用されたというから凄まじい.背景には以下のような事情があった.
 16世紀後半,中英語期のフランス語のくびきから解放され,自信を回復しつつあった英語にとっての大きな悩みは,本格的に聖書を英訳するにあたって自前の十分な語彙を欠いていたことだった.そこで考えられた最も効率のよい方法は,直接ラテン語から語彙を借用することだった.さらに,ルネサンスのもたらした新しい思想や科学,古典の復活により,ギリシア語やラテン語といった古典語に由来する無数の専門用語が必要とされ,英語に流入したという事情もあった.かくして16世紀後半の数十年ほどの短期間に,大量のラテン単語が英語に取り込まれた.しかし「インク壺語」( inkhorn term )と揶揄されるほどに難解で衒学的な借用語も多く,この時期に入ったラテン単語の半分は現代にまで伝わっていないと言われる.
 現代にまで残ったものは,基本語彙とまでは言わないが,文章では比較的よくみかける次のような単語が挙げられる(以下,Brinton and Arnovick, pp. 357--58 より).

confidence, dedicate, describe, discretion, education, encyclopedia, exaggerate, expect, industrial, maturity


 現代までに残らなかったものは,以下のような単語である.当然ながら我々には馴染みのない単語ばかりなので,ラテン語を勉強していない限り意味を推測するのは困難だ.

adjuvate "aid", deruncinate "weed", devulgate "set forth", eximious "excellent", fatigate "make tired", flantado "flaunting", homogalact "foster-brother", illecebrous "delicate", pistated "baked", suppeditate "supply"


 どの語が生き残りどの語が捨てられたのかについては,理由らしい理由はないといってよいだろう.ランダムに受容され,ランダムに廃棄されたと考えるのが妥当だ.現代英語に慣れている感覚では,educationexpect などの語がなかったら不便だろうなと思う一方で,flantadoillecebrous などは必要のない語に思える.だが,場合によってはまったく逆の状況が生じていた可能性があると想像すると不思議である.現代英語の語彙が歴史の偶然によってもたらされたものだということがよく分かるだろう.

 ・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.

[ | 固定リンク | 印刷用ページ ]

2010-07-21 Wed

#450. 現代英語に受け継がれた古英語の語彙はどのくらいあるか [oe][pde][lexicology][statistics][semantic_change]

 古英語の語彙の多くが現代までに失われてしまっていることは,英語史でもよく話題にされる.背景には,特に中英語期以降,諸外国語から借用語が大量に流入して本来語彙を置き換えたという経緯がある.では,具体的に数でいうと,古英語語彙のどのくらいが現代までに死に絶え,どのくらいが受け継がれているのだろうか.参考になる数値が,Brinton and Arnovick (165--66) に掲載されていたので紹介する(数値の究極のソースは Cassidy and Ringler (4--7) に引用されている J. F Madden and F. P. Magoun, Jr である).

 ・ 古英詩での最頻1,000語のうち,半数を少々超えるほどの語しか現代に残っていない.
 ・ 古英語語彙の最頻100語のうち,76%が現代に残っている.
 ・ 古英語にあった数詞の100%,前置詞の82%,代名詞の80%,接続詞の75%が現代に残っている.

 高頻度語や機能語ほど残存率が高いということは,これらの語群が失われる機会が少なく,他言語からの借用語で置換されにくいことによるだろう.だが,逆に言えば,内容語(名詞,動詞,形容詞,副詞)で同様の統計をとれば,死に絶えた語の数が劇的に増加するだろうことは予想できる.
 ただ,古英語の語彙が現代まで残存している場合でも,意味や形態がほぼ古英語のままであるという保証はない.in, word, fæst "fast", "now" などは意味も形態もほぼそのままで受け継がれているが,brēad "bit" ( not "bread" ), sellan "to give" ( not "to sell" ) などは意味が変化している.また,古英語の意味や形態が,限られた使用域 ( register ) でのみ生きながらえているケースも少なくない.例えば,古英語 gāst 「魂,霊」の意味は,現代英語では the Holy Ghost 「聖霊」というキリスト教用語として限定的に生き残っているに過ぎず,一般的な意味は「幽霊」である.
 もし仮に古英語より意味や使用域の変化を経た語は同一語とみなさないとするのであれば,古英語語彙の残存率は相当に低くなることだろう.千年を超える時間のなかでは,変化しない方が珍しいと考えるべきかもしれない.

 ・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
 ・ Cassidy, Frederic G and Richard N. Ringer, eds. Bright's Old English Grammar and Reader. 3rd ed. New York: Holt, Rinehart and Winston, 1971.

Referrer (Inside): [2016-04-26-1] [2011-02-04-1]

[ | 固定リンク | 印刷用ページ ]

2010-06-30 Wed

#429. 現代英語の最頻語彙10000語の起源と割合 [loan_word][lexicology][statistics][pde]

 現代英語の語彙の起源と割合については,[2010-05-16-1]でまとめたとおり,本ブログでも何度か扱ってきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 この種の英語語彙の語源調査については本格的なものは存在しないようだが,もう一つ関連する先行研究をみつけたので紹介したい.
 Williams (67--68) は,数千通の商用書簡から最頻1万語を取り出し,頻度の高い順に1000語単位で10のグループを設けた.各グループについて語源別に比率をまとめた表を Williams より再掲する(宇賀治,pp. 84--85 にも掲載あり).ついでに,見やすいように棒グラフも作った.

DecileEnglishFrenchLatinDanishOther
183%11%2%2%2%
234461127
3294614110
4274517110
527471718
6274219210
7234517213
8264118213
9254117215
10254218114
Etymological Breakdown of the Most Frequent 10000 Words by Williams


 2000語,3000語レベルから早くも各言語の比率が落ち着いてくるのは,[2010-04-11-1]でみた音節数の分布とある程度は相関していそうでおもしろい.
 "Other" グループは雑多あるいは語源不詳の語も含まれるが,そのなかで各1000語の語群のいずれかで1%を超えるものは Dutch 借用語のみだという.また,調査対象としたコーパスをひっくるめて token 頻度で調べると以下の通り.こうしてみると英語は英語なのだとわかる.

English78.1%
French15.2
Latin3.1
Danish2.4
Other (Greek, Dutch, Italian, Spanish, German, etc.)1.3


 ・ Williams, Joseph M. Origins of the English Language: A Social and Linguistic History. New York: The Free Press, 1975.
 ・ 宇賀治 正朋著 『英語史』 開拓社,2000年.

[ | 固定リンク | 印刷用ページ ]

2010-05-24 Mon

#392. antidisestablishmentarianism にみる英語のロマンス語化 [word_formation][loan_word][french][latin][greek][neo-latin][lexicology][romancisation]

 昨日の記事[2010-05-23-1]で取りあげた antidisestablishmentarianism という語を英語史の視点からみると,英語のロマンス語化が,語や形態素という表面的なレベルだけではなく,語形成や形態論の規則という抽象的なレベルにまで染みこんでいるという点が意義深い.
 一般に英語がロマンス語化したというときには,中英語期のフランス単語の大量借用が出発点として念頭におかれるのではないか.確かに古英語期やそれ以前の大陸時代にも英語はラテン語と接してきたので,ロマンス語への慣れは多少はあったといえるが,本格的なロマンス語化の引き金を引いたのは中英語期のフランス語との接触に他ならない.フランス語が開始したこのロマンス語化の波に乗るかのように,次の初期近代英語期にラテン語単語が大量に英語に流れ込んだ.さらに,このフランス語とラテン語の流れには,実はギリシャ語要素も隠れて多く含まれており,近代英語期から現在までに多くのギリシャ語形態素が英語へ供給された.中英語以来の英語語彙のロマンス語化,より正確には Greco-Latin 化は,[2010-05-16-1]の記事でも述べた通り,The Great Vocabulary Shift とでも名付けたくなるくらいに英語の概観を一変させた.
 しかし,仏・羅・希は単に語や形態素を英語に供給しただけではない.英語は長期の接触と影響により,ラテン語やギリシャ語の語形成規則や形態論規則を半ばネイティブであるかのように獲得してしまったのである.現在,日々新しく作られている科学用語や専門用語に主として用いられている言語的リソースは Neo-Latin と呼ばれるが,これはラテン語やギリシャ語の形態素をラテン語やギリシャ語の形態規則にのっとって派生・合成させる仕組みといってよい.標題の antidisestablishmentarianism は Greco-Latin 要素とその組み合わせ規則にのっとった典型的な Neo-Latin の語であるが,フランス単語やラテン単語としてではなく,あくまで英単語として造語された点がポイントである.英語のロマンス語化は,語彙のみの表面的な現象だと見なされることがあるが,現代英語の生きた語形成にも非常に大きく貢献している点で,もっと積極的に評価してもいいのではないか.
 フランス語が窓口となり英語がロマンス語化してきた経緯と意義については,Gachelin の評が言い得て妙である.

French acted as the Trojan horse of Latinity in English, the sluice gate through which Latin was able to pour into English on a scale without any equivalent in any Germanic language. The process of 'classicization' which had originated in Greece was to spread from Latin to Romance languages, and via French to English. (9--10)



 ・ Gachelin, Jean-Marc. "Is English a Romance Language?" English Today 23 (July 1990): 8--14.

[ | 固定リンク | 印刷用ページ ]

2010-05-23 Sun

#391. antidisestablishmentarianism 「反国教会廃止主義」 [word_formation][japanese][lexicology][romancisation]

 [2009-06-30-1]の記事で,英語で最も長い単語として45文字19音節からなる pneumonoultramicroscopicsilicovolcanoconiosis を紹介したが,これは一般の辞書には載っていない,意識的に合成された超専門語である.一般の辞書に載っていることが多い最長の単語と言われるのは antidisestablishmentarianism である.28文字12音節の堂々たる長語である.
 OED によると初出は1900年で,次のように定義が与えられている.

 Properly, opposition to the disestablishment of the Church of England (rare): but popularly cited as an example of a long word. So antidisestablishmentarian.


 イギリスで19世紀から20世紀初頭に起こった国教会の廃止 ( disestablishment ) の運動に反対した人々の主義を指す.England ではこの主義が成功して国教会は現在に至るまで守られているが,Wales, Scotland, またローマ・カトリック教徒の多い Ireland では廃止論が影響力を持ち,国教分離が進んだ.
 形態素としては anti-, dis-, establish, -ment, -arian, -ism と6部分に分割できる.一語のなかに形態素をこれほど長く数珠つなぎにできるのかと驚きあきれるかもしれないが,日本語の「反国教会廃止主義」だって負けていない.日本語母語話者はこの手の数珠つなぎには慣れっこのはずである.ただ,アルファベット28文字だと目がちかちかするのは確かである.
 おもしろいのは,両言語ともに,数珠つなぎの全要素が非本来語由来の形態素であることだ.英語の6形態素はすべて(究極的にはギリシャ語もあるが)ラテン語かフランス語に由来する形態素であり,日本語の8漢字はすべて漢語である.長く専門的な語は,いずれの言語でも大陸からの「レベルの高い」形態素から成り立っているのが普通である.[2010-03-27-1], [2010-03-28-1]の記事で両言語の語彙の三層構造をみたが,改めて日英の言語文化の比較は興味深い.

Referrer (Inside): [2016-12-23-1] [2010-05-24-1]

[ | 固定リンク | 印刷用ページ ]

2010-05-19 Wed

#387. trisociationtriset [lexicology][latin][greek][lexical_stratification]

 [2010-03-27-1]の記事で英語語彙の三層構造を紹介した.その記事では,foe, enemy, adversary などの三語一組の例を挙げ,それぞれ (1) 英語本来語,(2) フランス借用語,(3) ラテン・ギリシャ借用語の層をなしていることを示した.英語語彙に見られるこの特異な三層構造を言い表す術語がないかなと思っていたが,McArthur が trisociation と呼んでいるのをみつけた.この三語一組のことは triset と呼んでいる.
 ただ,McArthur の trisociation は,(1) 英語本来語,(2) フランス語・ラテン語,(3) ギリシャ語というように層別しているようで,上述の foe の例の層別とは異なる.実際には四層あるものを三層に分けて考えているのだからこのようなヴァリエーションもありうるが,語という単位ではなく形態素という単位で考える場合には McArthur の層別のほうがうまくいく.McArthur が挙げている triset の例を再掲する(主に本来語が b-, n-, s- で始まる triset の例).

triset of morphemestriset of words
ant, formic-, myrmec-ant-eater, formicarium, myrmecology
bad, mal-, caco-badly, malign, cacophony
be, ess-, ont-being, essence, ontology
belly, ventr-, gastr-potbellied, ventral, gastritis
best, optim-, aristo-bestseller, optimal, aristocrat
big, magn-, mega(lo)-bigheaded, magnitude, megalomania
bird, avi-, ornith-bird-watcher, aviary, ornithology
birth, nasc-/nat-, gen-/gon-birthday, nascent/native, genesis/cosmogony
black, nigr-, melan-blacken, denigrate, melanin/melancholy
blood, sanguin-, (h)aem(at)-/(h)em(at)-bloody, sanguinary, an(a)emic
body, corp(or)-, som(at)-bodily, corporeal/incorporate, psychosomatic
bone, oss(e)-, osteo-rawboned, osseous, osteopath
book, libr-, biblio-bookish, library, bibliography
breast, mamm-, mast-doublebreasted, mammography, mastitis
earth, terr-, ge-earthquake, terrestrial, geography
fire, ign-, pyr-fire-fighter, igneous, pyromania
naked, nud(e)-, gymn-nakedness, nudity, gymnosophist
name, nomin-, onom-/onym-namely, nominate, onomastic/synonym
new, nov-, neo-newness, innovate, neologism
night, noct-, nyct-nightly, nocturnal, nyctalopia
nose, nas-, rhin-nosiness, nasal, rhinitis
salt, sal-, (h)al-salty, salinity, halophyte
say, dict-, phas-/phat-saying, dictum, emphasis
sea, mar-, thalass-seascape, marine, thalassocracy
see, vid-/vis-, scop-all-seeing, evident/vision, telescope
self, ips-, aut(o)-unselfish, solipsism, autistic
shape, form-, morph-shapely, formal, metamorphosis
sharp, ac(u)-, oxy-sharpen, acute, oxygen
skin, cut(i)-, derm(at)-skinny, subcutaneous, dermatitis
sound, son-, phon-soundless, sonic, telephone
speak, loqu-/loc(ut)-, log-unspeakable, eloquent, dialog(ue)
stand, sta(t)-, stas-/stat-outstanding, stable, stasis/statis
star, stell-, aster-starry, stellar, asteroid
stone, lapid-, lith-stony, lapidary, megalithic
sun, sol, heli(o)-sunny, solar, heliograph


 ラテン語 /s/ とギリシャ語 /h/ の対応については,[2010-04-14-1]で扱ったのでそちらを参照.

 ・ McArthur, Tom. "English in Tiers." English Today 23 (July 1990): 15--20.

[ | 固定リンク | 印刷用ページ ]

2010-05-16 Sun

#384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する [oe][pde][loan_word][lexicology][statistics]

 これまでも現代英語の語彙数と起源別割合については,グラフとともにいろいろなソースから具体的な数値を挙げてきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 それとは別に,語彙や起源別割合の通時的な増減やその他を扱った話題としては,以下のような記事を書いてきた.

 ・ [2009-08-22-1]: フランス借用語の年代別分布
 ・ [2009-08-19-1]: 初期近代英語の借用語の起源と割合
 ・ [2009-06-12-1]: 英語語彙にまつわる数値

 語彙の数値というのは,参照する辞書などのソースを何にするのか,単語の頻度を考慮に入れるのか,などによって調査結果が大きく変わる可能性があり,なかなか難しい.起源言語別で数えるにしても,語源そのものが不詳だったり,フランス語なのかラテン語なのかなどで判断のつかないケースがあったりと,やはり難しい.ただ,予想される通り OEDSOED の情報に基づいた数値が多いようではある.
 今回は,使用されている語彙リストのソース自体は不明なのだが,広く参照される可能性のある Encyclopedia of Linguistics に掲載されている数値を調べてみた.それぞれ "Old English" と "English" の項から関連箇所を引用する.

The recorded vocabulary of OE is estimated at approximately 30,000 words. Only about 3% of these were of non-Germanic origin. (779)


As a result of borrowing, the Gmc word stock is now a low 30% and the Romance one is 50%. (292)


 後者では現代英語の総語彙を対象語彙としているようではあるが,その語数は記されていない.もし OED2 に準拠しているのであれば,定義・例説の与えられている語の数として 615,100 辺りを念頭においているのかもしれない ( see Dictionary facts ) .あるいは,定義されている語源の数である 219,800 辺りを念頭においているのだろうか.不明の点が多いが,現代英語の語彙数として仮に 615,100 という数を採用するとして,古英語と現代英語の語彙とそのなかのゲルマン語彙比率について比べる表を掲げよう.ゲルマン語彙とは,Anglo-Saxon 起源の本来語と(特に現代英語において)Old Norse 起源の借用語を合わせたものが中心になると考えてよいだろう.

 Old EnglishPresent-Day English
vocabulary30,000615,100?
native words (%)9730


 語彙数がざっと20倍,ゲルマン語彙比率が1/3以下になったのだから,語彙体系の激変が起こったといってよい.大語彙推移 ( The Great Vocabulary Shift ) とでも呼びたくなる大変化だ.

 ・ Minkova, Donka. "Old English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 777--80.
 ・ Leitner, Gerhard. "English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 288--94.

[ | 固定リンク | 印刷用ページ ]

2010-04-17 Sat

#355. COLT Word Frequency List による音節数の分布調査 [colt][syllable][lexicology][statistics]

 昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
 BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.

How Many Syllables in Words by COLT Word Frequency List


Rate of n-Syllables at Words Levels by COLT Word Frequency List

Referrer (Inside): [2012-06-30-1] [2011-02-22-1]

[ | 固定リンク | 印刷用ページ ]

2010-04-16 Fri

#354. COLT:ロンドンの十代の若者話し言葉コーパス [corpus][colt][lexicology][syllable]

 少し変わり種のコーパスとして,COLT: The Bergen Corpus Of London Teenage Language を紹介する.1993年におけるロンドンの若者(13歳から17歳)の話し言葉を収集したコーパスで,約50万語からなる.31人のロンドン各地・各階層の男子女子の会話を,合計50時間だけ録音し,文字に起こしたものである.BNC ( The British National Corpus ) にも組み込まれているコーパスだ.語類情報や休止などの韻律情報がタグ付けされており,若者言葉によって先導される言語変化の調査や語用論的な研究において実績がある.
 コーパス自体は有料だが,上記のHPから手に入る COLT による最頻1000語のリスト が目を引いた.COLT に現れる表記語 ( graphic word ) の最頻リストで,lemmatise されていない.要するに,dodidlaughlaughing などは別々にカウントされている.
 今回,このコーパスに目を付けたのは,先日[2010-04-10-1], [2010-04-11-1]でパイロット・スタディとしておこなった「BNC Word Frequency List による音節数の分布調査」の COLT 版を試してみようと思ったからである.BNC による音節数分布調査では,書き言葉と話し言葉の両方を対象とし,lemmatise された基底形 ( base form ) での頻度表を用いたが,COLT を用いれば,大きく異なった条件のもとで類似した調査をおこなうことができる( COLT が BNC の一部になっていることを考慮しても).具体的には,話し言葉に限定された,表記語に基づく頻度表をベースとして音節数の分布を調べられる.
 注意を要するのは,COLT の頻度表には unclear, nv, singing など,地の文の語ではなくタグ名として使われている語もうっかり数えられてしまっていることだ.したがって,この種の語は手作業で除去し,最終的に有効最頻語976語のリストが得られた.これをもとにして,音節数の分布をいざ探ってみることにする.結果は,明日.

Referrer (Inside): [2010-04-17-1]

[ | 固定リンク | 印刷用ページ ]

2010-04-11 Sun

#349. BNC Word Frequency List による音節数の分布調査 (2) [syllable][lexicology][bnc][statistics]

 今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)

Rate of n-Syllables at Words Levels by BNC Word Frequency List

 昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.

 ・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
 ・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
 ・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
 ・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える

[ | 固定リンク | 印刷用ページ ]

2010-04-10 Sat

#348. BNC Word Frequency List による音節数の分布調査 [syllable][lexicology][bnc][statistics]

 昨日の記事[2010-04-09-1]に続く話題.BNC Word Frequency List の6318語の見出し語化された ( lemmatised ) 最頻語リストを材料として,音節数の分布がどのようになっているかを調査してみた.
 まずはリストを頻度順に眺めてみるだけで,ある程度の検討はついた.[2010-03-02-1]の記事「現代英語の基本語彙100語の起源と割合」からも明らかなとおり,最頻基本語にはゲルマン系の本来語が多い.このことは,単音節語が多いということにもつながる.しかし,リストを下って頻度のより低い語に目をやると,徐々に2音節語,3音節語が目につくようになってくる.したがって,頻度で上位どのくらいまでを対象にするかによって,音節数の相対的な分布は変わってくることが予想される.そこで,まず6318語すべての音節数を出した上で,最頻100語,200語,500語,1000語,2000語,3000語,4000語,5000語,6000語というレベルで音節数の分布を調査した.レベル間の比較が可能となるようにグラフ化したのが下図である.(数値データはこのページのHTMLソースを参照.)

How Many Syllables in Words by BNC Word Frequency List

 このグラフからいくつかの興味深い事実を読み取ることができる.

 ・ どのレベルでも単音節語が最も多い
 ・ 対象語彙が大きくなればなるほど,2音節語数が単音節語数に肉薄する
 ・ 英語語彙の圧倒的多数が単音節語か2音節語である
 ・ 対象語彙が大きくなればなるほど,平均音節数が漸増する
 ・ いずれにせよ英単語の平均音節数はせいぜい2音節ほどである

 今回は最頻約6000語レベルの語彙で調査したが,対象語彙をどんどん大きくしてゆくとどのような結果が出るのか,おおいに気になった.やがては2音節語が単音節語を追い抜き,平均音節数も漸増を続けるのだろうか? あるいは平均音節数がこれ以上は変わらないという限界点が存在するのだろうか? non-lemmatised な語彙リストを材料にすると平均音節数はどのくらい変化するのだろうか? 次々に疑問が生じた.
 ちなみに,最頻5000語レベルで初めて現れる7音節語が一つある.英語の平均音節数からすると異常に長い超多音節語だが,比較的よくお目にかかる単語ということになる.何であるか,想像できるだろうか? 答えは,4657番目に現れる telecommunication (←クリック)である.なるほど〜.

[ | 固定リンク | 印刷用ページ ]

2010-04-09 Fri

#347. 英単語の平均音節数はどのくらいか? [syllable][lexicology][compound][statistics]

 ここ数ヶ月のあいだに取り組んでいる研究課題と関連して,標題の問いについて調査する必要が生じている.この問いの背後にある問題意識としては,単語の語源別の平均音節数を比較して,たとえば「ゲルマン系の単語はロマンス系の単語よりも○音節だけ短い」などという統計的な数値を得たいと思っているのだが,この問題は何段階かに分けてアプローチしてゆくのがよさそうである.標題の問いのままでは適切な問題設定とはいえないいくつかの理由がある.
 一つは,言語学で最も悪名高い問題の一つである「単語とは何か」という問いに関係する.わかりやすい例として,合成語 ( compound ) を考えるとよい.school boy は1語なのだろうか,2語なのだろうか? さらに,固有名詞の New York City はどうだろうか? いずれも綴字上の慣習により複数の語とみなすこともできるが,一方で意味のまとまりとしては一つであるから1語だという理屈も成り立ちうる.kick the bucket のようなイディオムはどうだろうか? [2010-02-07-1], [2010-02-08-1]で触れた crane のような多義語 ( polysemy ) は,語義ごとに別の語と考えることもできるのではないか? 英単語の平均音節を考えるにあたっても,こうした基本的な問題は避けて通れない.
 二つ目の理由は,英語語彙というときの範囲の問題である.OED には50万語ほどがエントリーされているが,辞書の保守性を考慮すると,実際にはその倍の語彙があるのではないかともいわれている.平均値を出すからには,理想的にはありったけの単語を考慮に入れることが必要である.となると,[2009-06-30-1]の記事でみた pneumonoultramicroscopicsilicovolcanoconiosis のような極端な語(19音節)も含めることになる.だが,そもそも現代英語語彙の総覧が存在しない以上,どこまで含めてどこから含めないかの判断は恣意的にならざるをえない.実際的な研究に際しては,どこかで強引に切る必要がある.
 三つ目は,同一の語でも,変種によって1音節程度の増減が起こりうるという問題である.[2010-03-08-1]で触れたように,secretary は典型的な英米発音のあいだで音節数の揺れがある.もっとも,この問題は対象とする変種を定めてしまえば,上記の二つの問題ほど大きな問題にはならないかもしれない.
 一つ目,二つ目の問題については当面の根本的な解決策はないが,そんなに難しいことを言っていては仕方がないというのも確かである.具体的に調査を進めてみようと思うと,[2010-03-01-1]で紹介した最頻英単語リスト辺りからスタートするのがよさそうである.ひとまずは,BNC Word Frequency List の6318語のリストから始めてみようと思う.

 ・ 齊藤 俊雄,中村 純作,赤野 一郎 編 『英語コーパス言語学−基礎と実践−』 研究社,1998年.110--13頁.

Referrer (Inside): [2012-06-30-1] [2010-04-10-1]

[ | 固定リンク | 印刷用ページ ]

2010-03-28 Sun

#335. 日本語語彙の三層構造 [lexicology][japanese][kanji][loan_word][lexical_stratification]

 昨日の記事[2010-03-27-1]で,類義語の豊富さに関しては英語は他言語と比べても異例だと述べた.しかし,もっと異例なことに,英語と日本語はこの点でよく似ているのである.英語では,アングロサクソン語(本来語),フランス語,ラテン・ギリシャ語の三層構造をなしているが,日本語では,和語(本来語),漢語,西洋語の三層構造をなしている.日本語の例(思いつき)を見てみよう.

和語漢語西洋語
おおうなばら(大海原)大洋オーシャン
おかね(お金)金銭マネー
およぎ(泳ぎ)水泳スイミング
おんなのこ(女の子)女子ギャル
かみのけ(髪の毛)毛髪ヘアー
かわや(厠)便所トイレ
くすりや(薬屋)薬局ドラッグストア
くるま(車)乗用車カー
さくらんぼ桜桃チェリー
たたかい(戦い)戦闘バトル
たまご(卵)鶏卵エッグ
ひとつ(一つ)ワン
ひるめし(昼飯)昼食ランチ
やど(宿)旅館ホテル


 英語の下層を構成する本来語と同様,和語はもっとも庶民的である.暖かく懐かしい響きがあり,感情に直接うったえかける力がある.「一,二,三」と数えるよりも,「ひとつ,ふたつ,みっつ」のほうが暖かく優しい.この階層の語彙は日常会話に頻出するが,学術論文にはあまり現れない類の語彙である.
 学術論文などに代表される文語を主なフィールドとするのが,中層の漢語である.いや,学術論文ほどお堅くなくても日本語のあらゆる文章において漢語がなければ大変に不便である.本記事のここまでの文章だけでも,表中の語を除き,34種類の漢語がのべ50回も使用されている.漢語は日常会話でも頻度は低くない.この点,英語の中層を担うフランス語起源の語彙と機能がよく似ている.
 上層を構成する西洋語は,主に英語由来のものが多い.英語の上層を担当するラテン・ギリシャ語由来の語彙の register のレベルが文字通りに上層であるのに対して,日本語の上層の西洋語は必ずしもお高い響きはない.むしろ,横文字は軽い響きがあると言われることすらある.この点で,上層に関しては英語と日本語の役割は異なっているようである.ただし,成長著しい科学や情報の分野では,英語の専門用語に対する日本語の訳語を作るのが追いつかず,そのまま英語を採用することも広く行われている.この場合,西洋語は専門性の響きを帯びるため,上層と呼ぶにふさわしいとも言える.
 日本語では,各階層に対応する文字種がおよそ決まっているのが特徴である.和語はひらがな,あるいは漢字かな交じりで,漢語は漢字で,西洋語はカタカナ(あるいは最近はアルファベットそのままのケースもある)でというように,視覚的にも明確に区別される.
 英語と日本語で各階層の機能に若干の差があることは認めるにせよ,ともにこれだけ明確な語彙の三層構造をもっているということは,稀なる偶然である.いや,もしかすると偶然以上のものがあるのかもしれない.歴史的に大陸からの影響を多く受けてきたのは,島国であるからこその特徴といえるかもしれない.

[ | 固定リンク | 印刷用ページ ]

2010-03-27 Sat

#334. 英語語彙の三層構造 [lexicology][french][latin][register][thesaurus][loan_word][lexical_stratification]

 類似概念を表すのに二つ以上の語が存在するという状況はどの言語でも珍しくない.確かに,完全な「同義語」というものが存在することは珍しいが,少し条件をゆるめて「類義語」ということであれば,多くの言語に存在する.とはいうものの,英語の類義語の豊富さは,多くの言語と比べても驚くべきほどである.このことは類義語辞典 ( thesaurus ) を開いてみれば,一目瞭然である.
 英語史の観点から類義語の豊富さを説明すれば,それは英語が多くの言語と接触してきた事実に帰せられる.異なった言語から対応する語を少しずつ異なったニュアンスで取り入れ,語彙のなかに蓄積していったために,結果として英語は類義語の宝庫 ( thesaurus ) となったのである.
 類義語を語源別にふるい分けてみると,そこに「層」があることがわかる.例えば,典型的な類義語のパターンとして「三層構造」とでも呼ぶべきものがある.下層が本来語,中層がフランス語,上層がラテン・ギリシャ語というパターンである.

nativeFrenchLatin/Greek
askquestioninterrogate
bookvolumetext
fairbeautifulattractive
fastfirmsecure
foeenemyadversary
helpaidassistance
kinglyroyalregal
risemountascend


 下層は文字通り「レベルが低い」が,同時に「暖かみと懐かしさ」がある.本来のゲルマン系の語彙であるから,故郷の懐かしさのようなものが感じられるのは不思議ではない.
 中層は多少なりとも権威と教養を感じさせるが,庶民が届かないほどレベルが高いものではない.歴史的には中世イングランドの公用語がフランス語だったことに対応するが,中英語期に借用されたフランス語彙のなかには特別な権威を感じさせず,十分に庶民化したといってよい語も多い ( ex. face, finish, marriage, people, story, use ) .
 上層には,学問と宗教の言語,すなわち権威を体現したような言語たるラテン語(あるいはギリシャ語)が控えている.語の響きとしては厳格で近寄りがたく,音節数も多いのが普通である.
 このように,語彙の三層構造が歴史的に育まれてきた英語では,階層間の使い分けが問題になる.特に微妙な意味の差や適切な 使用域 ( register ) の見極めが肝心である.例えば日常会話では下層や中層の語彙がふさわしいが,学術論文では中層や上層の語彙を使いこなす必要がある.気軽に尋ねるのに "May I interrogate you?" は妙だろう.
 このような語彙の階層については,具体例を一覧表で列挙している橋本先生の英語史の第5章が参照に便利である.

 ・ 橋本 功 『英語史入門』 慶應義塾大学出版会,2005年.

[ | 固定リンク | 印刷用ページ ]

2010-03-25 Thu

#332. 「動物とその肉を表す英単語」の神話 [french][lexicology][loan_word][language_myth][lexical_stratification]

 昨日の記事[2010-03-24-1]に関連する話題.英語史で必ずといってよいほど取りあげられる「動物は英語,肉はフランス語」という区分は,語り継がれてきた神話であるという主張がある.OED の編集主幹を務めた Burchfield によると,"[an] enduring myth about French loanwords of the medieval period" だという.少し長いが,引用する (18).

The culinary revolution, and the importation of French vocabulary into English society, scarcely preceded the eighteenth century, and consolidated itself in the nineteenth. The words veal, beef, venison, pork, and mutton, all of French origin, entered the English language in the early Middle Ages, and would all have been known to Chaucer. But they meant not only the flesh of a calf, of an ox, of a deer, etc., but also the animals themselves. . . . The restriction of these French words to the sense 'flesh of an animal eaten as food' did not become general before the eighteenth century.


 試しに beefOEDMED で確認してみると,確かに動物そのものの語義も確認される.しかし,複数の例文を眺めてみると,動物本体と関連して肉が言及されているケースが多いようである.例えば,この語義での初例として両辞書ともに14世紀前半の次の例文を掲げている.

Hit mot boþe drink and ete .. Beues flesch and drinke þe broþt.


 それでも,Burchfield の主張するように「動物は英語,肉はフランス語」という区分が一般的になったのは18世紀になってからということを受け入れるとするならば,それはなぜだろうか.18世紀には料理関係の語がフランス語から大量に入ってきたという事実もあり,これが関係しているかもしれない.
 肉・動物の使い分けの始まりが中世であれ近代であれ,英語話者の意識下に「高きはフランス語,低きは英語」という印象が伝統的に定着してきたことは確かだろう.

 ・ Burchfield, Robert, ed. The New Fowler's Modern English Usage. 3rd ed. Oxford: Clarendon, 1996.

[ | 固定リンク | 印刷用ページ ]

2010-03-24 Wed

#331. 動物とその肉を表す英単語 [french][lexicology][loan_word][etymology][popular_passage][lexical_stratification]

 中英語期を中心とするフランス語彙の借用を論じるときに,この話題は外せない.食用の肉のために動物を飼い育てるのはイギリスの一般庶民であるため,動物を表す語はアングロサクソン系の語を用いる.一方で,料理された肉を目にするのは,通常,上流階級のフランス貴族であるため,肉を表す語はフランス系の語を用いる.これに関しては,Sir Walter Scott の小説 Ivanhoe (38) の次の一節が有名である.

. . . when the brute lives, and is in the charge of a Saxon slave, she goes by her Saxon name; but becomes a Norman, and is called pork, when she is carried to the Castle-hall to feast among the nobles . . . .


 具体的に例を示すと次のようになる.

Animal in EnglishMeat in EnglishFrench
calfvealveau
deervenisonvenaison
fowlpoultrypoulet
sheepmuttonmouton
swine ( pig )pork, baconporc, bacon
oxbeefboeuf


 「豚(肉)」について付け加えると,古英語では「豚」を表す語は swīn だった.pig は中英語で初めて現れた語源不詳の語である.また,後者が一般名称として広く使われるようになったのは19世紀以降である.bacon (豚肉の塩漬け燻製)は古仏語から来ているが,それ自身がゲルマン語からの借用であり,英語の back などと同根である.

 ・ Scott, Sir Walter. Ivanhoe. Copyright ed. Leipzig: Tauchnitz, 1845.

[ | 固定リンク | 印刷用ページ ]

2010-03-02 Tue

#309. 現代英語の基本語彙100語の起源と割合 [loan_word][lexicology][statistics][pde]

 昨日の記事[2010-03-01-1]で,現代英語の最頻英単語リストをいくつか紹介した.そのなかで,やや古いが広く参照されている GSL ( General Service List ) に基づき,最頻100語の語源別の内訳を調べてみた.

Etymological Sources of 100 Most Frequent Words in PDE

 英語の本来語 ( native words ) の一人勝ちであることは一目瞭然である.借用語 ( loan words ) はわずかである.最頻語彙の血は紛れもなく Anglo-Saxon である.
 古ノルド語由来の語は they, she, take, get, give の5語のみ.ただし,she の語源にはイングランド北部方言説など諸説がある.また,getgive については,語頭子音 /g/ こそ古ノルド語形に由来すると言ってよいが,対応する語は古英語にもあり,考え方によってはどちらの言語にも帰せられる.ここでは,いずれも古ノルド語由来として数えた.
 フランス語由来の語は,state, use, people の3語のみ.
 過去の記事でも類似する統計をいくつか載せているので,そちらも要参照.

 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: 現代英語の借用語の起源と割合

[ | 固定リンク | 印刷用ページ ]

2010-03-01 Mon

#308. 現代英語の最頻英単語リスト [lexicology][corpus][link][academic_word_list][alphabet]

 現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.

[主要な頻度表]

 ・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
 ・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
 ・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
 ・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
 ・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
 ・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.

[他のリストへのリンク集]

 ・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
 ・ Famous Frequency Lists: 様々な頻度表へのリンク集.
 ・ Basic English and Common Words: ML上の最頻語頻度表についての議論.

[アルファベットの文字の頻度表]

 ・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.

(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow