hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 次ページ / page 18 (19)

lexicology - hellog〜英語史ブログ

最終更新時間: 2024-07-22 19:32

2010-06-30 Wed

#429. 現代英語の最頻語彙10000語の起源と割合 [loan_word][lexicology][statistics][pde]

 現代英語の語彙の起源と割合については,[2010-05-16-1]でまとめたとおり,本ブログでも何度か扱ってきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 この種の英語語彙の語源調査については本格的なものは存在しないようだが,もう一つ関連する先行研究をみつけたので紹介したい.
 Williams (67--68) は,数千通の商用書簡から最頻1万語を取り出し,頻度の高い順に1000語単位で10のグループを設けた.各グループについて語源別に比率をまとめた表を Williams より再掲する(宇賀治,pp. 84--85 にも掲載あり).ついでに,見やすいように棒グラフも作った.

DecileEnglishFrenchLatinDanishOther
183%11%2%2%2%
234461127
3294614110
4274517110
527471718
6274219210
7234517213
8264118213
9254117215
10254218114
Etymological Breakdown of the Most Frequent 10000 Words by Williams


 2000語,3000語レベルから早くも各言語の比率が落ち着いてくるのは,[2010-04-11-1]でみた音節数の分布とある程度は相関していそうでおもしろい.
 "Other" グループは雑多あるいは語源不詳の語も含まれるが,そのなかで各1000語の語群のいずれかで1%を超えるものは Dutch 借用語のみだという.また,調査対象としたコーパスをひっくるめて token 頻度で調べると以下の通り.こうしてみると英語は英語なのだとわかる.

English78.1%
French15.2
Latin3.1
Danish2.4
Other (Greek, Dutch, Italian, Spanish, German, etc.)1.3


 ・ Williams, Joseph M. Origins of the English Language: A Social and Linguistic History. New York: The Free Press, 1975.
 ・ 宇賀治 正朋著 『英語史』 開拓社,2000年.

[ 固定リンク | 印刷用ページ ]

2010-05-24 Mon

#392. antidisestablishmentarianism にみる英語のロマンス語化 [word_formation][loan_word][french][latin][greek][neo-latin][lexicology][romancisation]

 昨日の記事[2010-05-23-1]で取りあげた antidisestablishmentarianism という語を英語史の視点からみると,英語のロマンス語化が,語や形態素という表面的なレベルだけではなく,語形成や形態論の規則という抽象的なレベルにまで染みこんでいるという点が意義深い.
 一般に英語がロマンス語化したというときには,中英語期のフランス単語の大量借用が出発点として念頭におかれるのではないか.確かに古英語期やそれ以前の大陸時代にも英語はラテン語と接してきたので,ロマンス語への慣れは多少はあったといえるが,本格的なロマンス語化の引き金を引いたのは中英語期のフランス語との接触に他ならない.フランス語が開始したこのロマンス語化の波に乗るかのように,次の初期近代英語期にラテン語単語が大量に英語に流れ込んだ.さらに,このフランス語とラテン語の流れには,実はギリシャ語要素も隠れて多く含まれており,近代英語期から現在までに多くのギリシャ語形態素が英語へ供給された.中英語以来の英語語彙のロマンス語化,より正確には Greco-Latin 化は,[2010-05-16-1]の記事でも述べた通り,The Great Vocabulary Shift とでも名付けたくなるくらいに英語の概観を一変させた.
 しかし,仏・羅・希は単に語や形態素を英語に供給しただけではない.英語は長期の接触と影響により,ラテン語やギリシャ語の語形成規則や形態論規則を半ばネイティブであるかのように獲得してしまったのである.現在,日々新しく作られている科学用語や専門用語に主として用いられている言語的リソースは Neo-Latin と呼ばれるが,これはラテン語やギリシャ語の形態素をラテン語やギリシャ語の形態規則にのっとって派生・合成させる仕組みといってよい.標題の antidisestablishmentarianism は Greco-Latin 要素とその組み合わせ規則にのっとった典型的な Neo-Latin の語であるが,フランス単語やラテン単語としてではなく,あくまで英単語として造語された点がポイントである.英語のロマンス語化は,語彙のみの表面的な現象だと見なされることがあるが,現代英語の生きた語形成にも非常に大きく貢献している点で,もっと積極的に評価してもいいのではないか.
 フランス語が窓口となり英語がロマンス語化してきた経緯と意義については,Gachelin の評が言い得て妙である.

French acted as the Trojan horse of Latinity in English, the sluice gate through which Latin was able to pour into English on a scale without any equivalent in any Germanic language. The process of 'classicization' which had originated in Greece was to spread from Latin to Romance languages, and via French to English. (9--10)



 ・ Gachelin, Jean-Marc. "Is English a Romance Language?" English Today 23 (July 1990): 8--14.

[ 固定リンク | 印刷用ページ ]

2010-05-23 Sun

#391. antidisestablishmentarianism 「反国教会廃止主義」 [word_formation][japanese][lexicology][romancisation]

 [2009-06-30-1]の記事で,英語で最も長い単語として45文字19音節からなる pneumonoultramicroscopicsilicovolcanoconiosis を紹介したが,これは一般の辞書には載っていない,意識的に合成された超専門語である.一般の辞書に載っていることが多い最長の単語と言われるのは antidisestablishmentarianism である.28文字12音節の堂々たる長語である.
 OED によると初出は1900年で,次のように定義が与えられている.

 Properly, opposition to the disestablishment of the Church of England (rare): but popularly cited as an example of a long word. So antidisestablishmentarian.


 イギリスで19世紀から20世紀初頭に起こった国教会の廃止 ( disestablishment ) の運動に反対した人々の主義を指す.England ではこの主義が成功して国教会は現在に至るまで守られているが,Wales, Scotland, またローマ・カトリック教徒の多い Ireland では廃止論が影響力を持ち,国教分離が進んだ.
 形態素としては anti-, dis-, establish, -ment, -arian, -ism と6部分に分割できる.一語のなかに形態素をこれほど長く数珠つなぎにできるのかと驚きあきれるかもしれないが,日本語の「反国教会廃止主義」だって負けていない.日本語母語話者はこの手の数珠つなぎには慣れっこのはずである.ただ,アルファベット28文字だと目がちかちかするのは確かである.
 おもしろいのは,両言語ともに,数珠つなぎの全要素が非本来語由来の形態素であることだ.英語の6形態素はすべて(究極的にはギリシャ語もあるが)ラテン語かフランス語に由来する形態素であり,日本語の8漢字はすべて漢語である.長く専門的な語は,いずれの言語でも大陸からの「レベルの高い」形態素から成り立っているのが普通である.[2010-03-27-1], [2010-03-28-1]の記事で両言語の語彙の三層構造をみたが,改めて日英の言語文化の比較は興味深い.

[ 固定リンク | 印刷用ページ ]

2010-05-19 Wed

#387. trisociationtriset [lexicology][latin][greek][lexical_stratification]

 [2010-03-27-1]の記事で英語語彙の三層構造を紹介した.その記事では,foe, enemy, adversary などの三語一組の例を挙げ,それぞれ (1) 英語本来語,(2) フランス借用語,(3) ラテン・ギリシャ借用語の層をなしていることを示した.英語語彙に見られるこの特異な三層構造を言い表す術語がないかなと思っていたが,McArthur が trisociation と呼んでいるのをみつけた.この三語一組のことは triset と呼んでいる.
 ただ,McArthur の trisociation は,(1) 英語本来語,(2) フランス語・ラテン語,(3) ギリシャ語というように層別しているようで,上述の foe の例の層別とは異なる.実際には四層あるものを三層に分けて考えているのだからこのようなヴァリエーションもありうるが,語という単位ではなく形態素という単位で考える場合には McArthur の層別のほうがうまくいく.McArthur が挙げている triset の例を再掲する(主に本来語が b-, n-, s- で始まる triset の例).

triset of morphemestriset of words
ant, formic-, myrmec-ant-eater, formicarium, myrmecology
bad, mal-, caco-badly, malign, cacophony
be, ess-, ont-being, essence, ontology
belly, ventr-, gastr-potbellied, ventral, gastritis
best, optim-, aristo-bestseller, optimal, aristocrat
big, magn-, mega(lo)-bigheaded, magnitude, megalomania
bird, avi-, ornith-bird-watcher, aviary, ornithology
birth, nasc-/nat-, gen-/gon-birthday, nascent/native, genesis/cosmogony
black, nigr-, melan-blacken, denigrate, melanin/melancholy
blood, sanguin-, (h)aem(at)-/(h)em(at)-bloody, sanguinary, an(a)emic
body, corp(or)-, som(at)-bodily, corporeal/incorporate, psychosomatic
bone, oss(e)-, osteo-rawboned, osseous, osteopath
book, libr-, biblio-bookish, library, bibliography
breast, mamm-, mast-doublebreasted, mammography, mastitis
earth, terr-, ge-earthquake, terrestrial, geography
fire, ign-, pyr-fire-fighter, igneous, pyromania
naked, nud(e)-, gymn-nakedness, nudity, gymnosophist
name, nomin-, onom-/onym-namely, nominate, onomastic/synonym
new, nov-, neo-newness, innovate, neologism
night, noct-, nyct-nightly, nocturnal, nyctalopia
nose, nas-, rhin-nosiness, nasal, rhinitis
salt, sal-, (h)al-salty, salinity, halophyte
say, dict-, phas-/phat-saying, dictum, emphasis
sea, mar-, thalass-seascape, marine, thalassocracy
see, vid-/vis-, scop-all-seeing, evident/vision, telescope
self, ips-, aut(o)-unselfish, solipsism, autistic
shape, form-, morph-shapely, formal, metamorphosis
sharp, ac(u)-, oxy-sharpen, acute, oxygen
skin, cut(i)-, derm(at)-skinny, subcutaneous, dermatitis
sound, son-, phon-soundless, sonic, telephone
speak, loqu-/loc(ut)-, log-unspeakable, eloquent, dialog(ue)
stand, sta(t)-, stas-/stat-outstanding, stable, stasis/statis
star, stell-, aster-starry, stellar, asteroid
stone, lapid-, lith-stony, lapidary, megalithic
sun, sol, heli(o)-sunny, solar, heliograph


 ラテン語 /s/ とギリシャ語 /h/ の対応については,[2010-04-14-1]で扱ったのでそちらを参照.

 ・ McArthur, Tom. "English in Tiers." English Today 23 (July 1990): 15--20.

[ 固定リンク | 印刷用ページ ]

2010-05-16 Sun

#384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する [oe][pde][loan_word][lexicology][statistics]

 これまでも現代英語の語彙数と起源別割合については,グラフとともにいろいろなソースから具体的な数値を挙げてきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 それとは別に,語彙や起源別割合の通時的な増減やその他を扱った話題としては,以下のような記事を書いてきた.

 ・ [2009-08-22-1]: フランス借用語の年代別分布
 ・ [2009-08-19-1]: 初期近代英語の借用語の起源と割合
 ・ [2009-06-12-1]: 英語語彙にまつわる数値

 語彙の数値というのは,参照する辞書などのソースを何にするのか,単語の頻度を考慮に入れるのか,などによって調査結果が大きく変わる可能性があり,なかなか難しい.起源言語別で数えるにしても,語源そのものが不詳だったり,フランス語なのかラテン語なのかなどで判断のつかないケースがあったりと,やはり難しい.ただ,予想される通り OEDSOED の情報に基づいた数値が多いようではある.
 今回は,使用されている語彙リストのソース自体は不明なのだが,広く参照される可能性のある Encyclopedia of Linguistics に掲載されている数値を調べてみた.それぞれ "Old English" と "English" の項から関連箇所を引用する.

The recorded vocabulary of OE is estimated at approximately 30,000 words. Only about 3% of these were of non-Germanic origin. (779)


As a result of borrowing, the Gmc word stock is now a low 30% and the Romance one is 50%. (292)


 後者では現代英語の総語彙を対象語彙としているようではあるが,その語数は記されていない.もし OED2 に準拠しているのであれば,定義・例説の与えられている語の数として 615,100 辺りを念頭においているのかもしれない ( see Dictionary facts ) .あるいは,定義されている語源の数である 219,800 辺りを念頭においているのだろうか.不明の点が多いが,現代英語の語彙数として仮に 615,100 という数を採用するとして,古英語と現代英語の語彙とそのなかのゲルマン語彙比率について比べる表を掲げよう.ゲルマン語彙とは,Anglo-Saxon 起源の本来語と(特に現代英語において)Old Norse 起源の借用語を合わせたものが中心になると考えてよいだろう.

 Old EnglishPresent-Day English
vocabulary30,000615,100?
native words (%)9730


 語彙数がざっと20倍,ゲルマン語彙比率が1/3以下になったのだから,語彙体系の激変が起こったといってよい.大語彙推移 ( The Great Vocabulary Shift ) とでも呼びたくなる大変化だ.

 ・ Minkova, Donka. "Old English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 777--80.
 ・ Leitner, Gerhard. "English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 288--94.

[ 固定リンク | 印刷用ページ ]

2010-04-17 Sat

#355. COLT Word Frequency List による音節数の分布調査 [colt][syllable][lexicology][statistics]

 昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
 BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.

How Many Syllables in Words by COLT Word Frequency List


Rate of n-Syllables at Words Levels by COLT Word Frequency List

Referrer (Inside): [2012-06-30-1] [2011-02-22-1]

[ 固定リンク | 印刷用ページ ]

2010-04-16 Fri

#354. COLT:ロンドンの十代の若者話し言葉コーパス [corpus][colt][lexicology][syllable]

 少し変わり種のコーパスとして,COLT: The Bergen Corpus Of London Teenage Language を紹介する.1993年におけるロンドンの若者(13歳から17歳)の話し言葉を収集したコーパスで,約50万語からなる.31人のロンドン各地・各階層の男子女子の会話を,合計50時間だけ録音し,文字に起こしたものである.BNC ( The British National Corpus ) にも組み込まれているコーパスだ.語類情報や休止などの韻律情報がタグ付けされており,若者言葉によって先導される言語変化の調査や語用論的な研究において実績がある.
 コーパス自体は有料だが,上記のHPから手に入る COLT による最頻1000語のリスト が目を引いた.COLT に現れる表記語 ( graphic word ) の最頻リストで,lemmatise されていない.要するに,dodidlaughlaughing などは別々にカウントされている.
 今回,このコーパスに目を付けたのは,先日[2010-04-10-1], [2010-04-11-1]でパイロット・スタディとしておこなった「BNC Word Frequency List による音節数の分布調査」の COLT 版を試してみようと思ったからである.BNC による音節数分布調査では,書き言葉と話し言葉の両方を対象とし,lemmatise された基底形 ( base form ) での頻度表を用いたが,COLT を用いれば,大きく異なった条件のもとで類似した調査をおこなうことができる( COLT が BNC の一部になっていることを考慮しても).具体的には,話し言葉に限定された,表記語に基づく頻度表をベースとして音節数の分布を調べられる.
 注意を要するのは,COLT の頻度表には unclear, nv, singing など,地の文の語ではなくタグ名として使われている語もうっかり数えられてしまっていることだ.したがって,この種の語は手作業で除去し,最終的に有効最頻語976語のリストが得られた.これをもとにして,音節数の分布をいざ探ってみることにする.結果は,明日.

Referrer (Inside): [2010-04-17-1]

[ 固定リンク | 印刷用ページ ]

2010-04-11 Sun

#349. BNC Word Frequency List による音節数の分布調査 (2) [syllable][lexicology][bnc][statistics]

 今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)

Rate of n-Syllables at Words Levels by BNC Word Frequency List

 昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.

 ・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
 ・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
 ・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
 ・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える

[ 固定リンク | 印刷用ページ ]

2010-04-10 Sat

#348. BNC Word Frequency List による音節数の分布調査 [syllable][lexicology][bnc][statistics]

 昨日の記事[2010-04-09-1]に続く話題.BNC Word Frequency List の6318語の見出し語化された ( lemmatised ) 最頻語リストを材料として,音節数の分布がどのようになっているかを調査してみた.
 まずはリストを頻度順に眺めてみるだけで,ある程度の検討はついた.[2010-03-02-1]の記事「現代英語の基本語彙100語の起源と割合」からも明らかなとおり,最頻基本語にはゲルマン系の本来語が多い.このことは,単音節語が多いということにもつながる.しかし,リストを下って頻度のより低い語に目をやると,徐々に2音節語,3音節語が目につくようになってくる.したがって,頻度で上位どのくらいまでを対象にするかによって,音節数の相対的な分布は変わってくることが予想される.そこで,まず6318語すべての音節数を出した上で,最頻100語,200語,500語,1000語,2000語,3000語,4000語,5000語,6000語というレベルで音節数の分布を調査した.レベル間の比較が可能となるようにグラフ化したのが下図である.(数値データはこのページのHTMLソースを参照.)

How Many Syllables in Words by BNC Word Frequency List

 このグラフからいくつかの興味深い事実を読み取ることができる.

 ・ どのレベルでも単音節語が最も多い
 ・ 対象語彙が大きくなればなるほど,2音節語数が単音節語数に肉薄する
 ・ 英語語彙の圧倒的多数が単音節語か2音節語である
 ・ 対象語彙が大きくなればなるほど,平均音節数が漸増する
 ・ いずれにせよ英単語の平均音節数はせいぜい2音節ほどである

 今回は最頻約6000語レベルの語彙で調査したが,対象語彙をどんどん大きくしてゆくとどのような結果が出るのか,おおいに気になった.やがては2音節語が単音節語を追い抜き,平均音節数も漸増を続けるのだろうか? あるいは平均音節数がこれ以上は変わらないという限界点が存在するのだろうか? non-lemmatised な語彙リストを材料にすると平均音節数はどのくらい変化するのだろうか? 次々に疑問が生じた.
 ちなみに,最頻5000語レベルで初めて現れる7音節語が一つある.英語の平均音節数からすると異常に長い超多音節語だが,比較的よくお目にかかる単語ということになる.何であるか,想像できるだろうか? 答えは,4657番目に現れる telecommunication (←クリック)である.なるほど?.

[ 固定リンク | 印刷用ページ ]

2010-04-09 Fri

#347. 英単語の平均音節数はどのくらいか? [syllable][lexicology][compound][statistics]

 ここ数ヶ月のあいだに取り組んでいる研究課題と関連して,標題の問いについて調査する必要が生じている.この問いの背後にある問題意識としては,単語の語源別の平均音節数を比較して,たとえば「ゲルマン系の単語はロマンス系の単語よりも○音節だけ短い」などという統計的な数値を得たいと思っているのだが,この問題は何段階かに分けてアプローチしてゆくのがよさそうである.標題の問いのままでは適切な問題設定とはいえないいくつかの理由がある.
 一つは,言語学で最も悪名高い問題の一つである「単語とは何か」という問いに関係する.わかりやすい例として,合成語 ( compound ) を考えるとよい.school boy は1語なのだろうか,2語なのだろうか? さらに,固有名詞の New York City はどうだろうか? いずれも綴字上の慣習により複数の語とみなすこともできるが,一方で意味のまとまりとしては一つであるから1語だという理屈も成り立ちうる.kick the bucket のようなイディオムはどうだろうか? [2010-02-07-1], [2010-02-08-1]で触れた crane のような多義語 ( polysemy ) は,語義ごとに別の語と考えることもできるのではないか? 英単語の平均音節を考えるにあたっても,こうした基本的な問題は避けて通れない.
 二つ目の理由は,英語語彙というときの範囲の問題である.OED には50万語ほどがエントリーされているが,辞書の保守性を考慮すると,実際にはその倍の語彙があるのではないかともいわれている.平均値を出すからには,理想的にはありったけの単語を考慮に入れることが必要である.となると,[2009-06-30-1]の記事でみた pneumonoultramicroscopicsilicovolcanoconiosis のような極端な語(19音節)も含めることになる.だが,そもそも現代英語語彙の総覧が存在しない以上,どこまで含めてどこから含めないかの判断は恣意的にならざるをえない.実際的な研究に際しては,どこかで強引に切る必要がある.
 三つ目は,同一の語でも,変種によって1音節程度の増減が起こりうるという問題である.[2010-03-08-1]で触れたように,secretary は典型的な英米発音のあいだで音節数の揺れがある.もっとも,この問題は対象とする変種を定めてしまえば,上記の二つの問題ほど大きな問題にはならないかもしれない.
 一つ目,二つ目の問題については当面の根本的な解決策はないが,そんなに難しいことを言っていては仕方がないというのも確かである.具体的に調査を進めてみようと思うと,[2010-03-01-1]で紹介した最頻英単語リスト辺りからスタートするのがよさそうである.ひとまずは,BNC Word Frequency List の6318語のリストから始めてみようと思う.

 ・ 齊藤 俊雄,中村 純作,赤野 一郎 編 『英語コーパス言語学?基礎と実践?』 研究社,1998年.110--13頁.

Referrer (Inside): [2012-06-30-1] [2010-04-10-1]

[ 固定リンク | 印刷用ページ ]

2010-03-28 Sun

#335. 日本語語彙の三層構造 [lexicology][japanese][kanji][loan_word][lexical_stratification]

 昨日の記事[2010-03-27-1]で,類義語の豊富さに関しては英語は他言語と比べても異例だと述べた.しかし,もっと異例なことに,英語と日本語はこの点でよく似ているのである.英語では,アングロサクソン語(本来語),フランス語,ラテン・ギリシャ語の三層構造をなしているが,日本語では,和語(本来語),漢語,西洋語の三層構造をなしている.日本語の例(思いつき)を見てみよう.

和語漢語西洋語
おおうなばら(大海原)大洋オーシャン
おかね(お金)金銭マネー
およぎ(泳ぎ)水泳スイミング
おんなのこ(女の子)女子ギャル
かみのけ(髪の毛)毛髪ヘアー
かわや(厠)便所トイレ
くすりや(薬屋)薬局ドラッグストア
くるま(車)乗用車カー
さくらんぼ桜桃チェリー
たたかい(戦い)戦闘バトル
たまご(卵)鶏卵エッグ
ひとつ(一つ)ワン
ひるめし(昼飯)昼食ランチ
やど(宿)旅館ホテル


 英語の下層を構成する本来語と同様,和語はもっとも庶民的である.暖かく懐かしい響きがあり,感情に直接うったえかける力がある.「一,二,三」と数えるよりも,「ひとつ,ふたつ,みっつ」のほうが暖かく優しい.この階層の語彙は日常会話に頻出するが,学術論文にはあまり現れない類の語彙である.
 学術論文などに代表される文語を主なフィールドとするのが,中層の漢語である.いや,学術論文ほどお堅くなくても日本語のあらゆる文章において漢語がなければ大変に不便である.本記事のここまでの文章だけでも,表中の語を除き,34種類の漢語がのべ50回も使用されている.漢語は日常会話でも頻度は低くない.この点,英語の中層を担うフランス語起源の語彙と機能がよく似ている.
 上層を構成する西洋語は,主に英語由来のものが多い.英語の上層を担当するラテン・ギリシャ語由来の語彙の register のレベルが文字通りに上層であるのに対して,日本語の上層の西洋語は必ずしもお高い響きはない.むしろ,横文字は軽い響きがあると言われることすらある.この点で,上層に関しては英語と日本語の役割は異なっているようである.ただし,成長著しい科学や情報の分野では,英語の専門用語に対する日本語の訳語を作るのが追いつかず,そのまま英語を採用することも広く行われている.この場合,西洋語は専門性の響きを帯びるため,上層と呼ぶにふさわしいとも言える.
 日本語では,各階層に対応する文字種がおよそ決まっているのが特徴である.和語はひらがな,あるいは漢字かな交じりで,漢語は漢字で,西洋語はカタカナ(あるいは最近はアルファベットそのままのケースもある)でというように,視覚的にも明確に区別される.
 英語と日本語で各階層の機能に若干の差があることは認めるにせよ,ともにこれだけ明確な語彙の三層構造をもっているということは,稀なる偶然である.いや,もしかすると偶然以上のものがあるのかもしれない.歴史的に大陸からの影響を多く受けてきたのは,島国であるからこその特徴といえるかもしれない.

[ 固定リンク | 印刷用ページ ]

2010-03-27 Sat

#334. 英語語彙の三層構造 [lexicology][french][latin][register][thesaurus][loan_word][lexical_stratification]

 類似概念を表すのに二つ以上の語が存在するという状況はどの言語でも珍しくない.確かに,完全な「同義語」というものが存在することは珍しいが,少し条件をゆるめて「類義語」ということであれば,多くの言語に存在する.とはいうものの,英語の類義語の豊富さは,多くの言語と比べても驚くべきほどである.このことは類義語辞典 ( thesaurus ) を開いてみれば,一目瞭然である.
 英語史の観点から類義語の豊富さを説明すれば,それは英語が多くの言語と接触してきた事実に帰せられる.異なった言語から対応する語を少しずつ異なったニュアンスで取り入れ,語彙のなかに蓄積していったために,結果として英語は類義語の宝庫 ( thesaurus ) となったのである.
 類義語を語源別にふるい分けてみると,そこに「層」があることがわかる.例えば,典型的な類義語のパターンとして「三層構造」とでも呼ぶべきものがある.下層が本来語,中層がフランス語,上層がラテン・ギリシャ語というパターンである.

nativeFrenchLatin/Greek
askquestioninterrogate
bookvolumetext
fairbeautifulattractive
fastfirmsecure
foeenemyadversary
helpaidassistance
kinglyroyalregal
risemountascend


 下層は文字通り「レベルが低い」が,同時に「暖かみと懐かしさ」がある.本来のゲルマン系の語彙であるから,故郷の懐かしさのようなものが感じられるのは不思議ではない.
 中層は多少なりとも権威と教養を感じさせるが,庶民が届かないほどレベルが高いものではない.歴史的には中世イングランドの公用語がフランス語だったことに対応するが,中英語期に借用されたフランス語彙のなかには特別な権威を感じさせず,十分に庶民化したといってよい語も多い ( ex. face, finish, marriage, people, story, use ) .
 上層には,学問と宗教の言語,すなわち権威を体現したような言語たるラテン語(あるいはギリシャ語)が控えている.語の響きとしては厳格で近寄りがたく,音節数も多いのが普通である.
 このように,語彙の三層構造が歴史的に育まれてきた英語では,階層間の使い分けが問題になる.特に微妙な意味の差や適切な 使用域 ( register ) の見極めが肝心である.例えば日常会話では下層や中層の語彙がふさわしいが,学術論文では中層や上層の語彙を使いこなす必要がある.気軽に尋ねるのに "May I interrogate you?" は妙だろう.
 このような語彙の階層については,具体例を一覧表で列挙している橋本先生の英語史の第5章が参照に便利である.

 ・ 橋本 功 『英語史入門』 慶應義塾大学出版会,2005年.

[ 固定リンク | 印刷用ページ ]

2010-03-25 Thu

#332. 「動物とその肉を表す英単語」の神話 [french][lexicology][loan_word][language_myth][lexical_stratification]

 昨日の記事[2010-03-24-1]に関連する話題.英語史で必ずといってよいほど取りあげられる「動物は英語,肉はフランス語」という区分は,語り継がれてきた神話であるという主張がある.OED の編集主幹を務めた Burchfield によると,"[an] enduring myth about French loanwords of the medieval period" だという.少し長いが,引用する (18).

The culinary revolution, and the importation of French vocabulary into English society, scarcely preceded the eighteenth century, and consolidated itself in the nineteenth. The words veal, beef, venison, pork, and mutton, all of French origin, entered the English language in the early Middle Ages, and would all have been known to Chaucer. But they meant not only the flesh of a calf, of an ox, of a deer, etc., but also the animals themselves. . . . The restriction of these French words to the sense 'flesh of an animal eaten as food' did not become general before the eighteenth century.


 試しに beefOEDMED で確認してみると,確かに動物そのものの語義も確認される.しかし,複数の例文を眺めてみると,動物本体と関連して肉が言及されているケースが多いようである.例えば,この語義での初例として両辞書ともに14世紀前半の次の例文を掲げている.

Hit mot boþe drink and ete .. Beues flesch and drinke þe broþt.


 それでも,Burchfield の主張するように「動物は英語,肉はフランス語」という区分が一般的になったのは18世紀になってからということを受け入れるとするならば,それはなぜだろうか.18世紀には料理関係の語がフランス語から大量に入ってきたという事実もあり,これが関係しているかもしれない.
 肉・動物の使い分けの始まりが中世であれ近代であれ,英語話者の意識下に「高きはフランス語,低きは英語」という印象が伝統的に定着してきたことは確かだろう.

 ・ Burchfield, Robert, ed. The New Fowler's Modern English Usage. 3rd ed. Oxford: Clarendon, 1996.

[ 固定リンク | 印刷用ページ ]

2010-03-24 Wed

#331. 動物とその肉を表す英単語 [french][lexicology][loan_word][etymology][popular_passage][lexical_stratification]

 中英語期を中心とするフランス語彙の借用を論じるときに,この話題は外せない.食用の肉のために動物を飼い育てるのはイギリスの一般庶民であるため,動物を表す語はアングロサクソン系の語を用いる.一方で,料理された肉を目にするのは,通常,上流階級のフランス貴族であるため,肉を表す語はフランス系の語を用いる.これに関しては,Sir Walter Scott の小説 Ivanhoe (38) の次の一節が有名である.

. . . when the brute lives, and is in the charge of a Saxon slave, she goes by her Saxon name; but becomes a Norman, and is called pork, when she is carried to the Castle-hall to feast among the nobles . . . .


 具体的に例を示すと次のようになる.

Animal in EnglishMeat in EnglishFrench
calfvealveau
deervenisonvenaison
fowlpoultrypoulet
sheepmuttonmouton
swine ( pig )pork, baconporc, bacon
ox, cowbeefboeuf


 「豚(肉)」について付け加えると,古英語では「豚」を表す語は swīn だった.pig は中英語で初めて現れた語源不詳の語である.また,後者が一般名称として広く使われるようになったのは19世紀以降である.bacon (豚肉の塩漬け燻製)は古仏語から来ているが,それ自身がゲルマン語からの借用であり,英語の back などと同根である.

 ・ Scott, Sir Walter. Ivanhoe. Copyright ed. Leipzig: Tauchnitz, 1845.

[ 固定リンク | 印刷用ページ ]

2010-03-02 Tue

#309. 現代英語の基本語彙100語の起源と割合 [loan_word][lexicology][statistics][pde]

 昨日の記事[2010-03-01-1]で,現代英語の最頻英単語リストをいくつか紹介した.そのなかで,やや古いが広く参照されている GSL ( General Service List ) に基づき,最頻100語の語源別の内訳を調べてみた.

Etymological Sources of 100 Most Frequent Words in PDE

 英語の本来語 ( native words ) の一人勝ちであることは一目瞭然である.借用語 ( loan words ) はわずかである.最頻語彙の血は紛れもなく Anglo-Saxon である.
 古ノルド語由来の語は they, she, take, get, give の5語のみ.ただし,she の語源にはイングランド北部方言説など諸説がある.また,getgive については,語頭子音 /g/ こそ古ノルド語形に由来すると言ってよいが,対応する語は古英語にもあり,考え方によってはどちらの言語にも帰せられる.ここでは,いずれも古ノルド語由来として数えた.
 フランス語由来の語は,state, use, people の3語のみ.
 過去の記事でも類似する統計をいくつか載せているので,そちらも要参照.

 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: 現代英語の借用語の起源と割合

[ 固定リンク | 印刷用ページ ]

2010-03-01 Mon

#308. 現代英語の最頻英単語リスト [lexicology][corpus][link][academic_word_list][alphabet][frequency][statistics]

 現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.

[主要な頻度表]

 ・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
 ・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
 ・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
 ・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
 ・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
 ・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.

[他のリストへのリンク集]

 ・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
 ・ Famous Frequency Lists: 様々な頻度表へのリンク集.
 ・ Basic English and Common Words: ML上の最頻語頻度表についての議論.

[アルファベットの文字の頻度表]

 ・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.

(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)

[ 固定リンク | 印刷用ページ ]

2010-01-23 Sat

#271. 語彙研究ツールとしての辞書とコーパス [dictionary][corpus][methodology][lexicology]

 現代英語の語彙研究あるいは英語語彙の歴史的研究をおこなうときに,情報源は二つある.一つは辞書であり,もう一つは(電子)コーパスである.(膨大な量のテキストに体当たりという力業もあるが,ここではその可能性は考えないことにする.)歴史的な観点から英語の語彙論や形態論に関心のある私は,とりわけ OED 等の辞書(電子版)にお世話になることが多いが,The Helsinki Corpus of English Texts (Diachronic Part) を始めとする電子コーパスをもっと活用すべきだと自認している.
 辞書は語と語にまつわる諸情報を集めることに特化した出版物なので,電子版を用いれば「かくかくしかじかの条件に当てはまる語彙を一覧にせよ」という類の命令にはめっぽう強い.一方で,電子コーパスは通常,語彙研究に特化しているわけではなく広く言語研究全般に供する情報源として出版されている.だが,語彙研究において電子コーパスのほうが辞書よりも有用であるケースは少なくない.Baayen and Lieber (803) によると,語彙研究におけるコーパスの利点は以下の通り.

 (1) コーパスで語を検索すると,その頻度を知ることができる.辞書では頻度はわからない.
 (2) コーパスは生の言語使用を反映しており,辞書に掲載されない語を含んでいる可能性が高い.(辞書は一般に保守的な傾向が強く,俗語や新語を含んでいないことが多い.)
 (3) 逆に辞書に掲載されていてもコーパスではヒットしない語が多く存在する.

 まとめると,語彙研究にコーパスを用いる利点は,「生きた語彙を頻度つきで集めることができる」という点だろう.要は,辞書とコーパスそれぞれの長所と短所をわきまえたうえで,目的に応じて両者を使い分ければよいということになろう.
 辞書とコーパスのちょっとした比較例としては,octopus の複数形 ([2009-08-26-1]) と rhinoceros の複数形 ([2009-10-05-1]) の記事を参照.

 ・Baayen, Harald and Rochelle Lieber. "Productivity and English Derivation: A Corpus-Based Study." Linguistics 29 (1991): 801--43.

Referrer (Inside): [2019-05-21-1]

[ 固定リンク | 印刷用ページ ]

2010-01-15 Fri

#263. 1990年から2009年までの英語流行語大賞 [lexicology][ads][woy]

 昨日の記事[2010-01-14-1]で紹介したように,American Dialect Society による2009年の英語流行語大賞のプレスリリースに,1990年以降の受賞語句がまとめて掲載されている.見やすいように,大賞受賞語句を一覧にしてみた.英語ならずとも,確かに時代を感じるなあ.

YearWord of the YearWord of the DecadeWord of the CenturyWord of the Millennium
2009twittergoogle
2008bailout
2007subprime
2006to be plutoed, to pluto
2005truthiness
2004red / blue / purple states
2003metrosexual
2002weapons of mass destruction or WMD
20019-11, 9/11 or September 11
2000chadwebjazzshe
1999Y2K
1998e-
1997millennium bug, Y2K bug or Y2K problem
1996mom (as in soccer mom)
1995(tie) World Wide Web and newt
1994(tie) cyber and morph
1993information superhighway
1992Not!
1991mother of all
1990bushlips

Referrer (Inside): [2013-02-23-1] [2010-05-26-1]

[ 固定リンク | 印刷用ページ ]

2010-01-14 Thu

#262. 2009年の英語流行語大賞 [lexicology][ads][woy]

 [2009-12-28-1]の記事で紹介した American Dialect Society が,2010年1月08日(金)付けで2009年の英語の流行語大賞 "word of the year" を発表した.10年間の締めくくりの年でもあったので,同時に "word of the decade" も発表された.詳しくは,American Dialect Society,あるいは直接プレスリリースがこちらのPDFで閲覧可能である.
 結果からいえば,"2009 Word of the Year" が tweet,"Word of the Decade" が google である.近年のウェブ・コミュニケーション技術の台頭を物語る結果である.
 "2009 Word of the Year" の tweet は,"(noun) a short message sent via the Twitter.com service, and (verb) the act of sending such a message" と定義される.Twitter は Twitter.com が提供するオンライン「つぶやき」サービスで,昨年から今年にかけて日本でも大ブレークしている.電子メールとチャットの中間程度の「緩い」コミュニケーションを可能としたことが売りで,iPhone などの携帯端末からオンラインに向かって日々つぶやく人が増加した.
 "Word of the Decade" の google は,"a generic form of 'Google,' meaning 'to search the Internet' " の意味で,確かに動詞として一般化した観がある.ちなみに "Word of the Decade" の次点は blog であり,やはりウェブ・コミュニケーション用語である.第三位は 9/11 だった.
 これらの流行語は American Dialect Society 主催の投票によって選ばれるが,プレスリリースでは賞の開始された1990年以来の各部門の受賞語句が確認できるので,ぜひ読んでおきたい.部門としては,"MOST UNNECESSARY" 部門,"MOST OUTRAGEOUS" 部門,"MOST LIKELY TO SUCCEED" 部門の受賞語句などが,ときに笑える.
 学会の主催するイベントでありながら,ユーモアの忘れられていないところが楽しい.プレスリリース中の以下のコメントにも,方針がこう謳われている.

Members in the 120-year-old organization include linguists, lexicographers, etymologists, grammarians, historians, researchers, writers, authors, editors, professors, university students, and independent scholars. In conducting the vote, they act in fun and do not pretend to be officially inducting words into the English language. Instead they are highlighting that language change is normal, ongoing, and entertaining. (1)

[ 固定リンク | 印刷用ページ ]

2009-12-28 Mon

#245. 西暦2000年紀の英語流行語大賞 [lexicology][loan_word][ads][she]

 10年遅れの話題だが,年末ということで思い出したのでメモ.American Dialect Society では毎年,協会誌 American Speech にて英語の流行語大賞が発表されている.2000年には豪華なことに "1999 words of the year", "words of the decade", "words of the century", "words of the millennium" が一気に公表された.
 その年の流行語大賞がその一年の社会の変化を振り返るのにうってつけであるのと同様に,10年,100年,1000年というスパンでの「流行語」を顧みることは,社会の歴史を振り返るのにうってつけである.以下は,大賞にノミネートされた語句である.受賞語句には * を付してある.

・Words of the Decade

 e-
 ethnic cleansing
 * Web
 Franken --- Genetically modified, as in Frankenfood
 senior moment
 way --- very

・Words of the Century

 teenager
 * jazz
 T-shirt
 modern
 DNA
 media
 acronym
 teddy bear
 World War
 cool
 melting pot

・Words of the Millennium

 science
 freedom
 news
 justice
 truth
 nature
 history
 human
 book
 language
 go
 the
 government
 OK
 * she

 millennium の単位になると,ノミネートの基準も分かるような分からないような,である.語彙史的には,特に go, the, そして受賞した she が気になるところである.いずれもゲルマン系の超基本語であり,この形態・機能に落ち着くまでにある程度の時間のかかった語である.確かに歴史を背負った語といってよい.
 ちなみに "Words of the Millennium" にノミネートされた15語のうち,間違いなく英語の本来語といえるものは freedom, truth, book, go, the の5語のみであり,他は借用語である.このことは,1500年余の英語の語彙史を象徴しているように思える.

 ・American Speech 75.3 (2000): 323--24 (in "Among the New Words").

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow