昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.
今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)
昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.
・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える
昨日の記事[2010-04-09-1]に続く話題.BNC Word Frequency List の6318語の見出し語化された ( lemmatised ) 最頻語リストを材料として,音節数の分布がどのようになっているかを調査してみた.
まずはリストを頻度順に眺めてみるだけで,ある程度の検討はついた.[2010-03-02-1]の記事「現代英語の基本語彙100語の起源と割合」からも明らかなとおり,最頻基本語にはゲルマン系の本来語が多い.このことは,単音節語が多いということにもつながる.しかし,リストを下って頻度のより低い語に目をやると,徐々に2音節語,3音節語が目につくようになってくる.したがって,頻度で上位どのくらいまでを対象にするかによって,音節数の相対的な分布は変わってくることが予想される.そこで,まず6318語すべての音節数を出した上で,最頻100語,200語,500語,1000語,2000語,3000語,4000語,5000語,6000語というレベルで音節数の分布を調査した.レベル間の比較が可能となるようにグラフ化したのが下図である.(数値データはこのページのHTMLソースを参照.)
このグラフからいくつかの興味深い事実を読み取ることができる.
・ どのレベルでも単音節語が最も多い
・ 対象語彙が大きくなればなるほど,2音節語数が単音節語数に肉薄する
・ 英語語彙の圧倒的多数が単音節語か2音節語である
・ 対象語彙が大きくなればなるほど,平均音節数が漸増する
・ いずれにせよ英単語の平均音節数はせいぜい2音節ほどである
今回は最頻約6000語レベルの語彙で調査したが,対象語彙をどんどん大きくしてゆくとどのような結果が出るのか,おおいに気になった.やがては2音節語が単音節語を追い抜き,平均音節数も漸増を続けるのだろうか? あるいは平均音節数がこれ以上は変わらないという限界点が存在するのだろうか? non-lemmatised な語彙リストを材料にすると平均音節数はどのくらい変化するのだろうか? 次々に疑問が生じた.
ちなみに,最頻5000語レベルで初めて現れる7音節語が一つある.英語の平均音節数からすると異常に長い超多音節語だが,比較的よくお目にかかる単語ということになる.何であるか,想像できるだろうか? 答えは,4657番目に現れる
telecommunication
(←クリック)である.なるほど?.
ここ数ヶ月のあいだに取り組んでいる研究課題と関連して,標題の問いについて調査する必要が生じている.この問いの背後にある問題意識としては,単語の語源別の平均音節数を比較して,たとえば「ゲルマン系の単語はロマンス系の単語よりも○音節だけ短い」などという統計的な数値を得たいと思っているのだが,この問題は何段階かに分けてアプローチしてゆくのがよさそうである.標題の問いのままでは適切な問題設定とはいえないいくつかの理由がある.
一つは,言語学で最も悪名高い問題の一つである「単語とは何か」という問いに関係する.わかりやすい例として,合成語 ( compound ) を考えるとよい.school boy は1語なのだろうか,2語なのだろうか? さらに,固有名詞の New York City はどうだろうか? いずれも綴字上の慣習により複数の語とみなすこともできるが,一方で意味のまとまりとしては一つであるから1語だという理屈も成り立ちうる.kick the bucket のようなイディオムはどうだろうか? [2010-02-07-1], [2010-02-08-1]で触れた crane のような多義語 ( polysemy ) は,語義ごとに別の語と考えることもできるのではないか? 英単語の平均音節を考えるにあたっても,こうした基本的な問題は避けて通れない.
二つ目の理由は,英語語彙というときの範囲の問題である.OED には50万語ほどがエントリーされているが,辞書の保守性を考慮すると,実際にはその倍の語彙があるのではないかともいわれている.平均値を出すからには,理想的にはありったけの単語を考慮に入れることが必要である.となると,[2009-06-30-1]の記事でみた pneumonoultramicroscopicsilicovolcanoconiosis のような極端な語(19音節)も含めることになる.だが,そもそも現代英語語彙の総覧が存在しない以上,どこまで含めてどこから含めないかの判断は恣意的にならざるをえない.実際的な研究に際しては,どこかで強引に切る必要がある.
三つ目は,同一の語でも,変種によって1音節程度の増減が起こりうるという問題である.[2010-03-08-1]で触れたように,secretary は典型的な英米発音のあいだで音節数の揺れがある.もっとも,この問題は対象とする変種を定めてしまえば,上記の二つの問題ほど大きな問題にはならないかもしれない.
一つ目,二つ目の問題については当面の根本的な解決策はないが,そんなに難しいことを言っていては仕方がないというのも確かである.具体的に調査を進めてみようと思うと,[2010-03-01-1]で紹介した最頻英単語リスト辺りからスタートするのがよさそうである.ひとまずは,BNC Word Frequency List の6318語のリストから始めてみようと思う.
・ 齊藤 俊雄,中村 純作,赤野 一郎 編 『英語コーパス言語学?基礎と実践?』 研究社,1998年.110--13頁.
近代以降,特に19世紀から20世紀にかけて英語の話者人口が爆発的に増えてきたことは,本ブログでもたびたび話題に取りあげている.例えば,英語話者人口の様々な分類の仕方と問題点は[2009-10-17-1], [2009-11-30-1], [2009-12-05-1], [2010-01-24-1]で扱った.英語話者の分類はともかくとして話者人口そのものが増えてきた点に焦点をあてたとき,よく引き合いに出されるのがマッシュルームモデルである.最近では,Svartvik and Leech (8) でも掲載されたモデルである.
子供に図を見せて何に見えるかと尋ねたら,マッシュルームではなくイチョウの葉だというので,ここでは名称を改め「銀杏の葉モデル」と呼んでおきたい.これの意味するところは図を見れば一目瞭然だろう.
図中の数値は ENS, ESL, EFL を含めた概数だが,過去2世紀の間に約40倍も増えているのだから驚きだ.この図を見て思うところが3点あるので,コメントしておきたい.
(1) 話者人口数を表すこの銀杏の葉モデルを側面図ととらえて,立体的に真上からのぞき込むと,話者人口の分類を表す同心円モデル([2009-11-30-1])に近くなるのではないか.透明の円錐をとがった方を下にして,上からのぞき込んだ感じである.話者人口増加にもっとも貢献しているのは,Outer Circle 及び Expanding Circle に所属する人々である.
(2) 銀杏の葉の上端にある筋状の葉脈の一つひとつが,英語の変種 ( variety ) に相当すると見ることができるのではないか.上端に近いほど筋は互いに離れていくが,実際には葉っぱ本体に埋め込まれている筋なので,つながっている.現代の英語の変種間に働く遠心力と求心力を思い起こさせる.
(3) 近代以前と以降とで英語史が二分されるというイメージ.近年,英語史研究の世界では,特に近代英語期以降に関する研究において,話者と言語との関係を意識した社会言語学なアプローチが活気づいている.また,変種間の微妙な違いに留意する研究も増えてきている.話者が増え,その分だけ変種も増え,現在に近いだけに言語現象の背後にある社会言語学的な情報にもアクセスできる,ということが関与していると思われる.
それに対して,中英語期の研究は,確かに社会言語学的な視点からのアプローチが増えてきているとはいえ,アクセスできる情報には限りがある.変種も地域変種(方言)の研究は盛んだが,地理的な広がりといえばイングランド(とせいぜいその周辺)に限られ,近代以降の世界中に展開する複雑きわまれる変種の分布とは規模が異なる.
だが,英語史をこのように二分する考え方が必ずしもいいとは思っていない.変種の規模や広がりこそ大きく異なるが,変種のあり方については近代も中世も古代もそれほど変わらない点があるのではないか.
あれやこれやと,この図から想像してみた.
・ Svartvik, Jan and Geoffrey Leech. English: One Tongue, Many Voices. Basingstoke: Palgrave Macmillan, 2006.
昨日の記事[2010-03-01-1]で,現代英語の最頻英単語リストをいくつか紹介した.そのなかで,やや古いが広く参照されている GSL ( General Service List ) に基づき,最頻100語の語源別の内訳を調べてみた.
英語の本来語 ( native words ) の一人勝ちであることは一目瞭然である.借用語 ( loan words ) はわずかである.最頻語彙の血は紛れもなく Anglo-Saxon である.
古ノルド語由来の語は they, she, take, get, give の5語のみ.ただし,she の語源にはイングランド北部方言説など諸説がある.また,get と give については,語頭子音 /g/ こそ古ノルド語形に由来すると言ってよいが,対応する語は古英語にもあり,考え方によってはどちらの言語にも帰せられる.ここでは,いずれも古ノルド語由来として数えた.
フランス語由来の語は,state, use, people の3語のみ.
過去の記事でも類似する統計をいくつか載せているので,そちらも要参照.
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
・ [2009-08-15-1]: 現代英語の借用語の起源と割合
現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.
[主要な頻度表]
・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.
[他のリストへのリンク集]
・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
・ Famous Frequency Lists: 様々な頻度表へのリンク集.
・ Basic English and Common Words: ML上の最頻語頻度表についての議論.
[アルファベットの文字の頻度表]
・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.
(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)
[2010-01-22-1]で世界の言語の数を話題にした.今回は,言語数と各言語の母語話者数との関係を考えてみる.
以下の表は,世界に約6000言語が存在すると仮定し,その母語話者数との関係を一覧にしたものである.これは,1999年版の Ethnologue を参考に,Crystal がまとめたものである (14--15).
Population of Native Speakers | Number of Languages | % | Cumulative downwards % | Cumulative upwards % |
---|---|---|---|---|
more than 100 million | 8 | 0.13 | 99.9 | |
10--99.9 million | 72 | 1.2 | 1.3 | 99.8 |
1--9.9 million | 239 | 3.9 | 5.2 | 98.6 |
100,000--999,999 | 795 | 13.1 | 18.3 | 94.7 |
10,000--99,999 | 1,605 | 26.5 | 44.8 | 81.6 |
1,000--9,999 | 1,782 | 29.4 | 74.2 | 55.1 |
100--999 | 1,075 | 17.7 | 91.9 | 25.7 |
10--99 | 302 | 5.0 | 96.9 | 8.0 |
1--9 | 181 | 3.0 | 99.9 |
世界に言語はいくつあるか? 論者によって3,000という数から10,000という数まで様々で,一定しない.だが,複数の論者の平均値としてもっともよく耳にする数が,6,000前後である.
だが,なぜ論者によって数値が違うのだろうか.言語は客観的に数えられないものなのだろうか.Crystal は世界の言語の数を正確に把握できない理由を5点挙げている (3--5).
(1) そもそも世界規模の調査が少ない.確かに20世紀後半からは Ethnologue などいくつかの機関が世界的な調査をおこなっているが,こうした試み自体が比較的新しいものであり,世界言語統計は始まったばかりというべきである.
(2) 多くの論者は上記の調査が不完全であることを知っているために,言語数を任意に切り上げたり切り下げたりしがちである.
(3) 消滅する言語の数とそれらが消滅する速度を正確に把握できない.
(4) 新たに発見される言語の数と発見の頻度を正確に把握できない.(もっとも,発見される「新言語」によって世界の言語数が劇的に増えるとは考えにくいので,影響は僅少だろうが.)
(5) ある変種を「言語」 ( language ) とみるか,ある言語の「方言」 ( dialect ) とみるかについて,明確な基準がない.
昨今,世界規模の調査も進められてきており,(1) から (4) の問題点については改善されてゆくだろう.だが,(5) は社会言語学上の古典的な問題であり,解決の糸口がない.
例えば,1990年には Serbo-Croatian という一言語だったものが現在では Serbian, Croatian, Bosnian と三言語に分裂している.言語が変わったわけではなく,旧ユーゴスラビアが政治的に分裂したがゆえの事態である.
同じように,英語が今後ますます多様化してゆくことを考えると,Indian English, Singapore English, Caribbean English などはすべて English から独立した別の言語として数えられるようになるかもしれない.
数えるって難しい.
・Crystal, David. Language Death. Cambridge: CUP, 2000.
昨日の記事[2010-01-07-1]の最後に,米国でスペイン語使用が増加している件 ( Hispanification ) に触れた.今回は,これと関連していくつかの数字を示したい.
現代世界において,米国が世界語としての英語の最強の推進者であることは論をまたないが,それは米国が英語一辺倒の国であることと同義ではない.米国が多民族国家であり多言語国家であることを忘れてはならない.Ethonologue (297) によると,アメリカ合衆国で現役で使用されている "living languages" は364言語を数える.そのなかで,近年もっとも勢力を伸ばしている言語はスペイン語である.スペイン語話者の数は1970年からみて6割以上も増加しているというから驚きの加速度である.具体的な数字を出せば,1990年の調査では 22,400,000 ほど,2000年の調査では 28,100,000 ほどのスペイン語話者人口が報告されており,その10年間だけで25%増加したことになる.New Mexico ではスペイン語は公的な地位を与えられており,それ以外の諸州においても official Spanish なる表現がよく聞かれるようになってきている.(以上の情報は,書籍版 Ethonologue に加え,Online 版の Ethnologue アメリカ合衆国の項 も参考にした.)
Graddol (26--27) では,1990年代に発表された米国商務省の統計に基づいた2050年の人口分布予測が紹介されている.それによると,2050年の米国では Hispanic 人口が全人口の約4分の1を占めるという.さらに Black や Native Americans を含む非白人の総計をとると,全人口の約半分を占めることになるという.こうした予測を背景に,1990年代の米国で英語公用語論が湧き出たのも自然なことだったといえよう.
U.S. English のサイトでは Official English について詳しい解説が与えられている.Crystal (127--40) にも関連する議論がある.参考までに.
・Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm.
・Gordon, Raymond G., Jr. ed. Ethnologue. 15th ed. Dallas: SIL International, 2005.
・Crystal, David. English As a Global Language. 2nd ed. Cambridge: CUP, 2003.
近代英語期の英語語彙の増加について,(連日だが)Hughes の調査を参考にしつつ紹介.Hughes は,Shorter Oxford English Dictionary (1933 ed.) に基づいて編集された Chronological English Dictionary を利用して,1500年から1900年のあいだに英語に加わった語を10年ごとに集計してグラフを作成した (404).
以下のグラフは,Hughes のグラフを本ブログ用に改変したものである.Hughes にはグラフ作成のもとになる数値データは与えられていないので,グラフから目検討で数値を読み出し,それを頼りに再びグラフを作成した.したがって,ここに示されているものはあくまで参考までに.
グラフには二つのピークがある.一つ目のピークは約1550?1630年の時期で,およそエリザベス朝の時代 ( Elizabethan Period ) を中心とする.二つ目のピークは約1790?1880年の時期で,およそロマン主義の時代 ( Romantic Period ) に相当する.間にはさまれた王政復古期 ( Restoration Period ) と新古典主義時代 ( Augustan Period ) は比較的,保守的だったとわかる.1450?1950年に加わった語彙の総数は6万語を超え,平均すると年に約120語ということになる.
なお,Hughes によると,年単位でみると1598年(590語)と1611年(844語)がもっとも際だっているという.
・Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 403--04.
・Finkenstaedt, Thomas, E. Leisi, and D. Wolf. eds. A Choronological English Dictionary. Heidelberg: Carl Winter, 1970.
昨日の記事[2009-11-14-1]に引き続き,現代英語の語彙に関する統計値の話題.昨日は,借用語に限定し,そのソース言語の相対的割合を示すグラフを掲げた.今日は,本来語も借用語も含めた現代英語の語彙全体から基本語600語を取り出し,その語源をソース言語ごとに数え上げるという切り口による統計を紹介する.以下の数値と議論の出典は,昨日と同じく Hughes による.
数値をみる前に,基本語彙 ( core vocabulary ) を客観的に定義するのは難しいという問題に触れておきたい.話し言葉で考えるのか,書き言葉で考えるのか.個々の話し手,書き手によって基本語彙とは異なるものではないのか.世界英語のどの変種 ( variety ) を対象に考えるのか,イギリス英語か,アメリカ英語か,それ以外か.この問題に対して,Hughes は,LDOCE3 の頻度ラベルが S1 かつ W1 であるもの,すなわち話し言葉でも書き言葉でも最頻1000語に入っている語だけを選び出すことにした.この総数が600語であり,これを "the kernel of the core" (392) として調査対象にした.以下は,ソース言語別の割合をグラフ化したものである.
従来の類似調査や伝統的な英語史観からは,Anglo-Saxon 由来の本来語の割合はもっと高いはずではないか(6割?7割)と予想されるところだが,意外にも5割を切っている.話し言葉の記述に力を入れている LDOCE3 に基づく結果であるだけに,なおさらこの結果は意外である.
もう一つ興味深いのは,Anglo-Saxon と Norse を合わせた Germanic 連合軍と,Norman French と Latin と Greek を合わせた Latinate-Classic 連合軍とが,およそ半々に釣り合っていることだ.語彙に関しては,中英語以降,英語はゲルマン系からロマンス系へと舵を切っているということが英語史ではよくいわれる.現代において,語彙のロマンス化の傾向は維持されているのみならず,むしろ強まってきているということを,このデータは示唆するのではないか.
・ Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 391--94.
・ Longman Dictionary of Contemporary English. 3rd ed. Harlow: Longman, 1995.
標題について[2009-08-15-1]で円グラフを示したが,そのときにグラフ作成に用いた数値は孫引きのデータだった.今回は OED (2nd ed.) で語彙調査をした Hughes の原典から直接データを取り込み,より精確なグラフを作成してみた.カウントの対象とされたソース言語は75言語,借用語総数は169327語である.
一つ目は円グラフで,現代英語の借用語全体を100としたときのソース言語の相対比率を示したものである.[2009-08-15-1]で示したグラフをより精確にしたものと理解されたい.
二つ目は棒グラフで,比率ではなく借用語数で,ソース言語別にプロットしたものである.
少数のソース言語が借用語の大多数を供給している実態がよくわかる.もとの数値データはこのページのHTMLソースを参照.
・Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 370.
現代英語の動詞は,規則動詞 ( regular verb ) と不規則動詞 ( irregular verb ) に大別される.
規則動詞は原則として動詞の原形に -ed という語尾を付加して過去形・過去分詞形を作る.発音は語幹末の音にしたがって /d/, /ɪd/, /t/ のいずれかとなるが,いずれも歯音接尾辞 ( dental suffix ) を含んでいる( ex. played, wanted, looked ).これはゲルマン諸語に共通する過去形・過去分詞形の形成である.
一方,不規則動詞 はいろいろと下位区分ができるが,多くは母音交替 ( ablaut or gradation ) によって過去形・過去分詞形を作る.swim -- swam -- swum, give -- gave -- given, come -- came -- come の類である.
不規則動詞には基本動詞が多いために,相当数の不規則動詞があるかのように錯覚しがちだが,実際には70個ほどしかない.それ以外の無数の動詞は -ed で過去形・過去分詞形を作る規則動詞である.
だが,昔からこのような分布だったわけではない.古英語では,およそ規則動詞に相当するものを弱変化動詞 ( weak verb ) と呼び,およそ不規則動詞に相当するものを強変化動詞 ( strong verb ) と呼んだが,後者は270語ほど存在したのである.だが,以降1000年の間に不規則動詞は激減した.この約270語がたどったパターンは以下のいずれかである.
(1) 不規則動詞(強変化動詞)としてとどまった
(2) 不規則動詞(強変化動詞)と規則動詞(弱変化動詞)の間で現在も揺れている
(3) 規則動詞化(弱変化動詞化)した
(4) 廃語として英語から消えた
それぞれの内訳は以下の通りである.おおまかにいって,古英語の強変化動詞の1/3は廃れ,1/3は規則動詞化し,1/3は不規則動詞にとどまったといえる.
以下に簡単に具体例を挙げるが,定義上,(1) は現代英語に残っている不規則動詞であり,(4) は現代英語に残っていない語なので省略する.
(3) のパターンには,help がある.この動詞は古英語では helpan -- healp / hulpon -- holpen と母音交替によって活用していたが,現代英語では規則動詞となっている.その他,shave, step, yield などもかつては不規則動詞だった.
(2) のパターンには,mow -- mowed -- mowed / mown, show -- showed -- showed / shown, prove -- proved -- proved / proven などがある.傾向としては,-ed の付いた規則形が優勢である.このパターンに属する動詞では,不規則形が廃れていくのも時間の問題かもしれない.
・Görlach, Manfred. The Linguistic History of English. Basingstoke: Macmillan, 1997. 69--75.
古英語はで屈折により格が標示されたため,現代英語に比べて語順が自由だったことはよく知られている.例えば,SVO の構文は,特殊な倒置を除いて現代英語では揺るぎない規則といってよいが,古英語ではあくまでよくある傾向に過ぎなかった.従属節では SOV の語順が多かったし,主節でも目的語が代名詞であったり and で始まる文では SOV が多かった.つまり,古英語の語順は,緩やかな傾向をもった上で,比較的自由だったといえる.
だが,この状況が中英語期になって変化してくる.SVO の語順がにわかに発達してくるのである.以下は橋本先生の著書で引かれている Fries の調査結果に基づいた語順の推移である.およそ1000年から1500年までの英語を対象として,OV と VO の語順の比率を示したものである.(c1100のデータはなし.数値データはこのページのHTMLソースを参照.)
ここでは主節と従属節の区別をしていないこともあり,単純に結論づけることはできないものの,14世紀中に一気に SVO が成長したことは確かなようだ.発達曲線は slow-quick-quick-slow を示しており,典型的な 語彙拡散 ( Lexical Diffusion ) の発達過程を経ているように見える.
・Fries, Charles C. "On the Development of the Structural Use of Word-Order in Modern English." Language 16 (1940): 199--208.
・橋本 功 『英語史入門』 慶應義塾大学出版会,2005年. 176頁.
ノルマン人の征服以降,フランス語の語彙が大量に英語に流入したことはよく知られている.その流入は実に今日まで絶え間なく続いてきており,英語史全体で2万語近くが入ってきたのではないかという推計がある.だが,もちろん常に同じペースで流入してきたわけではない.借用されたフランス単語を年代別に数えるという研究は古くからなされてきており,有名なものとしては OED を利用した Jespersen と Koszal の共同調査がある.宇賀治先生がご著書で数値等をまとめられているので,それに基づいてグラフ化してみた(数値データはこのページのHTMLソースを参照).ただ,この調査は悉皆調査ではなく,OED でアルファベットの各文字で始まるフランス借用語のうち,最初の100語を抽出し,その初出年で振り分けたものである.目安ととらえたい.
中英語期の中盤をピークとし,初期近代英語期にも一度小さなピークはあるものの,現在まで漸減を続けている.それでも,悉皆調査をすれば,どの時代も絶対数としてはそれなりの数にはなろう.借用が爆発的に増えた13世紀と14世紀は,イングランドにおいて英語が徐々にフランス語のくびきから解放され,復権を遂げてゆく時期である.そんな時期にフランス借用が増えるというのは矛盾するようにも思えるが,フランス語を母語としていた貴族が英語に乗り換える際に,元母語から大量の語彙をたずさえつつ乗り換えたと考えれば合点がいく.
一方,16世紀の漸増は,[2009-08-19-1]で見たとおりルネッサンス期の借用熱に負っているところが大きい.借用語の増減の背後には,常に何らかの社会の動きがあるようである.
英語におけるフランス借用語の研究はされ尽くされた観があるが,悉皆調査が行われていないというのは大きな盲点かもしれない.Jespersen などの時代と違って OED も電子化されているし,やりやすくはなっていると思うのだが.
・Jespersen, Otto. Growth and Structure of the English Language. 9th ed. 1938. Oxford: Basil Blackwell, 86-87.
・宇賀治 正朋著 『英語史』 開拓社,2000年. 95頁.
[2009-08-15-1]で現代英語の借用語彙の起源と割合をみたが,今回はその初期近代英語版を.といっても,もととなった数値データ(このページのHTMLソースを参照)はひ孫引き.ここまで他力本願だとせめて提示の仕方を工夫しなければと,Flash にしてみた.このグラフは,Wermser を参照した Görlach (167) を参照した Gelderen の表に基づいて作成したものである.
現代英語の語彙が,世界の諸言語からの借用の上に成り立っていることは,英語史を学んだ者にはよく知られている.英語は歴史上,実に350以上の言語から語を借用してきており,その数は本来語の数よりも多い.
語彙に関する統計は[2009-06-12-1]でも触れたように,決定版といえるようなものが見つけにくいが,借用語の起源と割合については,OED の第2版で調査した Hughes が参考になる.Hughes を参照して橋本功先生が作成した円グラフと同じものを,本ブログのためにリメイクしてみた.現代英語における借用語彙の全体を100%としたときの,各借用元言語の貢献の割合を示したものである.
フランス語とラテン語からの借用語については,言語的に類似している(親子関係にある)ため,どちらから入ったか区別のつかない例も多く,フランス・ラテン借用語としてまとめて扱われることが多い.足し算すると,英語の借用語のうち,実に52%がフランス・ラテン借用ということになる.英語の語彙に与えた両言語の影響の大きさは,この数値から容易に理解されよう.
・橋本 功 『英語史入門』 慶應義塾大学出版会,2005年. 90頁.
・Hughes, G. A History of English Words. Oxford: Blackwell, 2000.
語彙の歴史を論じるとき,ある時代における本来語と借用語の分布であるとか,どの時代にいくつの新語が造られたかなど,数字の話になることが多い.英語の語彙にまつわる統計的調査はいろいろとなされているが,概説書間で異なる数値が引用されていたりして,全体として語彙に関する統計情報はまとまりを欠いているように思われる.そこで,中期的な計画として,様々な文献から数値を集めてはこのブログ上にメモとして蓄積してゆき,ときどき整理してゆくということを試みたい.
以下に何点かを箇条書きで挙げるが,まとめていないのであしからず.
・古英語の語彙は約30000語 (Gelderen 73)
・古英語の語彙における借用語の比率は約3% (Culpeper 36)
・古英語の借用語の過半数はラテン語で,約450語を数える (Culpeper 36)
・北欧語からの借用語は約1000語 (Gelderen 97)
・北欧語からの借用語で,現代英語にまで残っているものは約1800語 (Culpeper 36)
・中英語期に借用されたフランス語単語は約10000語を越える (Culpeper 37)
・1066--1250年のフランス語借用は,1000語に満たない (Gelderen 99)
・16世紀だけで13000語ほどが借用されたが,そのうち7000語ほどがラテン語からである (Culpeper 37)
・ラテン語からの借用は,大陸時代に約170語,410年までのローマン・ブリテン時代に100語強,キリスト教伝来以降に150語,そしてルネサンス期に数千語が入った (Gelderen 93)
・現代英語の語彙における借用語の比率は約70% (Culpeper 36)
・過去50年で,英語への借用語の約8%が日本語からであり,約6%がアフリカ諸語である (Culpeper 38)
・現代において英語に加わる新語のうち,借用語は約4%にすぎず,他は既存の要素による造語である (Culpeper 38)
今回の整理項目の典拠は以下の二冊:
・Culpeper, Jonathan. History of English. 2nd ed. London: Routledge, 2005.
・Gelderen, Elly van. A History of the English Language. Amsterdam, John Benjamins, 2006.
(後記 2010/05/09(Sun):古英語以来,本来語の80%が失われた可能性がある (Gelderen 73))
Powered by WinChalow1.0rc4 based on chalow