hellog〜英語史ブログ     前の日     次の日     最新     2011-08     検索ページへ     ランダム表示    

hellog〜英語史ブログ / 2011-08-20

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2011-08-20 Sat

#845. 現代英語の語彙の起源と割合 [lexicology][loan_word][statistics][bnc][corpus]

 現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.

 ・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
 ・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
 ・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合

 語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
 先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
 Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
 これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.

LevelEnglishFrench/LatinScandinavianOther
100 (GSL)92%3%5%0%
600 (LDOCE3)474544
1000 (BNC)46.948.93.21.0
1000 (Williams)831322
2000 (Williams)345727
3000 (Williams)2960110
4000 (Williams)2762110
5000 (Williams)276418
6000 (Williams)2761210
7000 (Williams)2362213
8000 (Williams)2659213
9000 (Williams)2558215
10000 (Williams)2560114
Etymological Breakdown of the Most Frequent Words


 上から3つ目と4つ目の棒グラフは,同じ最頻1000語レベルでの比較だが,3つ目は上述の Durkin の BNC 調査によるもの,4つ目は[2010-06-30-1]の記事で示した Williams のものである.著しい差異が生じたが,これも調査方法が異なるがゆえだろうか.注意して解釈する必要があるが,この点を除けば全体としてなだらかに推移し,最終的には本来語25%,ラテン・フランス語60%,それ以外が15%という数値におよそ落ち着くようだ.

[ 固定リンク | 印刷用ページ ]

2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2024-11-26 08:10

Powered by WinChalow1.0rc4 based on chalow