hellog〜英語史ブログ

#2876. 英語語彙の頻度分布に関する格差上位1%のシェア[lexicology][statistics][frequency][corpus]

2017-03-12

 昨日の記事「#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる」 ([2017-03-11-1]) に引き続き,英語語彙頻度の格差について考えてみたい.昨日扱ったジニ係数よりも直感的に格差を認識できる指標として,格差上位1%のシェアというものがある.経済学でいえば,トマス・ピケティも愛用している「トップ富裕層の所得シェア」である.大金持ちがどのくらい金持ちか,という指標と理解すればよい.英語語彙について言えば,生起頻度でトップ1%に入るそれほど多くない語によって,全体のどのくらいのシェアが占められているかを示す指標となる.
 昨日と同じように,総頻度数が81.5万ほどの比較的小規模な GSL の語彙頻度表と,1850万ほどの巨大コーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づく語彙頻度表で計算してみた.トップ1%とトップ0.1%での値は,以下の通り.

 GSLCELEX2
1%47.05%69.36%
0.1%14.60%43.57%


 実際,ここまで高い値になるとは予想していなかった.英語学習という観点からみると,極端な話し,高頻度語のトップ1%を暗記すれば,5?7割ほどの語が認識できることになる.それでテキストを理解できるかというと,それはまったく別問題ではあるが,語彙学習の効率について再考させられる.
 参考までに,2000年の時点での日米の所得シェアを見てみると,アメリカではトップ0.1%の富裕層が所得全体の7%ほど,日本では2%ほどである(吉川,p. 226).近年,両国ともに格差は開いてきているようだが,さすがに語彙の世界ほどの格差に至ることはないだろう.語彙の社会は,あらためて不平等な社会である.

 ・ 吉川 洋 『人口と日本経済』 中央公論新社〈中公新書〉,2016年.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow