hellog～英語史ブログ（印刷用ページ）

2017-03-12

　昨日の記事「#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる」 ([2017-03-11-1]) に引き続き，英語語彙頻度の格差について考えてみたい．昨日扱ったジニ係数よりも直感的に格差を認識できる指標として，格差上位1%のシェアというものがある．経済学でいえば，トマス・ピケティも愛用している「トップ富裕層の所得シェア」である．大金持ちがどのくらい金持ちか，という指標と理解すればよい．英語語彙について言えば，生起頻度でトップ1%に入るそれほど多くない語によって，全体のどのくらいのシェアが占められているかを示す指標となる．
　昨日と同じように，総頻度数が81.5万ほどの比較的小規模な GSL の語彙頻度表と，1850万ほどの巨大コーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づく語彙頻度表で計算してみた．トップ1%とトップ0.1%での値は，以下の通り．

GSL CELEX2

1% 47.05% 69.36%

0.1% 14.60% 43.57%

　実際，ここまで高い値になるとは予想していなかった．英語学習という観点からみると，極端な話し，高頻度語のトップ1%を暗記すれば，5?7割ほどの語が認識できることになる．それでテキストを理解できるかというと，それはまったく別問題ではあるが，語彙学習の効率について再考させられる．
　参考までに，2000年の時点での日米の所得シェアを見てみると，アメリカではトップ0.1%の富裕層が所得全体の7%ほど，日本では2%ほどである（吉川，p. 226）．近年，両国ともに格差は開いてきているようだが，さすがに語彙の世界ほどの格差に至ることはないだろう．語彙の社会は，あらためて不平等な社会である．

　・吉川洋　『人口と日本経済』　中央公論新社〈中公新書〉，2016年．

	GSL	CELEX2
1%	47.05%	69.36%
0.1%	14.60%	43.57%

[ ツイート | 固定リンク | 印刷用ページ ]

hellog～英語史ブログ#2876. 英語語彙の頻度分布に関する格差上位1%のシェア[lexicology][statistics][frequency][corpus]

hellog～英語史ブログ

#2876. 英語語彙の頻度分布に関する格差上位1%のシェア[lexicology][statistics][frequency][corpus]