01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
昨日の記事「#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる」 ([2017-03-11-1]) に引き続き,英語語彙頻度の格差について考えてみたい.昨日扱ったジニ係数よりも直感的に格差を認識できる指標として,格差上位1%のシェアというものがある.経済学でいえば,トマス・ピケティも愛用している「トップ富裕層の所得シェア」である.大金持ちがどのくらい金持ちか,という指標と理解すればよい.英語語彙について言えば,生起頻度でトップ1%に入るそれほど多くない語によって,全体のどのくらいのシェアが占められているかを示す指標となる.
昨日と同じように,総頻度数が81.5万ほどの比較的小規模な GSL の語彙頻度表と,1850万ほどの巨大コーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づく語彙頻度表で計算してみた.トップ1%とトップ0.1%での値は,以下の通り.
GSL | CELEX2 | |
---|---|---|
1% | 47.05% | 69.36% |
0.1% | 14.60% | 43.57% |
2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2024-11-26 08:10
Powered by WinChalow1.0rc4 based on chalow