hellog〜英語史ブログ     前の日     次の日     最新     2018-01     検索ページへ     ランダム表示    

hellog〜英語史ブログ / 2018-01-04

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2018-01-04 Thu

#3174. 高頻度語はスペリングが短い (2) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

 昨日の記事 ([2018-01-03-1]) と同じ頻度とスペリングの長さに関するデータを,もう少し分析してみた.以下は,頻度ランキングのトップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について,それぞれ最低値,第1四分位数,中央値,平均値,第3四分位数,最大値を示した表である.英語の正書法を論じる上での基礎データとしてどうぞ.

 Min.1st Qu.MedianMean3rd Qu.Max.
Top_1001.02.03.03.14.05.0
Top_2001.003.004.003.774.0010.00
Top_5001.0004.0004.0004.4985.00010.000
Top_1K 1.0004.0005.0004.9686.00015.000
Top_2K 1.0004.0005.0005.4067.00015.000
Top_5K 1.0005.0006.0006.0147.00016.000
Top_10K1.0005.0006.0006.4888.00016.000
Top_20K1.0005.0007.0006.9548.00017.000
Top_50K1.0006.0007.0007.6229.00020.000


 これをもとに視覚化したのが,以下の箱ひげ図.

Boxplot for Length of Spelling of High-Frequency Words by SUBTLEXus


 当然予想されたことだが,語数が増えるにしたがってスペリングの平均の長さは徐々に大きくなっていき,バラツキも広がっていく.しかし,トップ数万語でみても平均して7文字程度となっており,さほど長くないのだなという印象を受けた.

[ | 固定リンク | 印刷用ページ ]

2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2019-06-25 04:53

Powered by WinChalow1.0rc4 based on chalow