AからZまでのアルファベット文字のなかで,最も頻度の高い文字,低い文字は何か.この文字頻度 (letter_frequency) の話題については,「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1]) の下部に Letter Frequencies (rankings for various languages) へのリンクを挙げたとおり,様々な言語やコーパスでの順位表が作り出されている.例えば,BNC に依拠すると "etaoinsrhldcumfpgwybvkxjqz" の順位表が得られる.
Crystal (277) には,The Cambridge Encyclopedia (1st ed.) の全テキスト,150万語をコーパスとした文字頻度表が掲げられている.累積頻度順位 (Cumulative) のみならず,文学,宗教,政治,物理学,化学の各々のテーマごとの頻度や Morse code (morse_code) の頻度も合わせて示されている.以下のグラフは,X軸に沿って累積頻度順 (= "eatinorslhdcmufpgbywvkxjq") に文字を並べ,Y軸を各テーマ内での頻度割合(百分率)としたものである(頻度表はソース HTML を参照).
累積頻度順に照らしてテーマごとの特徴を見てみるとと,政治が最も標準的である.文学と政治がそれに続く.標準から遠ざかっていくのが,化学,物理学,そして Morse code となる.
個々の文字をみると興味深い点が多々ある.相対的に宗教では <h> が多く (holy?) <l> が少ないこと,文学では <w> が多いことは何を意味するのだろうか? 物理学や化学はラテン・ギリシア語系の単語が多く含まれているために,その他一般とは若干異なる文字頻度を示しているのかもしれない.人工的な Morse code は,他のテーマとは目に見えて異なる線を描いていることがわかる.
・ Crystal, D. The Cambridge Encyclopedia of the English Language. 3rd ed. CUP, 2018.
Powered by WinChalow1.0rc4 based on chalow