hellog〜英語史ブログ

#1440. 音節頻度ランキング[syllable][corpus][lexicon][phonetics][frequency][statistics]

2013-04-06

 「#1424. CELEX2」 ([2013-03-21-1]) で紹介した巨大データベースで何かしてみようと考え,Version 2 で新たに加えられた音節頻度 (English Frequency, Syllables) のサブデータベースにより,現代英語で最も多い音節タイプのランキングを得た.
 これは,CELEX2 のもとになっているコーパス全体のうち,7.26%を構成する約130万語の話し言葉サブコーパスから引き出された音節頻度であり,タイプ頻度ではなくトークン頻度によるものである.つまり,話し言葉におけるある単語の頻度が高ければ,その分,その単語に含まれる音節タイプの頻度も高くなるということである.例えば,of を構成する "Ov" (= /ɒv/) と表現される音節は,第4位の頻度である.なお,強勢の有無は考慮せずに頻度を数えている.
 以下のリストに挙げる音素表記は,IPA ではなく CELEX 仕様の独特の表記なので,先に対応表を挙げておこう.

CELEX2 Phonetic Character Set

 では,以下にランキング表でトップ50位までを掲載する.高頻度の単音節語の音節タイプがそのまま上位に反映されていて,あまりおもしろい表ではないが,何かの役に立つときもあるかもしれない.

RankSyllableFrequency
1eI72971
2Di:60967
3tu:31446
4Ov30108
5In29906
6&nd28709
7aI23822
8lI19728
9@19566
10rI14356
11ju:12598
12dI12465
13D&t12118
14It11504
15wOz10834
16fO:r*9778
17Iz9517
18tI9161
19fO9042
20Sn,8969
21hi:8928
22r@n8638
23bi:8505
24bI7936
25nI7068
26wID7046
27On7030
28&z6919
29O:l6569
30h&d6240
31E6165
32bl,6021
33sI5836
34@U5824
35t@r*5687
36&t5652
37hIz5564
38bVt5416
39mI5397
40s@5391
41nOt5357
42D@r*5339
43I5283
44tId5259
45DeI5162
46IN5063
47t@5053
48s@U4974
49baI4894
50h&v4769


 全ランキング表を見たい方は,タブ区切り形式で Syllable Frequency Rank Table by CELEX2 を参照.ブラウザ上で閲覧したい方は,こちらからどうぞ.全体としては11492の異なる音節タイプが登録されており,頻度が1以上のものは7934タイプある.「#1023. 日本語の拍の種類と数」 ([2012-02-14-1]) の最後で,英語の音節タイプが日本語に比べて驚くほど多種多様であることに触れたが,この数をみれば納得できるだろう.関連して,syllable の各記事を参照.
 なお,CELEX2 のマニュアルには以下の但し書きが記されていたので,再掲しておく.

Please note that the English corpus used by CELEX for deriving these frequencies contains only 7.3% spoken material. This means there is a rather tenuous relationship between the full frequency figures, which are based on written forms, and the syllable frequencies, which merely refer to phonemic conversions of these graphemic transcriptions. Of course it could be argued that frequencies of syllables, as lexical sub-units, are less liable to get skewed from differences in medium than full words, but it has to be taken into account that NO FIRM EVIDENCE ABOUT SPOKEN FREQUENCIES can be derived from these data.

Referrer (Inside): [2019-07-03-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow