statistics / hellog～英語史ブログ

最終更新時間: 2026-07-15 01:27

2011-04-05 Tue

■ #708. Frequency Sorter CGI [corpus][bnc][statistics][web_service][cgi][lexicology][plural]

　何らかの基準で集めた英単語のリストを，一般的な頻度の順に並び替えたいことがある．例えば，[2011-03-22-1]で論じたように，頻度と不規則な振る舞いとの関係を調べたいときに，注目する語（群）の一般的な頻度を知る必要がある．この目的には，[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である．BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し，頻度数や頻度順位を調べてゆけばよいが，語数が多い場合には面倒だ．そこで，上記2つの頻度表から，入力した語（群）の頻度と順位を取り出す CGI を作成した．
　改行でもスペースでもカンマでもよいのだが，区切られた単語リストを以下のボックスに入力し，"Frequency Sort Go!" をクリックする．出力結果を頻度順位の高い順にソートする場合には，"sort by rank?" をオンにする（デフォルトでオン．オフにすると，入力順に出力される）．例えば，現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである（複合語，二重複数，[2011-04-01-1]で話題にした sister(e)n は除く）．これをコピーしてボックスに入力する．

foot, goose, louse, man, mouse, tooth, woman

　まず，BNC lemma-pos list による出力だが，この頻度表は約1億語の BNC 全体から，頻度にして800回以上現われる，上位6318位までの見出し語 ( lemma ) を収録している．したがって，それよりも頻度の下回る goose, louse については空欄となっている．頻度と不規則性の相関関係を考える際に参考になるだろう．
　次に，ANC word-tagset list による出力が続くが，この頻度表は BNC のものよりも規模が大きく，かつきめ細かい．合計22,164,985語を有する ANC (American National Corpus) から，Penn Treebank Tagset によってクラス付与された単位で語形が列挙されたリストである．タグセットが細かいので読みにくいし，自動タグ付与に起因するエラーも少なからず含まれているが，BNC のものよりも低頻度の語（形）を収録しているので，goose や louse の頻度情報も現われる．こちらの頻度表では WORD FORM ごとの頻度も確認できるため，直接 geese や lice の頻度も確かめられる．
　当初 Frequency Sorter の用途として想定していたのは，上記の不規則複数形を示す語群などの頻度と順位の一括調査だったが，他にも用途はあるかもしれない．以下に，思いつきをメモ．

　・ 1単語から使えるので，like のような多品詞語を入力して，品詞（あるいはタグ付与されたクラス）ごとの頻度を取り出せる．
　・ヒット数だけを確認したい場合には，いちいちコーパスを立ち上げる必要がない．
　・論文やプレゼンで，ある目的で集めた数百語の単語リストの中から典型的な例，分かりやすい例を10個ほど示したいときなど，頻度の高い10個を選べばよい．例えば，[2011-03-29-1]で列挙した sur- を接頭辞にもつ単語リストのうち，例示に最もふさわしい10個を選ぶなどの目的に．頻度に基づいた順番のほうが，ランダム順やアルファベット順よりも親切なことが多いだろう（今後，本ブログ執筆に活用する予定）．
　・英米それぞれの代表的なコーパスに基づく頻度表を利用しているので，綴字や形態などの頻度の英米差を確認するのに使える．
　・（実際には lemmatisation が必要だが）適当な英文を放り込んでみて，妙に頻度の低い語が含まれていないかを調べる．頻度のツールなので，その他，教育・学習目的にいろいろと使えるかもしれない．

Referrer (Inside): [2014-01-21-1] [2013-03-21-1] [2013-03-09-1] [2012-12-09-1] [2012-12-08-1] [2012-07-14-1]

	BNC_Male_Speakers	BNC_Female_Speakers
new	149	91
good	408	310
free	173	75
fresh	84	118
delicious	12	34
full	210	107
sure	532	328
clean	197	223
wonderful	270	258
special	177	82
crisp	10	16
fine	347	215
big	470	415
great	203	96
real	163	80
easy	326	157
bright	113	110
extra	347	203
safe	182	92
rich	120	45
#--------
corpus_size	4949938	3290569

Category	No. of words	No. of hits	Dispersion (over files)	Frequency per million words
Spoken	10,409,858	579	63/908	55.62
Written	87,903,571	743	172/3,140	8.45
total	98,313,429	1,322	235/4,048	13.45

	Corpus 1	Corpus 2	Total
Frequency of word	a	b	a+b
Frequency of other words	c-a	d-b	c+d-a-b
Total	c	d	c+d

POEM	LENGTH	VERSE TYPE	FORMULA RATE
Lai le freine	340 lines	couplet	10%
Sir Landeval	500	couplet	11
Sir Launfal	1044	tail-rhyme	16
King Horn	1644	couplet	18
Sir Degare	1076	couplet	21
Havelok	2822	couplet	21
Sir Isumbras	804	tail-rhyme	22
Sir Amadace	864	tail-rhyme	22
Sir Perceval	2288	tail-rhyme	22
Horn Child	1138	tail-rhyme	24
Roswall and Lillian	885	couplet	25
Ocatvian (southern)	1962	tail-rhyme	25
Sir Triamour	1719	tail-rhyme	25
Earl of Toulous	1224	tail-rhyme	26
Ywain and Gawayn	4032	couplet	27
Sir Eglamour	1377	tail-rhyme	29
Squyr of Lowe Degre	1131	couplet	30
Lebeaus Desconus	2131	tail-rhyme	30
Sir Torrent	2669	tail-rhyme	31
Bevis of Hampton	4332	couplet	34
Eger and Grime	1474	couplet	35
Sir Degrevant	1920	tail-rhyme	38
Octavian (northern)	1731	tail-rhyme	39
Floris and Blancheflur	1083	couplet	41
Emare	1030	tail-rhyme	42

able	covetous	gracious	pertinent	simple
abundant	coy	hardy	plain	single
active	cruel	hasty	pliant	sober
actual	curious	honest	poor	solid
amiable	debonair	horrible	precious	special
amorous	double	innocent	principal	stable
barren	eager	jolly	probable	stout
blank	easy	large	proper	strange
brief	faint	liberal	pure	sturdy
calm	feeble	luxurious	quaint	subtle
certain	fierce	malicious	real	sudden
chaste	final	mean	rude	supple
chief	firm	moist	safe	sure
clear	foreign	natural	sage	tender
common	frail	nice	savage	treacherous
contrary	frank	obedient	scarce	universal
courageous	gay	original	second	usual
courteous	gentle	perfect	secret

English	78.1%
French	15.2
Latin	3.1
Danish	2.4
Other (Greek, Dutch, Italian, Spanish, German, etc.)	1.3

statistics - hellog～英語史ブログ

■ #708. Frequency Sorter CGI [corpus][bnc][statistics][web_service][cgi][lexicology][plural]

■ #697. Log-Likelihood Tester CGI [corpus][bnc][statistics][web_service][cgi][lltest][sociolinguistics]

■ #696. Log-Likelihood Test [corpus][bnc][statistics][lltest]

■ #670. 中英語ロマンスにおける formula の割合 [literature][romance][statistics][formula]

■ #667. COCA 最頻50万語で品詞別の割合は？ [lexicology][corpus][french][loan_word][adjective][statistics][coca]

■ #666. COCA 最頻5000語で品詞別の割合は？ [lexicology][corpus][statistics][n-gram][coca]

■ #660. 中英語のフランス借用語の形容詞比率 [french][loan_word][adjective][statistics]

■ #642. OED の引用データをコーパスとして使えるか (4) [oed][corpus][statistics]

■ #617. 近代英語期以前の専門5分野の語彙の通時分布 [scientific_english][lexicology][oed][statistics]

■ #616. 近代英語期の科学語彙の爆発 [scientific_english][lexicology][oed][statistics]

■ #613. Academic Word List に含まれる本来語の割合 [lexicology][loan_word][statistics][academic_word_list]

■ #607. Google Books Ngram Viewer [corpus][web_service][ame_bre][google_books][n-gram][statistics][frequency][lexicology]

■ #594. 近代英語以降のフランス借用語の特徴 [loan_word][french][statistics][history]

■ #536. OED の引用データをコーパスとして使えるか (3) [oed][corpus][statistics]

■ #527. 不規則変化動詞の規則化の速度は頻度指標の2乗に反比例する? [verb][conjugation][statistics][lexical_diffusion][speed_of_change][frequency]

■ #503. 現代英語の綴字は規則的か不規則的か [spelling_pronunciation_gap][statistics]

■ #497. 5分で分かる英語の歴史と統計 [link][statistics][reestablishment_of_english][dictionary][elf]

■ #486. 迂言的 do の発達 [emode][syntax][statistics][do-periphrasis]

■ #450. 現代英語に受け継がれた古英語の語彙はどのくらいあるか [oe][pde][lexicology][statistics][semantic_change]

■ #429. 現代英語の最頻語彙10000語の起源と割合 [loan_word][lexicology][statistics][pde]