frequency / hellog～英語史ブログ

最終更新時間: 2026-02-06 10:29

2014-01-30 Thu

■ #1739. AmE-BrE Diachronic Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][representativeness]

　「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で，2006年前後の書き言葉テキストを編纂した英米各変種コーパスを紹介し，それに基づいた頻度比較ツールを作成・公開した．そのツールを作成しながら気づいたのだが，同じ方法で編纂され，規模も同じく100万語程度の the Brown family of corpora （「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])）と連携させれば，直近50年間ほどの通時的な英米間頻度比較が容易に可能となる．
　そこで，前の記事で紹介した Professor Paul Baker - Linguistics and English Language at Lancaster University による AmE06 と BrE06 に加えて，書き言葉アメリカ英語を代表する Brown (1961), Frown (1992)，書き言葉イギリス英語を代表する LOB (1961), FLOB (1991) より語形頻度表を抽出し，合わせてデータベース化した．利用の仕方は，AmE-BrE 2006 Frequency Comparer とほぼ同じなので，そちらの取説 ([2014-01-21-1]) を参照されたい．ただし，出力される表では，問題の語形が出現するテキストの数や頻度順位は省いており，純粋に約100万語当たりの頻度を表示するにとどめているので，AmE06 と BE06 について前者の情報が必要な場合には，AmE-BrE 2006 Frequency Comparer をどうぞ．

　例えば，^movies?$ と入力してみると，伝統的にアメリカ英語的とされてきたこの語の分布が，過去50年ほどの間に，イギリス英語にも浸透してきている様子がわかる．
　英米差の通時的な変化を調査したいのであれば，単語だけではなく語句も受けつけ，かつ規模も巨大な「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) のほうが簡便だろう．しかし，今回のツールは，the Brown family of corpora をベースにしているがゆえに，(1) 均衡かつ比較可能であり，(2) 「素性」がわかっている（再現可能性が確保されている）という利点があることは指摘しておきたい．望ましいのは，小型できめ細かなコーパスと，大型で傾向を大づかみにするコーパスとを上手に連携させることだろう．

Referrer (Inside): [2017-04-21-1] [2015-04-22-1] [2015-01-19-1] [2014-02-14-1] [2014-02-03-1]

evil	→	worse	→	worse, more evil	→	more evil
bad	→	badder	→	worse, badder	→	worse

Rank	Syllable	Frequency
1	eI	72971
2	Di:	60967
3	tu:	31446
4	Ov	30108
5	In	29906
6	&nd	28709
7	aI	23822
8	lI	19728
9	@	19566
10	rI	14356
11	ju:	12598
12	dI	12465
13	D&t	12118
14	It	11504
15	wOz	10834
16	fO:r*	9778
17	Iz	9517
18	tI	9161
19	fO	9042
20	Sn,	8969
21	hi:	8928
22	r@n	8638
23	bi:	8505
24	bI	7936
25	nI	7068
26	wID	7046
27	On	7030
28	&z	6919
29	O:l	6569
30	h&d	6240
31	E	6165
32	bl,	6021
33	sI	5836
34	@U	5824
35	t@r*	5687
36	&t	5652
37	hIz	5564
38	bVt	5416
39	mI	5397
40	s@	5391
41	nOt	5357
42	D@r*	5339
43	I	5283
44	tId	5259
45	DeI	5162
46	IN	5063
47	t@	5053
48	s@U	4974
49	baI	4894
50	h&v	4769

(* = 5%; ~ = less than 2.5%)		CONV	FICT	NEWS	ACAD
independent clause	wh-question	****	*******	*********	**********
	yes/no-question	*****	*****	*******	*******
	alternative question	~	~	~	~
	declarative question	**	*	~	~
fragments	wh-question	*	**	**	*
fragments	other	***	***	*	*
tag	positive	*	~	~	~
tag	negative	****	*	~	~

	BrE /ruːm/	BrE /rʊm/	AmE /ruːm/	AmE /rʊm/
room	81%	19	93	7
bedroom	63	37	-	-
broom	92	8	-	-

	not/n't	other negative forms
CONV	19500	2500
FICT	9500	4000
NEWS	4500	2000
ACAD	3500	1500

frequency - hellog～英語史ブログ

■ #1739. AmE-BrE Diachronic Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][representativeness]

■ #1730. AmE-BrE 2006 Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][spelling]

■ #1580. 補充法研究の限界と可能性 [suppletion][analogy][arbitrariness][frequency][taboo][preterite-present_verb]

■ #1440. 音節頻度ランキング [syllable][corpus][lexicon][phonetics][frequency][statistics]

■ #1424. CELEX2 [corpus][dictionary][statistics][frequency][lexicology]

■ #1353. 後舌高母音の長短 [pronunciation][phonetics][spelling][vowel][phoneme][frequency][variation]

■ #1346. 付加疑問はどのくらいよく使われるか？ [interrogative][tag_question][ame_bre][corpus][frequency][statistics]

■ #1325. 会話で否定形が多い理由 [corpus][negative][frequency]

■ #1322. ANC Frequency Extractor [cgi][web_service][frequency][corpus][anc]

■ #1321. BNC Frequency Extractor [cgi][web_service][frequency][corpus][bnc]

■ #1287. 動詞の強弱移行と頻度 [frequency][analogy][verb][conjugation][lexical_diffusion][statistics]

■ #1286. 形態音韻変化の異なる源 [phonetics][frequency][causation][neogrammarian][analogy][verb][conjugation][lexical_diffusion]

■ #1265. 語の頻度と音韻変化の順序の関係に気づいていた Schuchardt [frequency][lexical_diffusion][history_of_linguistics][analogy][creole][neogrammarian]

■ #1243. 語の頻度を考慮する通時的研究のために [frequency][corpus][representativeness]

■ #1242. -ate 動詞の強勢移行 [frequency][lexical_diffusion][stress][suffix][-ate]

■ #1239. Frequency Actuation Hypothesis [frequency][phonetics][language_change][lexical_diffusion][stress][diatone][-ate]

■ #1227. 情報理論と意味作用 [information_theory][frequency][sign][semantics]

■ #1159. MRC Psycholinguistic Database Search [cgi][web_service][lexicology][frequency][statistics]

■ #1158. MRC Psycholinguistic Database [web_service][lexicology][frequency][statistics]

■ #1103. GSL による Zipf's law の検証 [lexicology][statistics][frequency][zipfs_law][corpus]