hellog～英語史ブログ前の日次の日最新 helhub (The HEL Hub) 2011-03 検索ページへランダム表示

hellog～英語史ブログ / 2011-03-24

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2011-03-24 Thu

■ #696. Log-Likelihood Test [corpus][bnc][statistics][lltest]

　[2010-03-04-1]の記事で触れたが，コーパス言語学では各種の統計手法が用いられる．いくつかある手法のなかでも，ある表現のコーパス間の頻度を比較したり，collocation の度合いを測るのに広く用いられているのが Log-Likelihood Test ( LL Test, G Test, G² Test などとも）呼ばれる検定である．コーパスサイズを考慮に入れた検定なのでサイズの異なるコーパス間での比較が可能であり，同じ目的で以前によく用いられていたカイ2乗検定 ( Chi-Squared Test ) よりもいくつかの点ですぐれた手法と評価されており，最近のコーパス研究では広く用いられている．（例えば，カイ2乗検定は期待頻度が5回より少ないとき，高頻度語を扱うとき，コーパスサイズが大きいものと小さいものを比較するときに信頼性が低くなるが，Log-Likelihood Test はこれらの影響を受けにくい [ Rayson and Garside 2 ] ．）
　Log-Likelihood Test の基本的な考え方は，コーパスサイズをもとにある表現の期待される出現頻度（期待頻度）を割り出し，その値と実際に出現する頻度（観察頻度）の差が単純な誤差と考えられるほどに近似しているかどうかを判定するというものである．例として，次のようなケース・スタディを試す．BNC ( The British National Corpus ) から話し言葉サブコーパスと書き言葉サブコーパスを区別し，両サブコーパス間で f*ck という four-letter word の頻度を比較する．BNCweb よりこのキーワードを検索すると，次のような結果が得られた．

Category No. of words No. of hits Dispersion (over files) Frequency per million words

Spoken 10,409,858 579 63/908 55.62

Written 87,903,571 743 172/3,140 8.45

total 98,313,429 1,322 235/4,048 13.45

　統計処理をほどこすまでもなく最右列 "Frequency per million words" を見れば，f*ck が圧倒的に話し言葉で多く用いられることが分かるが，今回はこれを統計的に裏付ける．まず，帰無仮説として「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内であり，この語に関して両者に意味のある差はない」を設定する．その対立仮説は「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内でなく，この語に関して両者の差は意味がある」となる．帰無仮説が支持されるかどうかを決めるのが，検定の目的である．

Corpus 1 Corpus 2 Total

Frequency of word a b a+b

Frequency of other words c-a d-b c+d-a-b

Total c d c+d

　Log-Likelihood Test に用いる Log-Likelihood ratio 「対数尤度比」は，上の表の要領で各サブコーパスの総語数 ( c, d ) と，各サブコーパスでの f*ck の頻度数 ( a, b ) を分割表にまとめた上で，それぞれの期待頻度 E1 と E2 を下の (1) の式で求め，その値を (2) の式に代入して求める．

　(1) E1 = c*(a+b)/(c+d); E2 = d*(a+b)/(c+d)
　(2) LL = 2*((a*log(a/E1))+(b*log(b/E2)))

　f*ck の数値で計算すると，以下のようになる．

　E1 = 10409858*(579+743)/(10409858+87903571) = 139.979170861796
　E2 = 87903571*(579+743)/(10409858+87903571) = 1182.0208291382
　LL = 2*((579*log(579/139.979170861796))+(743*log(743/1182.0208291382))) = 954.2115

　Log-likelihood ratio として 954.2115 という値が算出される．次にこの値を，適切な有意水準（通常は 5%, 1%, 0.1%）に対応するカイ二乗値と比較する．2 * 2 の分割表に対する計算では自由度1のカイ二乗値を用いることになっており，その値は有意水準 5%, 1%, 0.1% の順にそれぞれ 3.84, 6.63, 10.83 である．954.2115 の Log-Likelihood ratio は有意水準 0.1% に対応する 10.83 よりもずっと高いので，0.1% の有意水準で帰無仮説は棄却される．言い換えれば，統計的には帰無仮説が真である確率は 0.1% にも満たず，まず偽と考えてよいということである．このようにして対立仮説「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内でなく，この語に関して両者の差は意味がある」が採択されることになる．
　Log-Likelihood Test は以上のように進められるが，この検定を行なうにあたっての前提条件を知っておく必要がある．一般には，計算される期待頻度が 5 を下回るセルが1つでもある場合には，検定の精度は落ちるとされる．これは the Cochran rule と呼ばれているが，よりきめ細かなルールを提起した Rayson, Berridge, and Francis (8) によれば，期待頻度が満たすべき最低値は有意水準 5% で13 回，1% で 11 回，0.1% で 8 回だという．有意水準を 0.01% に設定すれば期待頻度 1 回にも耐える精度を得られるので，Rayson et al. はコーパス言語学で慣習的に用いられている3つの水準に加えて，0.01% の水準（対応するカイ二乗値は 15.13 ）までの検定を推奨している．
　統計には詳しくないが，ある表現の 2（サブ）コーパス間での頻度比較というシーンで簡単に用いることができる検定として，Log-Likelihood Test の応用範囲は広そうだ．計算自体は Rayson 氏の Log-likelihood calculator などに任せればよい（本記事はこのページの記述とリンク先の論文を参考にした）．
　BNC を用いた f*ck 関連語の分布の研究は，McEnery et al. (264--86) のケース・スタディに詳しい．
　関連して，検定は行なわなかったが，かつて本ブログで扱った gorgeous の調査 ([2010-08-16-1], [2010-08-17-1],[2010-12-25-1]) なども参照．

　・ Rayson, P., D. Berridge , and B. Francis. "Extending the Cochran Rule for the Comparison of Word Frequencies between Corpora." Le poids des mots: Proceedings of the 7th International Conference on Statistical Analysis of Textual Data (JADT 2004), Louvain-la-Neuve, Belgium, March 10-12, 2004. Ed. Purnelle G., Fairon C., and Dister A. Louvain: Presses universitaires de Louvain, 2004. 926--36. Available online at http://www.comp.lancs.ac.uk/computing/users/paul/publications/rbf04_jadt.pdf .
　・ Rayson, P. and R. Garside. "Comparing Corpora Using Frequency Profiling". Proceedings of the Workshop on Comparing Corpora, Held in Conjunction with the 38th Annual Meeting of the Association for Computational Linguistics (ACL 2000), 1-8 October 2000, Hong Kong. 2000. 1--6. Available online at http://www.comp.lancs.ac.uk/computing/users/paul/phd/phd2003.pdf .
　・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

Category	No. of words	No. of hits	Dispersion (over files)	Frequency per million words
Spoken	10,409,858	579	63/908	55.62
Written	87,903,571	743	172/3,140	8.45
total	98,313,429	1,322	235/4,048	13.45

	Corpus 1	Corpus 2	Total
Frequency of word	a	b	a+b
Frequency of other words	c-a	d-b	c+d-a-b
Total	c	d	c+d

Referrer (Inside): [2020-03-13-1] [2011-04-08-1] [2011-03-25-1]

[ 固定リンク | 印刷用ページ ]

最終更新時間: 2026-06-26 03:46