標題の話題を扱った Rayson et al. の論文を読んだ.BNC の中で,人口統計的な基準で分類された,話し言葉を収録したサブコーパス(総語数4,552,555語)を対象として,語彙の男女差,年齢差,社会的地位による差を明らかにしようとした研究である.これらの要因のなかで,語彙的変異が統計的に最も強く現われたのは性による差だったということなので,本記事ではその結果を紹介したい.
まず,以下に挙げる数値の解釈には前提知識が必要なので,それに触れておく.BNC に収録された話し言葉は志願者に2日間の自然な会話を Walkman に吹き込んでもらった上で,それを書き起こしたものであり,その志願者の内訳は男性73名,女性75名である.会話に登場する志願者以外の話者についても,女性のほうが多い.したがって,当該サブコーパスへの参加率でいえば,全体として女性が男性よりも高くなることは不思議ではない.
しかし,その前提を踏まえた上でも,全体として女性のほうがよく話すということを示唆する数値が出た.使用された word token 数でいえば,男性を1.00とすると女性が1.51,会話の占有率では,男性を1.00とすると女性は1.33だった.男女混合の会話では男性のほうが高い会話占有率を示すとする先行研究があるが,BNC のサブコーパスでは女性同士の会話が多かったということが,上記の結果の背景にあるのかもしれない.いずれにせよ,興味深い数値であることは間違いない.
次に,より細かく語彙における男女差を見てみよう.男女差の度合いの高いキーワードを抜き出す手法は,原理としては[2010-03-10-1], [2010-09-27-1], [2011-09-24-1]の記事で紹介したのと同じ手法である.男性コーパスと女性コーパスを区別し,それぞれから作られた語彙頻度表を突き合わせて統計的に処理し,カイ二乗値 (χ2) の高い順に並び替えればよい.以下は,上位25位までの一覧である (136--37) .
Rank | Characteristically male | Characteristically female | ||
Word | χ2 | Word | χ2 | |
1 | fucking | 1233.1 | she | 3109.7 |
2 | er | 945.4 | her | 965.4 |
3 | the | 698.0 | said | 872.0 |
4 | year | 310.3 | n't | 443.9 |
5 | aye | 291.8 | I | 357.9 |
6 | right | 276.0 | and | 245.3 |
7 | hundred | 251.1 | to | 198.6 |
8 | fuck | 239.0 | cos | 194.6 |
9 | is | 233.3 | oh | 170.2 |
10 | of | 203.6 | Christmas | 163.9 |
11 | two | 170.3 | thought | 159.7 |
12 | three | 168.2 | lovely | 140.3 |
13 | a | 151.6 | nice | 134.4 |
14 | four | 145.5 | mm | 133.8 |
15 | ah | 143.6 | had | 125.9 |
16 | no | 140.8 | did | 109.6 |
17 | number | 133.9 | going | 109.0 |
18 | quid | 124.2 | because | 105.0 |
19 | one | 123.6 | him | 99.2 |
20 | mate | 120.8 | really | 97.6 |
21 | which | 120.5 | school | 96.3 |
22 | okay | 119.9 | he | 90.4 |
23 | that | 114.2 | think | 88.8 |
24 | guy | 108.6 | home | 84.0 |
25 | da | 105.3 | me | 83.5 |
Powered by WinChalow1.0rc4 based on chalow