#913. BNC による語彙の男女差の調査

2011-10-27

　標題の話題を扱った Rayson et al. の論文を読んだ．BNC の中で，人口統計的な基準で分類された，話し言葉を収録したサブコーパス（総語数4,552,555語）を対象として，語彙の男女差，年齢差，社会的地位による差を明らかにしようとした研究である．これらの要因のなかで，語彙的変異が統計的に最も強く現われたのは性による差だったということなので，本記事ではその結果を紹介したい．
　まず，以下に挙げる数値の解釈には前提知識が必要なので，それに触れておく．BNC に収録された話し言葉は志願者に2日間の自然な会話を Walkman に吹き込んでもらった上で，それを書き起こしたものであり，その志願者の内訳は男性73名，女性75名である．会話に登場する志願者以外の話者についても，女性のほうが多い．したがって，当該サブコーパスへの参加率でいえば，全体として女性が男性よりも高くなることは不思議ではない．
　しかし，その前提を踏まえた上でも，全体として女性のほうがよく話すということを示唆する数値が出た．使用された word token 数でいえば，男性を1.00とすると女性が1.51，会話の占有率では，男性を1.00とすると女性は1.33だった．男女混合の会話では男性のほうが高い会話占有率を示すとする先行研究があるが，BNC のサブコーパスでは女性同士の会話が多かったということが，上記の結果の背景にあるのかもしれない．いずれにせよ，興味深い数値であることは間違いない．
　次に，より細かく語彙における男女差を見てみよう．男女差の度合いの高いキーワードを抜き出す手法は，原理としては[2010-03-10-1], [2010-09-27-1], [2011-09-24-1]の記事で紹介したのと同じ手法である．男性コーパスと女性コーパスを区別し，それぞれから作られた語彙頻度表を突き合わせて統計的に処理し，カイ二乗値 (χ²) の高い順に並び替えればよい．以下は，上位25位までの一覧である (136--37) ．

Rank Characteristically male Characteristically female

Word χ² Word χ²

1 fucking 1233.1 she 3109.7

2 er 945.4 her 965.4

3 the 698.0 said 872.0

4 year 310.3 n't 443.9

5 aye 291.8 I 357.9

6 right 276.0 and 245.3

7 hundred 251.1 to 198.6

8 fuck 239.0 cos 194.6

9 is 233.3 oh 170.2

10 of 203.6 Christmas 163.9

11 two 170.3 thought 159.7

12 three 168.2 lovely 140.3

13 a 151.6 nice 134.4

14 four 145.5 mm 133.8

15 ah 143.6 had 125.9

16 no 140.8 did 109.6

17 number 133.9 going 109.0

18 quid 124.2 because 105.0

19 one 123.6 him 99.2

20 mate 120.8 really 97.6

21 which 120.5 school 96.3

22 okay 119.9 he 90.4

23 that 114.2 think 88.8

24 guy 108.6 home 84.0

25 da 105.3 me 83.5

　必ずしもこの25位までの表からだけでは読み取れないが，Rayson et al. (138--40) によれば以下の点が注目に値するという．

　・ "four-letter words"，数詞，特定の間投詞は男性に特徴的である (ex. shit, hell, crap; hundred, one, three, two, four; er, yeah, aye, okay, ah, eh, hmm)
　・女性人称代名詞，1人称代名詞，特定の間投詞は女性に特徴的である (ex. she, her, hers; I, me, my, mine; yes, mm, really) （男性代名詞の使用には特に男女差はない）
　・ the や of の使用は男性に多い（男性に一般名詞を用いた名詞句の使用が多いという別の事実と関連するか？）
　・固有名詞，代名詞，動詞は女性に多い（男性の事実描写 "report" の傾向に対する女性の関係構築 "rapport" の傾向の現われか？）
　・固有名詞のなかでも，人名は女性の使用が多く，地名は男性の使用が多い．

　他のコーパスによる検証が必要だろうが，この結果と解釈に興味深い含蓄があることは確かである．
　キーワードの統計処理と関連して，コーパス言語学でカイ二乗検定の代用として広く使用されるようになってきた Log-Likelihood 検定については，自作の Log-Likelihood Tester, Ver. 1 や Log-Likelihood Tester, Ver. 2 を参照．

　・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

Referrer (Inside): [2015-05-22-1] [2014-07-25-1] [2014-07-15-1] [2013-01-17-1] [2011-10-29-1] [2011-10-28-1]

[ ツイート | 固定リンク | 印刷用ページ ]

Rank	Characteristically male		Characteristically female
Rank	Word	χ²	Word	χ²
1	fucking	1233.1	she	3109.7
2	er	945.4	her	965.4
3	the	698.0	said	872.0
4	year	310.3	n't	443.9
5	aye	291.8	I	357.9
6	right	276.0	and	245.3
7	hundred	251.1	to	198.6
8	fuck	239.0	cos	194.6
9	is	233.3	oh	170.2
10	of	203.6	Christmas	163.9
11	two	170.3	thought	159.7
12	three	168.2	lovely	140.3
13	a	151.6	nice	134.4
14	four	145.5	mm	133.8
15	ah	143.6	had	125.9
16	no	140.8	did	109.6
17	number	133.9	going	109.0
18	quid	124.2	because	105.0
19	one	123.6	him	99.2
20	mate	120.8	really	97.6
21	which	120.5	school	96.3
22	okay	119.9	he	90.4
23	that	114.2	think	88.8
24	guy	108.6	home	84.0
25	da	105.3	me	83.5

#913. BNC による語彙の男女差の調査[bnc][corpus][statistics][lltest][interjection][gender_difference]