hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 次ページ / page 6 (9)

statistics - hellog〜英語史ブログ

最終更新時間: 2024-12-22 08:43

2012-08-22 Wed

#1213. 間接目的語の位置の固定化の歴史 [word_order][syntax][lexical_diffusion][statistics]

 [2009-09-06-1]の記事「#132. 古英語から中英語への語順の発達過程」で取り上げた Fries の調査は,英語の語順の発達に関する重要な研究である.先の記事では,動詞に対する直接目的語の相対的な位置に関する通時的推移のみを取り上げたが,Fries はほかにも直接目的語や動詞に対する間接目的語の相対的な位置や,被修飾名詞に対する形容詞や属格名詞の相対的な位置をも対象としている.今回は前者について紹介する.
 古英語からは,900--1000年の範囲のコーパスより2558例を集めた F. C. Cassidy の調査結果を参照している.間接目的語と直接目的語の位置関係について,前者が名詞か代名詞か両者を含むかにより,次の統計値を得た (202) .

OE Corpus (900--1000)Dative-object before acc-obj.Dative-object after acc-obj.
Nouns249 (64.0%)140 (36.0%)
Pronouns674 (82.8%)141 (17.2%)
Both together923 (76.6%)281 (23.3%)


 全体として間接目的語の前置される傾向が目立ち,とりわけ代名詞の場合には,それが著しい.この傾向は,c1200年の初期中英語コーパスにおいても際立っており(約8割が前置),かなり早い時期から明確なパターンだったことがわかる.
 間接目的語と動詞の位置関係については,古英語および初期中英語のコーパスから次の結果を得た (202) .

OE Corpus (900--1000)Dative-object before the verbDative-object after the verb
Nouns95 (27.6%)249 (72.4%)
Pronouns495 (48.7%)518 (51.3%)
Both together587 (43.4%)767 (56.6%)
EME Corpus (c1200)Dative-object before the verbDative-object after the verb
Nouns26 (23.0%)88 (77.0%)
Pronouns218 (43.0%)288 (57.0%)
Both together244 (39.4%)376 (60.6%)


 古英語では必ずしも明確な傾向を示すわけではないが,動詞の後位置のほうが優勢である.この傾向は,初期中英語で拡大されてゆく.
 上に述べた間接目的語の相対的位置の傾向は後期中英語にかけて強化され,現代英語に見られるような「動詞の後,直接目的語の前」という規則が15世紀後半までに確立していった (203) .

 ・ Fries, Charles C. "On the Development of the Structural Use of Word-Order in Modern English." Language 16 (1940): 199--208.

Referrer (Inside): [2012-08-23-1]

[ 固定リンク | 印刷用ページ ]

2012-08-20 Mon

#1211. 中英語のラテン借用語の一覧 [latin][loan_word][lexicology][me][wycliffe][bible][statistics]

 昨日の記事「#1210. 中英語のフランス借用語の一覧」 ([2012-08-19-1]) に続いて,今回は中英語に借用されたラテン語の一覧を掲げたい.「#120. 意外と多かった中英語期のラテン借用語」 ([2009-08-25-1]) でも57語からなる簡単な一覧を示したが,Baugh and Cable (185) を参照して,もう少し長い123語の一覧とした.むろん網羅的ではなくサンプルにすぎない.
 中英語期には,ラテン語は14--15世紀を中心に千数百語ほどが借用されたといわれる.教会関係者や学者を通じて,話し言葉から入ったものもあるが,主として文献から入ったものである.ラテン語から英語への翻訳に際して原語を用いたという背景があり,Wycliffe とその周辺による聖書翻訳が典型例だが,Bartholomew Anglicus による De Proprietatibus Rerum を Trevisa が英訳した際にも数百語のラテン語が入ったという事例がある (Baugh and Cable 184) .

abject, actor, adjacent, adoption, allegory, ambitious, ceremony, client, comet, conflict, conspiracy, contempt, conviction, custody, depression, desk, dial, diaphragm, digit, distract, equal, equator, equivalent, exclude, executor, explanation, formal, frustrate, genius, gesture, gloria, hepatic, history, homicide, immune, impediment, implement, implication, incarnate, include, incredible, incubus, incumbent, index, individual, infancy, inferior, infinite, innate, innumerable, intellect, intercept, interrupt, item, juniper, lapidary, lector, legal, legitimate, library, limbo, lucrative, lunatic, magnify, malefactor, mechanical, mediator, minor, missal, moderate, necessary, nervous, notary, ornate, picture, polite, popular, prevent, private, project, promote, prosecute, prosody, pulpit, quiet, rational, recipe, reject, remit, reprehend, requiem, rosary, saliva, scribe, script, scripture, scrutiny, secular, solar, solitary, spacious, stupor, subdivide, subjugate, submit, subordinate, subscribe, substitute, summary, superabundance, supplicate, suppress, temperate, temporal, testify, testimony, tincture, tract, tradition, tributary, ulcer, zenith, zephyr


 なお,赤字で示した語は,現代英語の頻度順位で1000位以内に入る高頻度語である(Frequency Sorter より).ラテン借用語に意外と身近な側面があることがわかるだろう.

 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.

[ 固定リンク | 印刷用ページ ]

2012-08-18 Sat

#1209. 1250年を境とするフランス借用語の区分 [french][loan_word][me][norman_french][lexicology][statistics][bilingualism]

 英語におけるフランス借用語の話題は,french loan_word などの多くの記事で扱ってきた.特に中英語期にフランス借用語が大量に借用された経緯とその借用の速度について,「#117. フランス借用語の年代別分布」 ([2009-08-22-1]) 及び「#1205. 英語の復権期にフランス借用語が爆発したのはなぜか」 ([2012-08-14-1]) で記述した.借用の速度でみると,13世紀の著しい伸びがフランス語借用史の1つの転換点となっているが,この前後ではフランス語借用について何がどう異なっているのだろうか.Baugh and Cable (168--69) により,それぞれの時代の特徴を概説しよう.
 ノルマン・コンクェストから1250年までのフランス借用語は,(1) およそ900語と数が少なく,(2) Anglo-Norman の音韻特徴を示す傾向が強く,(3) 下流階級の人々が貴族階級との接触を通じて知るようになった語彙,とりわけ位階,文学,教会に関連する語彙が多い.例としては,baron, noble, dame, servant, messenger, feast, minstrel, juggler, largess; story, rime, lay, douzepers など.
 一方,1250年以降のフランス借用語の特徴は次の通り.(1) 1250--1400年に爆発期を迎え,この1世紀半のあいだに英語史における全フランス借用語の4割が流入した.なお,中英語期に限れば1万語を超える語が英語に流れ込み,そのうちの75%が現在にまで残る (Baugh and Cable 178) .(2) フランス語に多少なりとも慣れ親しんだ上流階級が母語を英語へ切り替える (language shift) 際に持ち込んだとおぼしき種類の語彙が多い.彼らは,英語本来語の語彙では満足に表現できない概念に対してフランス語を用いたこともあったろうし,英語の習熟度が低いためにフランス語で代用するということもあったろうし,慣れ親しんだフランス語による用語を使い続けたということもあったろう.(3) 具体的には政治・行政,教会,法律,軍事,流行,食物,社会生活,芸術,学問,医学の分野の語彙が多いが,このような区分に馴染まないほどに一般的で卑近な語彙も多く借用されている.
 要約すれば,1250年を境とする前後の時代は,誰がどのような動機でフランス語を借用したかという点において対照的であるということだ.Baugh and Cable (169) は,鮮やかに要約している.

In general we may say that in the earlier Middle English period the French words introduced into English were such as people speaking one language often learn from those speaking another; in the century and a half following 1250, when all classes were speaking or learning to speak English, they were also such words as people who had been accustomed to speak French would carry over with them into the language of their adoption. Only in this way can we understand the nature and extent of the French importations in this period.


 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.

[ 固定リンク | 印刷用ページ ]

2012-08-11 Sat

#1202. 現代英語の語彙の起源と割合 (2) [lexicology][loan_word][statistics][old_norse]

 [2011-08-20-1]の記事「#845. 現代英語の語彙の起源と割合」で,現代英語の最頻語を借用元言語別に分別した統計値を紹介した.このような語彙統計は,何を資料に使ったか,どのような方法で調査したかなどによって結果が変動しがちであるため,複数の調査結果を照らし合わせて評価するのがよい.Schmitt and Marsden (82) は,Bird による調査結果の統計値を与えている.これをグラフ化してみた.(数値データは,HTMLソースを参照.)

Sources of the most frequent 7,476 words of English

 続けて Schmitt and Marsden (83) は,英語本来語のみで構成された印象深い1節を紹介している.

But with all its manifold new words from other tongues, English could never have become anything but English. And as such it has sent out to the world, among many other things, some of the best books the world has ever known. It is not unlikely, in the light of writings by Englishmen in earlier times, that this would have been so even if we had never taken any words from outside the word hoard that has come down to us from those times. It is true that what we have borrowed has brought greater wealth to our word stock, but the true Englishness of our mother tongue has in no way been lessened by such loans, as those who speak and write it lovingly will always keep in mind.


 [2010-04-20-1]の記事「#358. アイスランド語と英語の関係」のなかで,"Though they are both weak fellows, she gives them gifts." という北欧単語のみで構成された英文(ただし語源について北欧系かどうか疑わしい語も含まれている)を提示したが,これはさすがに不自然で,強引な文だ.しかし,英語本来語で構成された上の文章は十分に自然だ.
 フランス借用語のみで構成された文章は可能だろうか.可能だとしても,どのくらい自然だろうか.

 ・ Schmitt, Norbert, and Richard Marsden. Why Is English Like That? Ann Arbor, Mich.: U of Michigan P, 2006.

[ 固定リンク | 印刷用ページ ]

2012-07-17 Tue

#1177. EU 仏語の退潮 [french][global_language][elf][statistics]

 7月15日(日)の読売新聞朝刊6面の「ワールドビュー」に標題の記事があった.EU は英仏独の3言語を作業言語に指定しているが,報告書はまず最初に英語で出版されるのが常態となっている.
 第2次世界大戦後の統合欧州の歴史を振り返れば,当初は,英語圏抜きで歩み始めたために,仏語の支配的地位は盤石だった.しかし,英語の急速な世界化に伴い,仏語の相対的な地位は,世紀後半に向けて落ちていった.特に2004年のEU東方拡大では,仏語よりも英語の得意な中東欧諸国など10カ国が一気に加盟したことにより,仏語の退潮に拍車がかかった.欧州委員会翻訳総局によると,1997年に起草された文書のうち,原文が仏語だったものは40.5%であり,英語は45%だった.ところが,2010年には,その比は7%対77%となり,英語の圧倒的優勢が示された.
 最近の欧州財政・金融危機を巡る報道でも,英語メディアの優勢が目立っている.市場への影響力の大きさを考慮したEU官僚が英語メディアに情報を流しているというのが理由のようだ.
 ある言語が世界化すればするほど,周囲の環境がその世界化を後押しするために,スパイラル状に世界化が進行する.上で見た例でいえば,2004年のEU東方拡大や現在のEU財政情勢の報道が,部分的に英語の世界化を後押しする社会的要因となっている.
 ほかに ELF (English as a Lingua Franca) の統計に関しては,statistics elf の各記事を参照.

[ 固定リンク | 印刷用ページ ]

2012-07-01 Sun

#1161. 英語と日本語における語彙の音節数別割合 [lexicology][statistics][syllable][corpus][japanese]

 昨日の記事「#1160. MRC Psychological Database より各種統計を視覚化」 ([2012-06-30-1]) の (3) で,英語語彙を音節数により分別して,それぞれの頻度を出した.それによると,対象となった92767語の語彙全体における1音節語,2音節語,3音節語,4音節語の占める割合は,それぞれ13.46%,35.40%,29.91%,15.26%であり,合わせて94.03%に達する.とりわけ2音節語と3音節語を合わせて65.31%である.9万余という大規模な語彙で調査する限り,英語語彙の3分の2近くは2--3音節語であるということになる.
 一方,##348,349,355 の記事では,BNC や COLT のコーパスを用いて,最も頻度の高い数百語から数千語を対象に音節数調査を行なった.調査対象となる語彙の規模は格段に小さく,それに従って音節数別の割合も変わる.1音節語と2音節語が優勢であり,最大の6000語規模の調査でもこの2種類だけで68.7%を占める(「#349. BNC Word Frequency List による音節数の分布調査 (2)」 ([2010-04-11-1]) のグラフを参照).対象とする語彙規模により,優勢な占有率を示す音節数が変動することがわかるが,全般的に,英語語彙においては1--3音節語が主要であることは間違いないだろう.
 では,日本語の語彙について,音節数別の割合はどうだろうか.加藤ほか (80) では,林大氏による『日本語アクセント辞典』の見出し語形に基づく拍数の分布の調査結果が要約されている.辞典の見出し語形であるから対称語彙は数万語の規模と思われる.以下のような結果が出た.

1拍2拍3拍4拍5拍6拍7拍8拍9拍10拍
0.34.822.738.817.711.03.31.20.20.1100


 割合のピークは4拍語にあり,その前後の3拍語と5拍語を合わせて79.2%,6拍語を加えれば90.2%になる.英語の語彙の主たる構成要素が1--3音節語とすれば,日本語の語彙の主たる構成要素は3--5拍語となる.音節数でみる限り,英単語は相対的に短く,日本語単語は相対的に長いことがよくわかる.
 両言語間の際だった差異は,音韻数の差と音節構造の差に起因するといってよいだろう.音韻数については,[2012-02-12-1]の記事「#1021. 英語と日本語の音素の種類と数」で見たとおり,著しい差がある.また,音節構造については,日本語の音節がほぼ「子音+母音」の1形式だけであるのに対して,英語の音節は,[2012-02-14-1]の記事「#1023. 日本語の拍の種類と数」で示唆したとおり,数万形式がある.
 日本語の語彙は,2拍語を基本としていると考えられる.和語でも漢語でも2±1拍語が多く,語彙の膨張に従って,その結合が増え,結果として4±1拍語が主流となってきた経緯がある.洋語についても,優勢な4拍語に合わせて「マスコミュニケーション」→「マスコミ」,「ハンガーストライキ」→「ハンスト」,「エンジンストップ」→「エンスト」と省略されることが多い.2拍語を基本とした日本語語彙の成立と,その後の発展については,小松 (48--62) が詳しい.

 ・ 加藤 彰彦,佐治 圭三,森田 良行 編 『日本語概説』 おうふう,1989年.
 ・ 小松 秀雄 『日本語の歴史 青信号はなぜアオなのか』 笠間書院,2001年.

[ 固定リンク | 印刷用ページ ]

2012-06-30 Sat

#1160. MRC Psychological Database より各種統計を視覚化 [lexicology][statistics][syllable][corpus]

 [2012-06-28-1], [2012-06-29-1]と連日紹介してきた MRC Psycholinguistic Database に基づいて,4つの英語語彙統計を図示したい.原データファイルの仕様に示されている統計表をもとにグラフを作成しただけだが,別のコーパスに基づいて類似した調査を行なってきたものもあるので,比較に値するだろう.数値データは,HTMLソースを参照.

(1) 文字数による頻度
Word Frequency by Number of Letters in MRC Psychological Database

(2) 音素数による頻度
Word Frequency by Number of Phonemes in MRC Psychological Database

 (参考)
 ・ [2012-02-13-1]: 「#1022. 英語の各音素の生起頻度」

(3) 音節数による頻度
Word Frequency by Number of Syllables in MRC Psychological Database

 (参考)
 ・ [2010-04-09-1]: 「#347. 英単語の平均音節数はどのくらいか?」
 ・ [2010-04-10-1]: 「#348. BNC Word Frequency List による音節数の分布調査」
 ・ [2010-04-11-1]: 「#349. BNC Word Frequency List による音節数の分布調査 (2)」
 ・ [2010-04-17-1]: 「#355. COLT Word Frequency List による音節数の分布調査」

(4) 品詞による頻度
Word Frequency by Syntactic Category in MRC Psychological Database

 (参考)
 ・ [2012-06-02-1]: 「#1132. 英単語の品詞別の割合」
 ・ [2011-02-23-1]: 「#667. COCA 最頻50万語で品詞別の割合は?」
 ・ [2011-02-22-1]: 「#666. COCA 最頻5000語で品詞別の割合は?」
 ・ [2011-02-16-1]: 「#660. 中英語のフランス借用語の形容詞比率」

 その他,語彙の頻度や,語種別の割合については以下の記事も参照.

 ・ [2010-03-01-1]: 「#308. 現代英語の最頻英単語リスト」
 ・ [2011-08-20-1]: 「#845. 現代英語の語彙の起源と割合」
 ・ [2012-01-07-1]: 「#985. 中英語の語彙の起源と割合」

Referrer (Inside): [2015-08-21-1] [2012-07-01-1]

[ 固定リンク | 印刷用ページ ]

2012-06-29 Fri

#1159. MRC Psycholinguistic Database Search [cgi][web_service][lexicology][frequency][statistics]

 昨日の記事[2012-06-28-1]で紹介した英語語彙データベース MRC Psycholinguistic Database を,本ブログ上から簡易検索するツールを作成した.実際には検索ツールというよりは,MRC Psycholinguistic Database を用いると,こんなことができるということを示すデモ版にすぎず,出力結果は10行のみに限定してある.本格的な使用には,昨日示したページからデータベースと検索プログラムをダウンロードするか,ウェブ上のインターフェース (Online search (answers limited to 5000 entries) or Online search (limited search capabilities)) よりどうぞ.

    


 以下,使用法の説明.SQL対応で,テーブル名は "mrc2" として固定.フィールドは以下の27項目:ID, NLET, NPHON, NSYL, K_F_FREQ, K_F_NCATS, K_F_NSAMP, T_L_FREQ, BROWN_FREQ, FAM, CONC, IMAG, MEANC, MEANP, AOA, TQ2, WTYPE, PDWTYPE, ALPHSYL, STATUS, VAR, CAP, IRREG, WORD, PHON, DPHON, STRESS.各パラメータが取る値の詳細については,原データファイルの仕様を参照のこと(仕様中に示されている各種統計値はそれ自身が非常に有用).select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# 文字数で語彙を分別
select NLET, count(NLET) from mrc2 group by NLET;

# 音素数で語彙を分別
select NPHON, count(NPHON) from mrc2 group by NPHON;

# 音節数で語彙を分別
select NSYL, count(NSYL) from mrc2 group by NSYL;

# -ed で終わる形容詞を頻度順に
select WORD, K_F_FREQ from mrc2 where WTYPE = 'J' and WORD like '%ed' order by K_F_FREQ desc;

# 2音節の名詞,形容詞,動詞を強勢パターンごとに分別 (「#814. 名前動後ならぬ形前動後」 ([2011-07-20-1]) 及び「#801. 名前動後の起源 (3)」 ([2011-07-07-1]) を参照)
select WTYPE, STRESS, count(*) from mrc2 where NSYL = 2 and WTYPE in ('N', 'J', 'V') group by WTYPE, STRESS;

# <gh> の綴字で終わり,/f/ の発音で終わる語
select distinct WORD, DPHON from mrc2 where WORD like '%gh' and DPHON like '%f';

# 不規則複数形を頻度順に
select WORD, K_F_FREQ from mrc2 where IRREG = 'Z' and TQ2 != 'Q' order by K_F_FREQ desc;

# 馴染み深く,具体的な意味をもつ語
select distinct WORD, FAM from mrc2 where FAM > 600 and CONC > 600;

# イメージしやすい語
select distinct WORD, IMAG from mrc2 order by IMAG desc limit 30;

# 「有意味」な語
select distinct WORD, MEANC, MEANP from mrc2 order by MEANC + MEANP desc limit 30;

# 名前動後など品詞によって強勢パターンの異なる語
select WORD, WTYPE, DPHON from mrc2 where VAR = 'O';

[ 固定リンク | 印刷用ページ ]

2012-06-28 Thu

#1158. MRC Psycholinguistic Database [web_service][lexicology][frequency][statistics]

 心理言語学の分野ではよく知られた英語の語彙データベースのようだが,「#1131. 2音節の名詞と動詞に典型的な強勢パターン」 ([2012-06-01-1]) と「#1132. 英単語の品詞別の割合」 ([2012-06-02-1]) で参照した Amano の論文中にて,その存在を知った.MRC Psycholinguistic Database は,150837語からなる巨大な語彙データベースである.各語に言語学的および心理言語学的な26の属性が設定されており,複雑な条件に適合する語のリストを簡単に作り出すことができるのが最大の特徴だ.特定の目的をもった心理言語学の実験に用いる語彙リストを作成するなどの用途に特に便利に使えるが,検索パラメータの組み合わせ方次第では,容易に語彙統計学の研究に利用できそうだ.
 パラメータは実に多岐にわたる.文字数,音素数,音節数の指定に始まり,種々のコーパスに基づく頻度の範囲による絞り込みも可能.心理言語学的な指標として,語の familiarity, concreteness, imageability, meaningfulness なども設定されている.品詞などの統語カテゴリーはもちろん,接頭辞,接尾辞,略語,ハイフン形などの形態カテゴリーの指定もできる.発音や強勢パターンの指定にも対応している.組み合わせによって,およそのことができるのではないかと思わせる精緻さである.
 全データベースと検索プログラムはこちらからダウンロードできるが,プログラムをコンパイルするなど面倒が多いので,ウェブ上のインターフェースを用いるのが便利である.2つのインターフェースが用意されており,それぞれ機能は限定されているが,通常の用途には十分だろう.

 ・ Online search (answers limited to 5000 entries): パラメータの細かい指定が可能だが,出力結果は5000語までに限られる.
 ・ Online search (limited search capabilities): 出力結果の数に制限はないが,言語学的なパラメータの細かい指定(綴字や発音のパターンの直接指定など)はできない.

 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

Referrer (Inside): [2012-06-30-1] [2012-06-29-1]

[ 固定リンク | 印刷用ページ ]

2012-06-02 Sat

#1132. 英単語の品詞別の割合 [lexicology][corpus][statistics]

 昨日の記事で,MRC Psycholinguistic Database (全150837語を含む)を利用した Amano の研究を参照した.Amano では,名詞と動詞の stress typicality の調査の副産物として,同データベースに基づいた語の品詞別割合の表が示されていたので,今回はそれをメモしておきたい.
 Amano (86) は,データベースより計10894個の2音節語を抜き出した.複数の品詞の機能をあわせもつ語については,それぞれの品詞のもとで1個として加えた(その他,詳しい作業手順は p. 86 に明記されている).結果として得られた品詞別の個数と割合は以下の通りである.

POSFREQ%
noun732657.04%
verb250119.47%
adjective242018.84%
adverb2912.27%
preposition680.53%
conjunction210.16%
pronoun150.12%
interjection370.29%
past participle570.44%
others1080.84%


 品詞別の割合の算出は,用いるデータベースやコーパスの性質や規模,word form で数えるか lemma で数えるかなどの「語」の定義の問題に左右されるが,複数の調査結果を比較すれば,ある程度は信頼できる値が得られるだろう.本ブログ内でこれまでに紹介した品詞別の割合については,以下を参照.

 ・ [2011-02-23-1]: 「#667. COCA 最頻50万語で品詞別の割合は?」
 ・ [2011-02-22-1]: 「#666. COCA 最頻5000語で品詞別の割合は?」
 ・ [2011-02-16-1]: 「#660. 中英語のフランス借用語の形容詞比率」

 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

[ 固定リンク | 印刷用ページ ]

2012-06-01 Fri

#1131. 2音節の名詞と動詞に典型的な強勢パターン [stress][diatone][statistics]

 「名前動後」の現象について,diatone の各記事で触れてきた.Kelly and Bock の研究によれば,2音節語における名前動後の強勢パターンは,一般的な強勢位置の傾向を反映しているという.すなわち,2音節の名詞では第1音節に強勢のおちる強弱型 (trochaic) ,2音節の動詞では第2音節に強勢の落ちる弱強型 (iambic) が普通とされる.この傾向は stress typicality と呼ばれるが,率でいえばどの程度の傾向を示すのだろうか.
 Amano は,Kelly and Bock や Sereno の調査結果を参照しながら,MRC Psycholinguistic Database を用いた独自の調査をおこなった.調査間の比較が可能となるように,純粋な名詞(他の品詞機能をもたないもの)と純粋な動詞に限定しての数え上げだが,次のような結果となった.他の調査と合わせて,Amano (86) の調査の統計を挙げよう.

researchercategoryresult
Sereno (1986)nounout of 1425 nouns, 93% are trochaic
verbout of 523 verbs, 76% are iambic
Kelly & Bock (1988)nounout of 3202 nouns, 94% are trochaic
verbout of 1021 verbs, 69% are iambic
Amano (2009)nounout of 5766 nouns, 92.92% are trochaic
verbout of 1184 verbs, 72.65% are iambic

(注記.Sereno の値は Brown Corpus によるものであり,Amano (86) より孫引きしたものである.しかし,直接 Sereno の原典に当たったところ,名詞が92%,動詞が85%と異なる値が示されていた.)

 調査間に大きな差異はなく,名詞の約93%が trochaic,動詞の約73%が iambic という事実が確認された.対比的に評価すれば,品詞ごとに stress typicality があることは,疑いえない.なぜこのような傾向があるのかという問題については,Kelly and Bock および Amano で論じられている.要約すれば,2音節名詞を強弱型に,2音節動詞を弱強型にそれぞれはめ込むことにより,周囲の語とともに,強勢と無強勢の交替のリズムを作りやすくなるからである.名詞は無強勢の冠詞が前置されることが多いので,あわせて「弱強弱」となりやすく,動詞は1音節の屈折語尾(-ing および語幹の一定の音声環境のもとでの ed や -es)を伴う頻度が名詞よりも高いので,あわせて「弱強弱」となりやすい,等々.
 名前動後の問題を考える際にも,2音節語の名詞・動詞に関するこの一般的な傾向を念頭に置いておく必要があるだろう.

 ・ Kelly, Michael H. and J. Kathryn Bock. "Stress in Time." Journal of Experimental Psychology: Human Perception and Performance 14 (1988): 389--403.
 ・ Sereno, J. A. "Stress Pattern Differentiation of Form Class in English." The Journal of the Acoustical Society of America 79 (1986): S36.
 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

Referrer (Inside): [2012-06-28-1]

[ 固定リンク | 印刷用ページ ]

2012-05-04 Fri

#1103. GSL による Zipf's law の検証 [lexicology][statistics][frequency][zipfs_law][corpus]

 [2012-05-02-1], [2012-05-03-1]の記事で取り上げてきた Zipf's law を検証(というよりは体験)するために,General Service List (GSL) の最頻2000語余りのデータを利用して計算してみた(データファイルはこちら).

Zipf's Law by GSL (Rank and Frequency)
Zipf's Law by GSL (Rank * Frequency = Constant?)
 最初のグラフは頻度順位と頻度を掛け合わせたグラフで,頻度順で100位ほどまでの語を対象とした.以下はひたすら漸減してゆくのみなので省略.累積頻度のグラフを作成するまでもなく,最頻の数十語ほどで延べ語数のほとんどを覆ってしまう様子がよくわかる.
 次のグラフは,Zipf's law によると定数になるとされる頻度順位と頻度の積を縦軸にとったものである.上位数十語までは「定数」は上下に大きく揺れて安定しないが,以後1000語ぐらいまでは,緩やかな増減はあるものの,落ち着く.その後のグラフ外ではひたすら漸減を続ける.したがって,「定数」を云々できるのは大目に見ても上位1000語ぐらいまでだろう.
 これを法則と呼ぶのはあまりに外れていると考えるか,統計的傾向がよく出ているととらえるかは,観察者の見方ひとつである.Zipf's law における「定数」は「およそ定数」と解釈するのが暗黙の了解だが,「およそ」の幅がどの程度であるのかは明示されていない.また,Zipf's law が主張しているのと異なり,グラフの線は頻度をとるコーパスのサイズにも依存するようだ.

[ 固定リンク | 印刷用ページ ]

2012-05-03 Thu

#1102. Zipf's law と語の新陳代謝 [information_theory][frequency][statistics][zipfs_law][shortening][language_change]

 昨日の記事[2012-05-02-1]Zipf's law について概説した.Zipf's law には派生した「法則」が多くあり,その1つに,[2012-04-22-1]の記事「#1091. 言語の余剰性,頻度,費用」でも指摘した「言語要素は,頻度が高ければ音形が短い」というものがある.これを,より動的に,通時的に表現すると「言語要素は,頻度が高くなれば音形が短くなる」となる.ある語の頻度が高くなってゆくと,ある程度の遅延はあるものの,その音形が短くされてゆく傾向のあることは,私たちも経験的によく知っていることである.「#878. Algeo と Bauer の新語ソース調査の比較」([2011-09-22-1]) や「#879. Algeo の新語ソース調査から示唆される通時的傾向」([2011-09-23-1]) で見たとおり,現代英語の新語ソースとして短縮 (shortening) による語形成が増加しており,例には事欠かない.
 この Zipf's law の派生法則のもつ共時的意義と通時的意義を合わせて考えると,語の頻度と長さによって,それが老いゆく語 (senescent word) なのか,生まれつつある語 (nascent word) なのかを区別できるという可能性が生じる.Zipf 著 Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology の書評を著わした Chao (399) より,関連箇所を引用しよう.

A very interesting application of the tool analogy is that of senescent and nascent tools in connection with the Principle of Economical Specialization. Reasoning from tool efficiency yields the result that 'whenever we find a tool (or word) whose magnitude is smaller than that of its neighbors in the frequency range, we may conclude that the tool (or word) of below-average size is an older tool (or word) whose usage is on the decrease (hereinafter we shall call this a senescent tool)', and 'whenever we find a tool (or word) whose magnitude is above average for its frequency, we may conclude not only that it is a newer tool (or word), but that its usage may well be directed toward an increase (hereinafter we shall call this a nascent tool)' (72). The application to words is verified to a fair degree for English of various periods (111). By regarding all behavior as work and words as tools, the analogy becomes a case and the qualifier 'or word' can be omitted.


 音形の比較的短いある単語 A を考える.Zipf's law によれば,A は比較的頻度の高い語だと予想されるが,実際には同程度の頻度を示す他の多くの語に比べると音形が短すぎたとする.この場合,おそらく A はさかりを過ぎて頻度が徐々に低まってきた senescent word と考えてよいだろう.反対に,音形の比較的長いある単語 B を考える.Zipf's law によれば,B は比較的頻度の低い語だと予想されるが,実際には同程度の頻度を示す他の多くの語に比べると音形が長すぎたとする.この場合,おそらく B はこれから頻度がますます増してゆき,短縮を起こしてゆくと予想される nascent word と考えてよいだろう.これは,Zipf's law に,冒頭に述べた時間的遅延とを掛け合わせた応用法則といってよい.
 通常 Zipf's law は静的で共時的な統計的法則ととらえられているが,動的で通時的な観点から,語の新陳代謝の法則として再解釈してみるとおもしろい.

 ・ Chao, Y. R. "Review of Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology by George Kingsley Zipf." Language 26 (1950): 394--401.

[ 固定リンク | 印刷用ページ ]

2012-05-02 Wed

#1101. Zipf's law [information_theory][frequency][statistics][language_change][zipfs_law][shortening][pragmatics][zipfs_law]

 ##1089,1090,1091,1098 の記事で,情報理論 (information theory) が言語学に与えてくれる知見について,いくつか見てきた.情報理論からの貢献として,最もよく知られているものの1つに,アメリカの言語学者 George Kingsley Zipf (1902--50) が1949年に Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology において提唱した Zipf's lawジップの法則)がある.語の頻度についての経験的な法則であり,語の頻度を f とし,その頻度の順位を r とすると,その積 C はほぼ定数となるという.

r × f = C


 この法則は,言語,テキストの主題,著者,その他の言語的な変数にかかわらず成り立つとされるが,実際には頻度が最高および最低の語群については誤差の大きいことがわかっており,信頼性は高くないとして批判も多い.また,r (頻度順位)は当然ながら f (頻度)に依存しており,f が増えれば r が減るのは自明であるから,その積が近似値をとるということは驚くべき帰結ではない,一種のトートロジーであるという批判がある.しかし,経験的事実に照らして法則とまではいわずとも傾向をよく表わしているということはでき,これを明示的に指摘した意義は大きい.
 Zipf's law の波及効果は多岐にわたる.例えば,この法則によれば,使用頻度の高い語からその使用頻度の累計を求めて行くと比較的少数の語で延べ語数の大部分を占めることから,学習基本語彙の設定に根拠を与えるものとなる.また,この法則に適合しない頻度分布を示す語彙があるとすれば,他の特殊な要因が関与している可能性が疑われるとされる(少数の語の頻度があまりに高すぎれば語彙の貧弱化が生じていると診断されるし,頻度の低いはずの語が高頻度で用いられている場合には爆発的な新造語彙や精神分裂症が原因と想定される等々).
 Zipf's law は,人間の行動を司るとされるより大きな原則,the Principle of Least Effort (最小努力の原則)の一部であり,その言語への応用は,上記の最もよく知られた頻度と頻度順の関係の公式化のみならず,他の公式の提案にも及んでいる.例えば,語の頻度と語の長さは反比例の関係にある,というものもある.最頻語は単音節であることが多いという事実(音節数の分布調査については ##348,349,355 を参照)や,頻度が高くなると頭字語などのように短縮・省略されることが多いという事実も,この公式で説明される.ほかには,ある頻度範囲とそれに属する語の数の関係を表わす公式,調音の難しい音素は頻度が低いとする原則など,派生した法則は数多い.語用論の cooperative principle (協調の原則)における量の格律「(その状況において)必要とされている(だけの)情報を与えよ」とも関与するだろう."effort" の定義などの難しい問題が残っており,また最小努力が人間の行動を司る唯一の原則であるとは考えることもできないが,真理の一面をついたものとして重要な学説であることは間違いない.
 なお,諸文献では,上記のいずれの原則も Zipf's law として言及されることがあり,また Zipf's laws と複数形でまとめられたり,the Principle of Least Effort と総括されたりすることもあるので注意が必要である.Zipf の著書の書評としては Chao を参照.類似の統計的法則については,Crystal (86--87) を参照.

 ・ Chao, Y. R. "Review of Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology by George Kingsley Zipf." Language 26 (1950): 394--401.
 ・ Crystal, David. The Cambridge Encyclopedia of Language. 2nd ed. Cambridge: CUP, 1997.

[ 固定リンク | 印刷用ページ ]

2012-04-15 Sun

#1084. 英語の重要性を示す項目の一覧 [elf][statistics][internet][airspeak]

 現代世界における英語の重要性を示す事実や統計については,elf の各記事や,とりわけ statistics elf の各記事で取り上げてきた.英語の世界化は現在進行中であり,英語に関する事実と統計も常に変化の最中にあるために,最新の情報を正確に捉えることは難しい.いきおい数年遅れ,場合によっては数十年遅れの情報をもとに現状を推し量るということになりがちである.また,多くの研究者や機関が事実や統計を調査しているものの,個別の情報を個別に公表するにとどまることが多く,全体像を得ることが難しい.
 以下の一覧は,2006年に出版された Schmitt and Marsden (2--3) に挙げられている英語の重要性を示す事実と統計の諸項目だが,著者もいうように "In many cases, the most current information available dates from the 1990s, or even the 1980s." (2) である.あくまで参考資料だが,このように一覧されていると便利ではある.なお,原文では,各項目に典拠が注記されており,必要に応じて参照することができる.

 ・ English is the principal language of intercontinental telephone communication.
 ・ Perhaps as much as 75 percent of mail around the world is written in English.
 ・ About half of the world's newspapers are published in English.
 ・ Twenty-eight percent of the books published annually are in English.
 ・ The majority of academic journals with international readership are in English.
 ・ The majority, and perhaps even more than two-thirds, of international scientists write in English. For example, nearly two-thirds of the publications produced by French scientists were in English in the early 1980s. Likewise, English was the major working language for German academics surveyed in the early 1990s. In 13 out of 20 disciplines, at least 40 percent claimed to work in English, and for psychology, biology, chemistry, and physics, the figures ranged from 81 to 98 percent. One can only suspect that these figures are even higher today.
 ・ Ninety percent of Internet hosts were based in English-speaking countries in the mid-1998s.
 ・ Close to 80 percent of the world's computer data available on the Internet was stored in English in the 1990s, which is not surprising considering that English-speaking countries took the lead in developing the Internet. However, as other countries rapidly increase their use of the Internet, the use of non-English languages is rising. Still, English sites on the Internet continue to attract a disproportionately high percentage of hits.
 ・ Forty percent of the people online on the Internet speak English (228 million people), though this may eventually drop to around 30 percent. The next highest language is Chinese at 9.8 percent (55.5 million people).
 ・ The most influential software company, Microsoft, is based in an English-speaking country: the United States.
 ・ Most of the largest advertising agencies are based in the United States.
 ・ Eighty-five percent of world institutions use English as their language, or as one of their languages; for example, it is the official language of the Olympics and the World Council of Churches.
 ・ The official international language for both aviation and maritime use is English.
 ・ English is the dominant language of international trade, with about 40 percent of the business deals made in English.
 ・ The most influential movies and modern music come from English-speaking countries.
 ・ In 1994, 80 percent of all feature films that were shown in cinemas worldwide were in English.
 ・ About 85 percent of the global movie market was controlled by the United States in 1995.
 ・ The fact that large numbers of people are learning English as a second language is reflected by the large number of people taking the TOEFL® Test (about 689,000 people in 215 countries) and University of Cambridge Local Examinations Syndicate (UCLES) tests (more than 1 million people in more than 130 countries) every year.


 1997年に出版の Graddol や2003年に出版の Crystal も(いずれもやはり古いが)この種の統計情報に満ちている.関連して,「#48. 国際的に英語が使用される主要な分野」 ([2009-06-15-1]) や「#716. 英語史のイントロクイズ(2011年度版)とその解答」 ([2011-04-13-1]) も参照.
 本当は個別に情報をアップデートできればよいのだが,日に日に状況が変わるので,情報更新だけでもフルタイム専任の仕事になってしまう.このような項目一覧は,古いことを認めつつ,便利に使ってゆくのがよい.

 ・ Schmitt, Norbert, and Richard Marsden. Why Is English Like That? Ann Arbor, Mich.: U of Michigan P, 2006.
 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm
 ・ Crystal, David. English As a Global Language. 2nd ed. Cambridge: CUP, 2003.

Referrer (Inside): [2013-01-31-1]

[ 固定リンク | 印刷用ページ ]

2012-02-13 Mon

#1022. 英語の各音素の生起頻度 [phoneme][frequency][statistics]

 昨日の記事「#1021. 英語と日本語の音素の種類と数」 ([2012-02-12-1]) で,音素一覧を掲げた.では,英語の音素のなかでもっとも多く使われる音素は何だろうか.そして,もっとも使われないのは何だろうか.
 その統計をとった研究がある.Fry, D. B. "The Frequency of Occurrence of Speech Sounds in Southern English." Archives Néerlandaises de Phonétique Expérimentale 20 (1947) で出された統計が Crystal (239, 242) に掲載されているので,ここに再掲する.一定の長さの談話における延べ音素で数えたものである.

1234567891011121314151617181920    total
/iː//ɪ//e//æ//ʌ//ɑː//ɒ//ɔː//ʊ//uː//ɜː//ə//eɪ//aɪ//ɔɪ//əʊ//aʊ, ɑʊ//ɪə//eə//ʊə/     
1.658.332.971.451.750.791.371.240.861.130.5210.741.711.830.141.510.610.210.340.06    39.21
212223242526272829303132333435363738394041424344 
/p//b//t//d//k//g//ʧ//ʤ//f//v//θ//ð//s//z//ʃ//ʒ//h//m//n//ŋ//l//r//w//j/ 
1.781.976.425.143.091.050.410.601.792.000.373.564.812.460.960.101.463.227.581.153.663.512.810.8860.78


 母音が39.21%,子音が60.78%.頻度の高い順にソートすると,以下のようになる.
 /ə/ (10.74), /ɪ/ (8.33), /n/ (7.58), /t/ (6.42), /d/ (5.14), /s/ (4.81), /l/ (3.66), /ð/ (3.56), /r/ (3.51), /m/ (3.22), /k/ (3.09), /e/ (2.97), /w/ (2.81), /z/ (2.46), /v/ (2.00), /b/ (1.97), /aɪ/ (1.83), /f/ (1.79), /p/ (1.78), /ʌ/ (1.75), /eɪ/ (1.71), /iː/ (1.65), /əʊ/ (1.51), /h/ (1.46), /æ/ (1.45), /ɒ/ (1.37), /ɔː/ (1.24), /ŋ/ (1.15), /uː/ (1.13), /g/ (1.05), /ʃ/ (0.96), /j/ (0.88), /ʊ/ (0.86), /ɑː/ (0.79), /aʊ, ɑʊ/ (0.61), /ʤ/ (0.60), /ɜː/ (0.52), /ʧ/ (0.41), /θ/ (0.37), /eə/ (0.34), /ɪə/ (0.21), /ɔɪ/ (0.14), /ʒ/ (0.10), /ʊə/ (0.06).
 上位9音素までが,弛緩母音あるいは歯・歯茎を用いる音である.最下位の2重母音や摩擦音も覚えておきたい.音声変化を考える上で,このように音素別の頻度を頭に入れておくと役立つことがあるだろう.主要なものだけでも音節別の頻度でこのようなランキング表はないだろうか.

(後記 2012/04/22(Sun):石橋 幸太郎 編 『現代英語学辞典』の "Frequency of occurrence of phonemes" (323--24) に類似した他の統計値あり.)

 ・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.

[ 固定リンク | 印刷用ページ ]

2012-01-07 Sat

#985. 中英語の語彙の起源と割合 [lexicology][loan_word][statistics][me][sggk]

 [2011-08-20-1]の記事で「#845. 現代英語の語彙の起源と割合」を総括したが,中英語の語彙の内訳はどうだったのだろうか.これについても様々な研究があるが,従来の統計では,古英語由来の語彙が60--70%,古仏語由来の語彙が22--30%,古ノルド語由来の語彙が8--10%,それ以外が1%未満という数値が出されている (Duggan 238) .
 ところが,Norman Hinton が1980年代後半から発表している中英語語彙の大規模な調査の報告によれば,従来の統計とは相当に異なる数値が示されている.Hinton の論文は未入手なので,以下は Hinton の報告そのものではなく,Duggan (238--39) で言及されているその概要に基づくものだが,参考までに要約する.
 MED からランダムに取り出した数千語の見出し語とその語源情報に基づいて語種を分類した結果,Germanic 35.06%, Romance 64.54%, Other 0.35% という数値がはじき出された.従来の統計と比べると Germanic と Romance の数値が逆転しているかのようであり,統計の前提や手法によって,これほどまでに結果が左右されるものかと恐ろしくなる.いずれの統計も,眉に唾を付けて解釈しなければならないことは認めつつ,先を続けよう.

Etymological Makeup of Middle English Vocabulary

 Hinton は,Chaucer や Cotton Nero A.x の言語についても語彙分類を行なっており,中英語の特定の時期における語彙の平均的な内訳と比較することによって,各言語の「年代測定」を試みている.Chaucer の語彙内訳は Germanic 38.5%, Romance 61.2%, Other 0.09% という比率であり,これは1460年の平均的な比率に相当するという.また,Cotton Nero A.x については Germanic 58.7, Romance 41%, Other 0.15% という比率で,1390年の平均的な比率を指すという.これはもちろん理論値であり,絶対年代を指すわけではない.むしろ,Chaucer と Cotton Nero A.x の70年という相対的な差が,それぞれの語彙の使い分けの差,そしておそらくは文体的な差に対応しているかもしれないという可能性がおもしろい.

 ・ Duggan, H. N. "Meter, Stanza, Vocabulary, Dialect". Chapter 8 of A Companion to the Gawain-Poet. Ed. Derek Brewer and Jonathan Gibson. Cambridge: Brewer, 1997. 221--42.
 ・ Hinton, Norman "The Language of the Gawain-Poems." Arthurian Interpretations 2 (1987): 83--94.

Referrer (Inside): [2013-10-28-1] [2012-06-30-1]

[ 固定リンク | 印刷用ページ ]

2011-11-16 Wed

#933. 近代英語期の英語話者人口の増加 [statistics][demography]

 英語話者人口については共時的,通時的な側面から demography のいくつかの記事で取り上げてきた.特に以下を参照.

 ・ [2009-10-17-1]: #173. ENL, ESL, EFL の話者人口
 ・ [2010-03-12-1]: #319. 英語話者人口の銀杏の葉モデル
 ・ [2010-05-07-1]: #375. 主要 ENL,ESL 国の人口増加率
 ・ [2010-06-15-1]: #414. language shift を考慮に入れた英語話者モデル
 ・ [2010-06-28-1]: #427. 英語話者の泡ぶくモデル

 通時的な英語話者人口の推移については,諸文献で様々な推測値が概数として挙げられている.[2010-03-12-1]の「銀杏の葉モデル」の図中に示されている数値もその一つである.値は大きく異ならないが,『英語史総合年表』に記されている概数をもとに,人口の推移グラフを作成してみた.1500年から1900年までの100年刻みでの人口統計である.

Growth of English Speaking Population from 1500 to 1900
YearEnglish-Speaking Population
1500about 5 million
1600about 6--7 million
1700about 8 million (including about 2 million that had emigrated to the New World)
180020--40 million
1900about 123 million


 19世紀の爆発的増加が視覚的に表わされている.そして,20世紀のさらなる爆発により,2000年の段階で,上のグラフの高さを10倍にしても足りないほどの話者数を示すことになる.現在,第2言語話者,外国語話者を合わせて,英語を話す人口は15--20億と推定されている.

 ・ 寺澤 芳雄,川崎 潔 編 『英語史総合年表?英語史・英語学史・英米文学史・外面史?』 研究社,1993年.

Referrer (Inside): [2013-09-04-1]

[ 固定リンク | 印刷用ページ ]

2011-10-28 Fri

#914. BNC による語彙の世代差の調査 [bnc][corpus][statistics][lltest][interjection]

 昨日の記事「#913. BNC による語彙の男女差の調査」 ([2011-10-27-1]) で取りあげた Rayson et al. では,話者の性別だけでなく年齢による語彙の変異も調査されている.年齢差といっても,35歳未満か以上かで上下の世代に分けた大雑把な分類だが,結果はいくつかの興味深い示唆を与えてくれる.以下は,χ2 の上位19位までの一覧である (142--43) .

RankUnder 35Over 35
Wordχ2Wordχ2
1mum1409.3yes2365.0
2fucking1184.6well1059.8
3my762.4mm895.2
4mummy755.2er773.8
5like745.2they682.2
6na as in wanna and gonna712.8said538.3
7goes606.6says443.1
8shit410.1were385.8
9dad403.7the352.2
10daddy380.1of314.6
11me371.9and224.7
12what357.3to211.2
13fuck330.1mean155.0
14wan as in wanna320.6he144.0
15really277.0but139.0
16okay257.0perhaps136.0
17cos254.4that131.3
18just251.8see122.1
19why240.0had118.3


 予想される通り,若い世代に特徴的なキーワードはくだけた語を多く含んでいる.表外の語も含めてだが,yeah, okay, ah, ow, hi, hey, ha, no, ooh, wow, hello などの間投詞,fucking, shit, fuck, crap, arse, bollocks などのタブー語が目立つ.しかし,若い世代のキーワードとして,一見すると予想しがたい語も挙がる.例えば,please, sorry, pardon, excuse などの丁寧語が若い世代に特徴的だという.
 ほかには,若い世代に特徴的な形容詞や副詞がいくつか見られる (ex. weird, massive, horrible, sick, funny, disgusting, brilliant, really, alright, basically) .評価を表わす形容詞・副詞が多く,一種の流行とみなすことができる語群だろう.年齢差を "apparent time" の差と考えれば,そこには "real time" の変化が示唆されることになるので,この語群の通時的な頻度の増加を探るのもおもしろそうだ.

 ・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

Referrer (Inside): [2013-04-14-1] [2011-11-02-1]

[ 固定リンク | 印刷用ページ ]

2011-10-27 Thu

#913. BNC による語彙の男女差の調査 [bnc][corpus][statistics][lltest][interjection][gender_difference]

 標題の話題を扱った Rayson et al. の論文を読んだ.BNC の中で,人口統計的な基準で分類された,話し言葉を収録したサブコーパス(総語数4,552,555語)を対象として,語彙の男女差,年齢差,社会的地位による差を明らかにしようとした研究である.これらの要因のなかで,語彙的変異が統計的に最も強く現われたのは性による差だったということなので,本記事ではその結果を紹介したい.
 まず,以下に挙げる数値の解釈には前提知識が必要なので,それに触れておく.BNC に収録された話し言葉は志願者に2日間の自然な会話を Walkman に吹き込んでもらった上で,それを書き起こしたものであり,その志願者の内訳は男性73名,女性75名である.会話に登場する志願者以外の話者についても,女性のほうが多い.したがって,当該サブコーパスへの参加率でいえば,全体として女性が男性よりも高くなることは不思議ではない.
 しかし,その前提を踏まえた上でも,全体として女性のほうがよく話すということを示唆する数値が出た.使用された word token 数でいえば,男性を1.00とすると女性が1.51,会話の占有率では,男性を1.00とすると女性は1.33だった.男女混合の会話では男性のほうが高い会話占有率を示すとする先行研究があるが,BNC のサブコーパスでは女性同士の会話が多かったということが,上記の結果の背景にあるのかもしれない.いずれにせよ,興味深い数値であることは間違いない.
 次に,より細かく語彙における男女差を見てみよう.男女差の度合いの高いキーワードを抜き出す手法は,原理としては[2010-03-10-1], [2010-09-27-1], [2011-09-24-1]の記事で紹介したのと同じ手法である.男性コーパスと女性コーパスを区別し,それぞれから作られた語彙頻度表を突き合わせて統計的に処理し,カイ二乗値 (χ2) の高い順に並び替えればよい.以下は,上位25位までの一覧である (136--37) .

RankCharacteristically maleCharacteristically female
Wordχ2Wordχ2
1fucking1233.1she3109.7
2er945.4her965.4
3the698.0said872.0
4year310.3n't443.9
5aye291.8I357.9
6right276.0and245.3
7hundred251.1to198.6
8fuck239.0cos194.6
9is233.3oh170.2
10of203.6Christmas163.9
11two170.3thought159.7
12three168.2lovely140.3
13a151.6nice134.4
14four145.5mm133.8
15ah143.6had125.9
16no140.8did109.6
17number133.9going109.0
18quid124.2because105.0
19one123.6him99.2
20mate120.8really97.6
21which120.5school96.3
22okay119.9he90.4
23that114.2think88.8
24guy108.6home84.0
25da105.3me83.5


 必ずしもこの25位までの表からだけでは読み取れないが,Rayson et al. (138--40) によれば以下の点が注目に値するという.

 ・ "four-letter words",数詞,特定の間投詞は男性に特徴的である (ex. shit, hell, crap; hundred, one, three, two, four; er, yeah, aye, okay, ah, eh, hmm)
 ・ 女性人称代名詞,1人称代名詞,特定の間投詞は女性に特徴的である (ex. she, her, hers; I, me, my, mine; yes, mm, really) (男性代名詞の使用には特に男女差はない)
 ・ theof の使用は男性に多い(男性に一般名詞を用いた名詞句の使用が多いという別の事実と関連するか?)
 ・ 固有名詞,代名詞,動詞は女性に多い(男性の事実描写 "report" の傾向に対する女性の関係構築 "rapport" の傾向の現われか?)
 ・ 固有名詞のなかでも,人名は女性の使用が多く,地名は男性の使用が多い.

 他のコーパスによる検証が必要だろうが,この結果と解釈に興味深い含蓄があることは確かである.
 キーワードの統計処理と関連して,コーパス言語学でカイ二乗検定の代用として広く使用されるようになってきた Log-Likelihood 検定については,自作の Log-Likelihood Tester, Ver. 1Log-Likelihood Tester, Ver. 2 を参照.

 ・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow