hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 次ページ / page 7 (9)

statistics - hellog〜英語史ブログ

最終更新時間: 2024-11-22 17:50

2011-09-23 Fri

#879. Algeo の新語ソース調査から示唆される通時的傾向 [pde][word_formation][loan_word][statistics][lexicology][neologism]

 連日の話題となっているが,Algeo と Bauer を比べているうちに俄然おもしろくなってきた新語ソース調査について (##873,874,875,876,877,878,879) .Algeo の詳細な区分 は,1963--72年の新語サンプル5000語に基づいたあくまで共時的な調査結果だが,いくつかの点で通時的な傾向を示唆しているように思える.Algeo 自身が言及あるいは議論している点について,以下に要約する.

 (1) 新語の約3分の2 (63.9%) が,既存要素の合成,つまり複合 (compounding) と接辞添加 (affixation) により生じている.複合と接辞添加は特に古英語において新語形成の主要な手段だったと言及されることが多いが,現在英語においてもお得意の語形成であるという事実は変わっていない.
 (2) 合成のなかでは,接辞添加 (34.1%) のほうが複合 (29.8%) よりも多い.前者のなかでは,接頭辞のほうが接尾辞より種類が多いものの,接尾辞は統語機能をそなえているために出現頻度が高く,より重要である.この意味で,英語は "a suffixing language" (272) である.
 (3) 短縮 (shortening) は,客観的な証拠はないものの,"I suspect that the number of shortenings in English has increased greatly during the last two or three centuries" (271) .その理由としては,識字率向上の結果として生じた書き言葉の優勢を指摘している."Of the various kinds of shortening, the largest subgroup is that in which the shortening is based on the written form (acronyms, alphabetisms, and the like); this preeminence of the written language is clearly one of the consequences of increasing literacy" (272) .
 (4) 英語において借用 (borrowing) は14世紀をピークとして衰退してきており,現在ではむしろ他言語へ単語を貸し出すソース言語としての役割が大きくなってきている.

 もう1つ,詳細な区分では数値として表われていないが興味深い事実として,以下の点を指摘している.

. . . of the whole sample of new words, 76.7 percent are nouns, 15.2 percent adjectives, 7.8 percent verbs, and .3 percent other parts of speech. It seems that there are far more new things than new events to talk about. Whatever the case may be syntactically, in its lexicon, English is a nominalizing language. (272)


 新語に名詞が多いという事実は驚くに当たらないかもしれない(英語語彙の品詞別割合については[2011-02-22-1], [2011-02-23-1]の記事を参照).英語が本当に "a nominalizing language" かどうかを検証するには,語彙全体における名詞の割合について通言語的に調査する必要があるだろう.それでも,Algeo のこの指摘は,Potter のいう現代英語の "noun disease" (100--05) という問題と関係しているかもしれないと考えると,興味をそそられる( "noun disease" については,[2011-09-04-1]の記事「#860. 現代英語の変化と変異の一覧」の1項目として挙げた).
 最後に,影が薄くなってきている新語ソースとしての借用について,借用元言語として日本語がフランス語に次いで第2位であるという事実が注意をひく.日本語からの借用については,以下の記事を参照.

 ・ #45. 英語語彙にまつわる数値: [2009-06-12-1]
 ・ #142. 英語に借用された日本語の分布: [2009-09-16-1]
 ・ #126. 7言語による英語への影響の比較: [2009-08-31-1]

 ・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
 ・ Potter, Simon. Changing English. London: Deutsch, 1969.

[ 固定リンク | 印刷用ページ ]

2011-09-22 Thu

#878. Algeo と Bauer の新語ソース調査の比較 [pde][word_formation][loan_word][statistics][lexicology][neologism]

 今日も,現代英語の新語ソースに関する最近の一連の話題 (##873,874,875,876,877,878) の続き.[2011-09-19-1]の記事「#875. Bauer による現代英語の新語のソースのまとめ」で Bauer の調査結果をグラフ化したが,それに Algeo の調査結果を追加したものを作成した(原データと表はHTMLソースを参照).各項目で4本目の棒が,Algeo による Barnhart の新語辞書に基づく1963--1974年の数値を反映している.棒グラフとしては隣り合っているが,Algeo の調査対象年代は Bauer の第3期に包含されることに注意されたい.

Sources of New Words over a Century: Change over a Century (from Algeo's and Bauer's Surveys)

 昨日の記事[2011-09-21-1]でも述べた通り,Bauer と Algeo の調査では前提がいくつか異なっている.特に Bauer では品詞転換が考慮に入れられていないので,比較条件を揃えるために,Algeo のデータから "Shifts" として区分されている数値を除いてあることにも注意されたい( "Shifts" は調査語彙全体の14.2%を占める小さくはない数値である.こちらの詳細区分を参照).また,Algeo の "Blends" は,今回のグラフ作成では "shortening" の一種として扱った.
 Algeo の数値は Bauer の第3期の数値と開きこそあるが,新語ソースの傾向としてはおもしろいほどに一致している.Bauer の示唆する通時的な傾向が,Algeo によって著しく強調されて示されていると言ったらよいだろうか.比較基準の差異という問題は常について回るだろうが,互いに支持する結果となったのが興味深い.

 ・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

[ 固定リンク | 印刷用ページ ]

2011-09-21 Wed

#877. Algeo の現代英語の新語ソース調査 [pde][word_formation][loan_word][statistics][lexicology][neologism]

 [2011-09-17-1], [2011-09-18-1], [2011-09-19-1]の記事で,Bauer (35, 38) による1880--1982年の約1世紀のあいだの新語ソースの変遷について触れてきた.現代英語の新語ソースの内訳が通時的にいかに変化してきたかに関する研究は他にあまり見たことがないが,共時的な内訳の調査であれば昨日の記事「#876. 現代英語におけるかばん語の生産性は本当に高いか?」 ([2011-09-20-1]) で触れた Algeo がある.
 Algeo の調査は1963年以降の新語を収録した Barnhart の辞書から無作為抽出した1000語に基づくもので,時期区分で言えば Bauer の第3期(1939--82年)のおよそ後半に相当する時期の新語に関する調査ということになる.新語ソースの分類が Bauer に比べてずっと細かいのが特徴で,分類ラベルを眺めるだけでも形態論や語彙論の概要がつかめてしまいそうな細かさだ.また,Bauer は 品詞転換 (conversion) を調査対象に含めていないが,Algeo は "Shifts" の1部として含めている.ただし,この "Shifts" には意味変化の例も含まれており,新語の定義の問題(新語形のことなのか,あるいは新語義も含むのか)を考えさせられる.
 Algeo の論文の Appendix (273--76) に掲載されている,詳細な新語ソース区分とその内訳の数値をこちらのページに転載したので,参照されたい.
 上記のように Bauer と Algeo では調査対象とした辞書,時代,新語ソース区分,前提としている新語の定義が一致していないので直接比較はできないものの,両者の与える数値はいずれにせよ概数であるから,合わせて現代英語の新語ソースに関する傾向を示唆するものとして大いに参考になるだろう.
 現代英語の新語については,[2011-01-16-1]の記事「#629. 英語の新語サイト Word Spy」を参照.

 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
 ・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
 ・ Barnhart, Clarence L., Sol Steinmetz, and Robert K. Barnhart, eds. The Barnhart Dictionary of New English since 1963. Bronxville, N.Y.: Barnhart, 1973.

Referrer (Inside): [2011-09-27-1] [2011-09-22-1]

[ 固定リンク | 印刷用ページ ]

2011-09-20 Tue

#876. 現代英語におけるかばん語の生産性は本当に高いか? [blend][productivity][pde][pde_language_change][word_formation][statistics][lexicology]

 [2011-01-18-1]の記事「#631. blending の拡大」で,現代英語においてかばん語が増加している件について取り上げた.かばん語は,現代英語の傾向の1つとして Leech et al. が指摘している "densification" (50) の現われと考えられそうである([2011-01-12-1]の記事「現代英語の文法変化に見られる傾向」を参照).多数のかばん語の例を示されれば,確かにさもありなんと直感されるところではある.しかし,[2011-09-17-1]の記事「#873. 現代英語の新語における複合と派生のバランス」で触れたとおり,Bauer の新語調査によれば,新語におけるかばん語の割合は1880--1982年の期間で p < 0.05 のレベルでも有意な増加を示していない(ただし絶対数は増加している).複数の観察者が指摘しており,私たちの直感にも適うかばん語の増加傾向と,客観的な統計値とのあいだに差があるのはどういうことだろうか.
 1つには,Bauer の調査対象期間が1982年で終わっているということがあるだろう.当時の客観的状況と2011年の時点で私たちの抱いている直感とが食い違っていても不思議はない.この30年ほどの間に blending が激増したという可能性も考えられる.
 もう1つ,直感と数値のギャップを説明し得る要因がある.この点に関して,Algeo の調査を紹介したい.多くの語彙研究が OED 系の辞書を利用しているが,Algeo はそれとは別系列の辞書を利用して独立した新語調査を行なった.彼の採った方法は,1963年以降の新語を収録した Barnhart の辞書から1000語を無作為抽出し,それをソースや語形成ごとに振り分けるというものである.その調査によると,かばん語は調査した新語語彙全体の4.8%を占めるにすぎず,他の主要な語形成のなかでは目立たないカテゴリーであるという結果となった.しかし,Algeo (271) はこの数値は過小評価だろうと述べている.

Last in numerical importance as a source of new words is blending. Less than a twentieth of our new words have been formed in that way (4.8 percent); however, blending is more popular than that statistic suggests. Its principal areas of use are popular journalism and advertising. Time magazine and Madison Avenue dearly love a blend. Most of the popular coinages are nonce forms that were unreported in the Barnhart dictionary and consequently are not included in these statistics. But every new word begins as a nonce form, so a source that is prolific of nonce forms today may be expected to increase its contribution to the general vocabulary tomorrow. Blending may look like a long shot, but the smart money will keep an eye on it.


 "nonce-form" あるいは "nonce-word" (臨時語)に blending が多用されるというのは客観的に確かめにくいが,直感には適う.形態の生産性 (productivity) とは何を指すかという問題は,[2011-04-28-1], [2011-04-29-1], [2011-05-28-1]の記事でも触れてきたように,明確な解答を与えるのが難しい問題である.この問いは,何を(辞書に掲載するに値する)語とみなすかというもう1つの難問にも関係してくる([2011-03-28-1]の記事「#700. 語,形態素,接辞,語根,語幹,複合語,基体」を参照).blending の真の生産性は辞書や辞書に基づいた統計値には現われにくいが,言語使用の現場において活躍している語形成であることは恐らく間違いない.問題は,この主観的評価を,いかにして客観的に支持し得るかという方法の問題なのではないか.

 ・ Leech, Geoffrey, Marianne Hundt, Christian Mair, and Nicholas Smith. Change in Contemporary English: A Grammatical Study. Cambridge: CUP, 2009.
 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
 ・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
 ・ Barnhart, Clarence L., Sol Steinmetz, and Robert K. Barnhart, eds. The Barnhart Dictionary of New English since 1963. Bronxville, N.Y.: Barnhart, 1973.

[ 固定リンク | 印刷用ページ ]

2011-09-19 Mon

#875. Bauer による現代英語の新語のソースのまとめ [loan_word][word_formation][lexicology][pde][pde_language_change][statistics][lexicology]

 過去2日の記事[2011-09-17-1], [2011-09-18-1]で,Bauer の調査結果に基づいて新語のソースを概観した.類似した調査はそれほど多くないようなので,Bauer のデータ (35, 38) は貴重だと思い,もう少し分析してみた.(データは整理してHTMLソースに載せておいた.)
 新語のソースを大きく2分すると,借用 (borrowing) と語形成 (word formation) のカテゴリーが得られる.借用は借用元言語によって数種類に下位区分され,語形成も主として形態論の観点から数種類に下位区分される.あまり細かく区分しても大きな傾向が見にくくなるので,借用は借用元言語を区別せず,語形成は4種類に大別し,(1) borrowing, (2) composition, (3) derivation, (4) shortening, (5) other word formations の5区分で集計しなおした.以下のグラフでは,ソースごとの3期にわたる割合の変化がつかみやすいように百分率で表示してある.例えば,第1期1880--1913年を示す黒棒の数値を足し合わせると100%となる,という読み方である.

Sources of New Words over a Century

 全体として,対象となった約100年間の通時的変化は p < 0.0001 のレベルで有意差が出た.そのなかでも借用の激減が最も顕著な変化である(同じく p < 0.0001 のレベルで有意).一方,各時期で合わせて6割ほどを示す composition と derivation の主要2カテゴリーは,時期によってそれほど変化していない( p < 0.05 レベルで有意差なし).また,全体での割合からすると目立たない shortening や他の語形成が順調に増加していることも見逃してはならない(shortening については,p < 0.001 のレベルで有意).カテゴリーの区別の仕方によって傾向の見え方も変化するので,同じデータを様々な角度から眺めることが必要だろう.
 この3日間の記事のグラフをまとめてみられるように,3記事を「##873,874,875」で連結したので比較までに.

 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

[ 固定リンク | 印刷用ページ ]

2011-09-18 Sun

#874. 現代英語の新語におけるソース言語の分布 [loan_word][lexicology][pde][pde_language_change][statistics]

 昨日の記事「現代英語の新語における複合と派生のバランス」 ([2011-09-17-1]) で取り上げた Bauer の調査は,現代英語の新語を構成する要素の起源,つまりソース言語をも考慮に入れている (32--33, 34--36) .(データはHTMLソースを参照.)
 新語における借用比率は,1880--1913, 1914--38, 1939--82年の3期にわたり 31.4% -> 22.3% -> 19.2% と大きく目減りしている.現代英語においては,中英語や初期近代英語に比べ,全体的に借用に依存する程度が急減しているのがわかる.借用元言語ごとに状況を見てみよう.以下のグラフは,Bauer (35) に掲載されている表に基づいて作成したものである.

Source of Loanwords over a Century

 統計的には Fr. (French) と Grmnc (Other Germanic) において p < 0.05 のレベルで減少の有意差が認められるものの,特定のソース言語が全体的な減少に関与しているというよりは,ソース言語にかかわらず全般的に減少傾向が続いているものと読める.
 注意すべきは,1880--1913年の Other カテゴリーが際立っていることだ.ここには,オーストラリア,ポリネシア,アメリカの土着言語からの借用が多く含まれているという.なぜこの時期にこれらの言語からの借用が多かったかという問題は,別途調査して考察する必要があるだろう.
 Bauer の第3期の終了年である1982年より,約30年が経過している.以後,英語の借用離れは続いているのだろうか.これも興味深い問いである.

 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

[ 固定リンク | 印刷用ページ ]

2011-09-17 Sat

#873. 現代英語の新語における複合と派生のバランス [romancisation][compound][derivation][lexicology][pde][word_formation][productivity][statistics][pde_language_change]

 英語語彙の歴史は,供給源という観点から,大雑把に次のように概括される.古英語では複合 (composition) と派生 (derivation) が盛んだったが,中英語から初期近代英語にかけては借用 (borrowing) が著しく,後期近代英語以降は再び複合と派生が伸張してきた.この語彙史の流れを受けて,現代は新語の供給源を,借用よりも既存要素(それ自体は本来語とは限らない)の再利用に多く負っている時代ということになる.では,現代英語を特徴づけるとされる複合と派生の2つの語形成では,どちらがより生産性が高いといえるだろうか.Potter (69--70) は,両者のバランスはよく取れていると評価している.

German and Dutch, like ancient Greek, make greater use of composition (or compounding) than derivation (of affixation). French and Spanish, on the other hand, like classical Latin, prefer derivation to composition. Present-day English is making fuller use of both composition and derivation than at any previous time in its history.


 もちろん,両者のバランスが取れているからといって他言語よりも優れた言語ということにはまったくならない.ただし,ゲルマン語派とロマンス語派の語形成の特徴を兼ね備えていることにより,英語がいずれの立場からも「近い」言語と感じられるという効果はあるかもしれない(関連する議論は[2010-05-27-1]の記事「英語のロマンス語化についての評」を参照).ゲルマン系でもありロマンス系でもあるという現代英語の特徴は,語形成に限らず語彙全体にも言えることである.
 さて,Potter は上記のように複合と派生の好バランスを指摘したが,生産性を量的に測ったわけではなく,他の主要なヨーロッパ語あるいは古い英語との比較において評価したにすぎない.この点についてより客観的に調査したのが,Bauer (32--33, 36--39) だ.Bauer は The Supplement to the Oxford English Dictionary (1972--86) を用いた無作為標本調査で,対象に選ばれた本来語要素から成る新語1559語を初出年により (1) 1880--1913, (2) 1914--38, (3) 1939--82 の3期に区分して,造語法別に語を数えた.区別された造語法とは,Abbreviations, Blends, Shortenings, Compounds, Prefixation, Suffixation, Names, Neo-classical compounds, Simultaneous prefix and suffix, Other の10種類である.
 Bauer (38) の掲げた表のデータを Log-Likelihood Tester, Ver. 2 に投げ込んで統計処理してみた(データはHTMLソースを参照;グラフは以下を参照.).全体として時期別の差は p < 0.05 のレベルで有意であり,分布の通時的変化が観察されると言ってよいだろう.次に造語法別に変化を見てみると,Abbreviations が p < 0.01 のレベルで有意な増加を示し,Suffixation と Neo-classical compounds がそれぞれ p < 0.05 のレベルで有意な減少を示した.その他の造語法については,3期にわたる揺れは誤差の範囲内ということになる.Bauer (37--38) は,Blends の増加を有意であると示唆しており,しばしば指摘される同趣旨の傾向を支持しているようだが,計算上は p < 0.05 のレベルでも有意差は認められなかったので注意が必要である([2011-01-18-1]の記事「blending の拡大」を参照).

Processes of Word-Formation: Changes over a Century

 複合系 (Compounds, Neo-classical compounds) と 派生系 (Prefixation, Suffixation, Simultaneous prefix and suffix) で比べると,3時期を通じて後者の割合は前者の割合の2.7倍程度で圧倒している(以下のグラフを参照).数値的には,派生のほうにバランスが偏っているようだ.

Composition and Derivation: Changes over a Century

 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
 ・ Potter, Simon. Changing English. London: Deutsch, 1969.

[ 固定リンク | 印刷用ページ ]

2011-08-29 Mon

#854. 船や国名を受ける代名詞 she (3) [personal_pronoun][she][gender][personification][political_correctness][corpus][statistics][lexical_diffusion]

 標題について[2011-08-27-1], [2011-08-28-1]の記事で話題にしてきたが,現代英語でこの用法の she が《古風》となってきている,あるいは少なくともその register が狭まってきているのはなぜだろうか.
 これには,1960年代以降,とりわけアメリカ英語で高まってきた言語の gender 論,男女平等という観点からの political correctness (PC) への関心がかかわっている.この観点から,人間の総称としての man(kind),女性接尾辞 -ess,職業人を表わす複合語要素 -man,一般人称代名詞としての he の使用などが疑問視され,数々の代替表現が提案されてきた.(関連する話題は,[2009-08-20-1]「男の人魚はいないのか?」, [2010-01-27-1]「現代英語の三人称単数共性代名詞」, [2011-04-17-1]「レトリック的トポスとしての語源」などの記事を参照.)
 この観点から she の特殊用法を見ると,船や国名を取り立てて女性代名詞で受ける理由はないではないかという議論が生じる.船乗りや国の為政者が主として男性だったという英語国の歴史を反映していることは確かだろうが,現在も旧来の慣習を受け継ぐべき合理性はないという考え方である.
 特に国名を受ける she の用法は,形式張った書き言葉という register に限ると,1960年代以降,激減してきていることが実証される.The Times corpus を用いてこれを検証した Bauer (148--49) によると,1930年までは国を指示する she の用法は標準的だった.実際,1900年から1930年の間で,国を指示する it の用例は3例のみだったという.ところが,1935年以降,it の例が断続的に現われだし,1970年にはshe を圧迫して一気に標準となった.she の用例が減少してきた過程は逆S字曲線を描いているかのようであり,語彙拡散 (lexical diffusion) を思わせる.以下のグラフは Bauer (149) のグラフに基づいて概数から再作成したものである.

Feminine References to Country Names in The Times Corpus


 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

[ 固定リンク | 印刷用ページ ]

2011-08-20 Sat

#845. 現代英語の語彙の起源と割合 [lexicology][loan_word][statistics][bnc][corpus]

 現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.

 ・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
 ・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
 ・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合

 語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
 先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
 Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
 これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.

LevelEnglishFrench/LatinScandinavianOther
100 (GSL)92%3%5%0%
600 (LDOCE3)474544
1000 (BNC)46.948.93.21.0
1000 (Williams)831322
2000 (Williams)345727
3000 (Williams)2960110
4000 (Williams)2762110
5000 (Williams)276418
6000 (Williams)2761210
7000 (Williams)2362213
8000 (Williams)2659213
9000 (Williams)2558215
10000 (Williams)2560114
Etymological Breakdown of the Most Frequent Words


 上から3つ目と4つ目の棒グラフは,同じ最頻1000語レベルでの比較だが,3つ目は上述の Durkin の BNC 調査によるもの,4つ目は[2010-06-30-1]の記事で示した Williams のものである.著しい差異が生じたが,これも調査方法が異なるがゆえだろうか.注意して解釈する必要があるが,この点を除けば全体としてなだらかに推移し,最終的には本来語25%,ラテン・フランス語60%,それ以外が15%という数値におよそ落ち着くようだ.

[ 固定リンク | 印刷用ページ ]

2011-07-20 Wed

#814. 名前動後ならぬ形前動後 [stress][diatone][statistics][derivation][prefix][suffix][phonaesthesia][-ate]

 同綴りで品詞によって強勢位置の交替する語 (diatone) の典型例である「名前動後」については,[2009-11-01-1], [2009-11-02-1], [2011-07-07-1], [2011-07-08-1], [2011-07-10-1], [2011-07-11-1]の一連の記事で論及してきた.主に名詞と動詞の差異を強調してきたが,形容詞もこの議論に関わってくる([2011-07-07-1]の記事では関連する話題に言及した).強勢位置について,形容詞は原則として名詞と同じ振る舞いを示し,動詞と対置される.いわば「形前動後」である.
 形前動後の事実は,まず統計的に支持される.Bolinger (156--57) によれば,3万語の教育用語彙集からのサンプル調査によると,多音節語について,形容詞の91%が non-oxytonic (最終音節以外に強勢がある)だが,動詞の63%が oxytonic (最終音節に強勢がある)であるという.単音節語については,強勢の位置が前か後ろかを論じることはできないしその意味もないが,単純に動詞と形容詞の個数の比率を取ると動詞が60.7%を占める.単音節語の強勢は通常 oxytonic と解釈されるので,この比率は形容詞に比して動詞の oxytonic な傾向を支持する数値といえよう.
 形前動後という強勢位置の分布に関連して,Bolinger は両品詞の語形成上の差異に言及している.形容詞は接尾辞によって派生されるものが多いが (ex. -ant, -ent, -ean, -ial, -al, -ate, -ary, -ory, -ous, -ive, -able, -ible, -ic, -ical, -ish, -ful) ,動詞は接頭辞による派生が多い (ex. re-, un-, de-, dis-, mis-, pre-) .例外的にそれ自身に強勢の落ちる -ose のような形容詞接尾辞もあるが,例外的であることによってかえって際立ち,音感覚性 (phonaesthesia) に訴えかける 増大辞 ( augmentative ) としての機能を合わせもつことになっている(増大辞については[2009-08-30-1]の記事「投票と風船」も参照).bellicose, grandiose, jocose, otiose, verbose などの如くである.
 当然のことながら,強勢のない接尾辞により派生された多くの形容詞は必ず non-oxytonic となるし,強勢のない接頭辞により派生された多くの動詞は強勢が2音節目以降に置かれることになり oxytonic となる可能性も高い.この議論を発展させるには,各接辞の生産性や派生語の実例数を考慮する必要があるが,接辞による派生パターンの相違が形前動後の出現に貢献したということであれば大いに興味深い.また,名詞の派生も,形容詞の派生と同様に,接頭辞ではなく接尾辞を多用することを考えれば,名前動後の説明にも同じ議論が成り立つのではないだろうか.

 ・ Bolinger, Dwight L. "Pitch Accent and Sentence Rhythm." Forms of English: Accent, Morpheme, Order. Ed. Isamu Abe and Tetsuya Kanekiyo. Tokyo: Hakuou, 1965. 139--80.

Referrer (Inside): [2012-06-29-1]

[ 固定リンク | 印刷用ページ ]

2011-06-07 Tue

#771. 名詞の単数形と複数形の頻度 [corpus][statistics][plural][countability]

 Biber et al. (Section 4.5.6 [pp. 291--22]) に,一般名詞の単数形と複数形の頻度に関する記述がある.現代英語における大雑把な分布ではあるが,LSWE Corpus の500万語サブコーパスを用いた信頼できる数値なので参考までにメモしておく.まず,各サブコーパスで100万語当たりの生起数に換算してのグラフの再現から(数値データは与えられていなかったのでグラフから概数を読み取っての再現).

Distribution of Plural v. Singular Common Nouns Across Registers by LGSWE


 (1) conversation transcription (CONV), fiction text (FICT), newspaper text (NEWS), academic text (ACAD) の4サブコーパス間の差が激しい.
  - 原則として複数形をとらない不可算名詞も含めているとはいえ,すべてのサブコーパスで単数形が複数形よりも頻度が高い.
  - 会話では単数形の頻度が比較的高い.
  - 書き言葉では話し言葉よりも複数形の頻度が3--4倍も高い.
 (2) 個々の名詞でみると,多くの名詞が単数形あるいは複数形のいずれかへの強い偏りを示す.
 (3) 例えば,次の名詞は75%以上の割合で単数形をとる.ex. car, god, government, grandmother, head, house, theory.
 (4) 例えば,次の名詞は75%以上の割合で複数形をとる.ex. grandchildren, parents, socks, circumstances, eyebrows, onlookers, employees, perks.

 (1) に関して,単数形が圧倒的に多いこと自体はまったく不思議ではない.上述のように不可算名詞は原則として単数形しかあり得ない.また,ほとんどの可算名詞では単数形が lemma そのものであるし無標の形態でもある.ほかには,数の概念が中立化される場合,例えば hand in hand, from time to time などの慣用表現においては,単数形が用いられるのが普通である.
 (2)--(4) に関して,名詞によって単数形か複数形への偏りを示すというのも驚くに当たらない.それぞれの語群を眺めれば,そこに "the communicative needs of the language user" (291) が反映されていることがはっきりと分かるだろう.名詞全体をならせば,「コミュニケーション上の必要性」が単数形に偏りそうだということも直感される.
 では,会話で単数形の使用が多いというのは,どういうわけだろうか.Biber et al. (291--92) は次のように述べている.

In general, the high frequency of singular nouns in conversation probably follows from the concern of speakers with individuals: a person, a thing, an event. Writers of academic prose, on the other hand, are more preoccupied with generalizations that are valid more widely (for people, things, events, etc.). This same tendency applies not only to nouns, but also to determiners and pronouns (4.4.3.1, 4.12.1, 4.14.1, 4.15.2.1).


 コーパス全体としては,複数形は一般名詞の2割程度しか占めないことになる.複数形の研究を専門とする(つまり複数形の例をなるべく多く集めなければならない)私にとっては,なかなか厳しい数値だなあ・・・.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

Referrer (Inside): [2012-12-09-1]

[ 固定リンク | 印刷用ページ ]

2011-05-26 Thu

#759. 21世紀の世界人口の国連予測 [demography][statistics][elf]

 2011年5月3日付けで国連の World Population Prospects: The 2010 Revision が公表された.プレスリリースのPDFはこちら
 これによると,世界人口は今年10月末までに70億人に達し,2050年には93億人,2100年には101億人に達するとされる.人口を押し上げる主因は高い出生率を示す国々で,これにはアフリカの39カ国,アジアの9カ国,オセアニアの6カ国,ラテンアメリカの4カ国が含まれるという.
 主な国の数値を示すと,日本の人口は2010年の1億2600万人から2100年には約9130万人へ減少.中国の人口は1925年の約13億9500万人をピークに,2100年には約9億4100万人へ減少.インドの人口は,1925年に中国を追い抜き,1960年には17億1796万人に達し,2100年には約15億5000万人へ減少.
 大規模な人口統計予測には多くの前提が含まれている.例えば,プレスリリースの標題にもあるように "if Fertility in all Countries Converges to Replacement Level" という前提がある.したがって解釈には注意を要するが,英語話者人口を推計する上でも,このような統計値は最重要である.[2010-05-07-1]の記事「主要 ENL,ESL 国の人口増加率」で取り上げた主要ENL国(7カ国;参考として日本を追加)とESL国(13カ国)について,2100年までの人口推移( medium variant に基づく)をグラフ化してみた.

Population Shift in ENL Countries and Japan
Population Shift in ESL Countries


 ENL国はアメリカを除いて今世紀は低迷の予測だ.一方,ESL国は今世紀半ばにかけて伸長著しく,後半も衰えにくい.インドは突き抜けており,ナイジェリア,パキスタン,タンザニアの勢いも目を見張るものがある.
 国別の人口予測をもとに未来の英語話者の人口予測をすることは単純な作業ではないが,少なくともESL国の人口爆発力が具体的な予測に基づいて視覚的に確認されたとはいえるだろう.
 英語話者人口については,[2010-06-28-1], [2010-06-15-1], [2010-05-29-1]の記事も参照.

[ 固定リンク | 印刷用ページ ]

2011-04-08 Fri

#711. Log-Likelihood Tester CGI, Ver. 2 [corpus][bnc][statistics][web_service][cgi][lltest]

 以下に,汎用の Log-Likelihood Tester, Ver. 2 を公開.(後に説明するように,入力データのフォーマットに不備がある場合や,モードが適切に選択されていない場合にはサーバーでエラーが生じる可能性があるので注意.)

each-line mode lump mode


 [2011-03-25-1]の記事で,コーパス研究でよく用いられる対数尤度検定 ( Log-Likelihood Test ) の計算機 Log-Likelihood Tester, Ver. 1 を公開した.Ver. 1 は,コーパスサイズを加味しながら2つのコーパスでのキーワード(群)の出現頻度を比べ,コーパス間の差が有意であるかどうかを検定するものだった.
 Log-Likelihood Test は上述の目的で用いることが多いと思い,Ver. 1 ではあえて機能を特化させたのだが,より一般的に複数行,複数列の分割表で与えられるデータに対応する対数尤度検定を行ないたい場合もある.例えば,昨日の記事[2011-04-07-1]で,現代英語における thoughalthough の出現傾向について BNC に基づいた調査を紹介したが,Text Domain ごとの頻度比率は,両語の間で統計的にどの程度一致している,あるいは一致していないとみなすことができるのだろうか.昨日のグラフから,although は学術散文に多く,though は創作散文に多いという傾向が一目瞭然だが,この直感的な「一目瞭然」は統計的にはどのように表現されるのだろうか.
 このような場合には,次のような頻度表(値は100万語当たりの出現頻度に標準化済み)を準備し,これをコピーして入力ボックスに貼り付ける."lump mode" にチェックを入れ替え,"Go!" する.(デフォルトは "each-line mode" で,これは Ver. 1 と同等のモード.)

    thoughalthough
Natural and pure sciences56.380.13
Applied science37.3668.31
World affairs45.8168.2
Social science48.9863.38
Commerce and finance46.1857.21
Arts74.0752.93
Leisure45.8549.46
Belief and thought70.7846.75
Imaginative prose80.226.37


 結果は,1行だけの表として出力される.thoughalthough を表わす2列の数値の並びが,統計的にどのくらい近似しているかを計算している.結論としては,両語の Text Domain ごとの頻度の並びの差は p < 0.0001 という非常に高いレベルで有意であり,両語の出現傾向は Text Domain によってほぼ確実に異なるといえる.
 入力ボックスに入れるデータの書式は,タブ区切りの分割表.表頭と表側はいずれも省略可.サンプルのように表頭と表側の両方を含める場合には,左上のセルは空白にしておく必要あり.
 "each-line mode" の機能は Ver. 1 と互換なので,入力形式もそちらの説明を参照.今回の Ver. 2 の "each-line mode" では,出力結果をシンプルにおさえてある(逆に,詳しい内部計算値を得たい場合には Ver. 1 のほうが有用).
 Log-Likelihood Test の概要については,[2011-03-24-1]の記事を参照.

Referrer (Inside): [2012-10-26-1]

[ 固定リンク | 印刷用ページ ]

2011-04-07 Thu

#710. thoughalthough の語法の差 (2) [bnc][corpus][lltest][conjunction][statistics]

 昨日の記事[2011-04-06-1]で,thoughalthough の語法の差に触れた.今日も同じ話題で.
 4000万語超からなる The Longman Spoken and Written English Corpus (the LSWE Corpus) を駆使した現代英語の文法書,Biber et al. (845--46) では次のようにある.

Both of these subordinators [though and although] occur in all four registers [conversation, fiction, news, and academic prose], although the registers show different preferences of use. Conversation and fiction show a slightly greater use of though (concessive clauses are, however, uncommon in conversation generally). News shows no particular preference. In academic prose, although is about three times as frequent as though. Although seems to have a slightly more formal tone to it, fitting the style of academic prose . . . . The greater use of although by writers of academic prose may also result from an attempt to distinguish this subordinator from the common use of though as a linking adverbial in conversation . . . .


 また,同書の p. 842 の表からは,相対的に though が fiction で多く,although は academic prose で多いことが確認される.ジャンルによる差が現われているとの結果だ.
 このような先行研究を受けて,今回は BNC ( The British National Corpus ) によりこれを確かめてみる.BNCweb で,{although/CONJ}, {though/CONJ} をそれぞれ検索し,Written/Spoken, Text Domain, Sex of Author/Speaker, Perceived Level of Difficulty など様々なパラメータで出現分布を分析した.主立った結果を以下に示そう(数値データはこのページのHTMLソースを参照).
 まず,Written/Spoken の差については,予想されるとおり,両語とも Written への偏りが激しい(差異係数は though で 0.66344 ,although で 0.49770 で,明らかに書き言葉に偏る).Log-Likelihood Test では,p < 0.0001 のレベルで書き言葉と話し言葉の有意差が明確に示された.
 書き手,話し手の性による差も興味深い.書き言葉と話し言葉の両方で,although は有意差をもって男性の使用に偏っている.though については,性差は although ほど顕著ではない(ただし書き言葉では p < 0.05 で有意差あり).
 次に,Text Domain 別に頻度をみる.9種類の Text Domain を区別した ( Natural and pure sciences, Applied science, World affairs, Social science, Commerce and finance, Arts, Leisure, Belief and thought, Imaginative prose ) .100万語当たりの出現回数に標準化した値で,両語の Text Domain 別頻度をグラフ化したのが以下の図だ.



 Text Domain によって両語の出現頻度に対照的な傾向が見られることがわかる.相対的に sciences ( = academic prose ) に although が目立ち,Imag(inative) Prose ( = fiction ) に though が多い.Log-Likelihood Test では,Text Domain による出現傾向の差は p < 0.0001 で有意である.
 直感的にも先行研究の結果からも予想され得たことではあるが,although は男性の書き手により学術散文で顕著に用いられるという図式が現われた.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

Referrer (Inside): [2011-04-10-1] [2011-04-08-1]

[ 固定リンク | 印刷用ページ ]

2011-04-05 Tue

#708. Frequency Sorter CGI [corpus][bnc][statistics][web_service][cgi][lexicology][plural]

 何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
 改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.

foot, goose, louse, man, mouse, tooth, woman


     sort by rank?


 まず,BNC lemma-pos list による出力だが,この頻度表は約1億語の BNC 全体から,頻度にして800回以上現われる,上位6318位までの見出し語 ( lemma ) を収録している.したがって,それよりも頻度の下回る goose, louse については空欄となっている.頻度と不規則性の相関関係を考える際に参考になるだろう.
 次に,ANC word-tagset list による出力が続くが,この頻度表は BNC のものよりも規模が大きく,かつきめ細かい.合計22,164,985語を有する ANC (American National Corpus) から,Penn Treebank Tagset によってクラス付与された単位で語形が列挙されたリストである.タグセットが細かいので読みにくいし,自動タグ付与に起因するエラーも少なからず含まれているが,BNC のものよりも低頻度の語(形)を収録しているので,gooselouse の頻度情報も現われる.こちらの頻度表では WORD FORM ごとの頻度も確認できるため,直接 geeselice の頻度も確かめられる.
 当初 Frequency Sorter の用途として想定していたのは,上記の不規則複数形を示す語群などの頻度と順位の一括調査だったが,他にも用途はあるかもしれない.以下に,思いつきをメモ.

 ・ 1単語から使えるので,like のような多品詞語を入力して,品詞(あるいはタグ付与されたクラス)ごとの頻度を取り出せる.
 ・ ヒット数だけを確認したい場合には,いちいちコーパスを立ち上げる必要がない.
 ・ 論文やプレゼンで,ある目的で集めた数百語の単語リストの中から典型的な例,分かりやすい例を10個ほど示したいときなど,頻度の高い10個を選べばよい.例えば,[2011-03-29-1]で列挙した sur- を接頭辞にもつ単語リストのうち,例示に最もふさわしい10個を選ぶなどの目的に.頻度に基づいた順番のほうが,ランダム順やアルファベット順よりも親切なことが多いだろう(今後,本ブログ執筆に活用する予定).
 ・ 英米それぞれの代表的なコーパスに基づく頻度表を利用しているので,綴字や形態などの頻度の英米差を確認するのに使える.
 ・ (実際には lemmatisation が必要だが)適当な英文を放り込んでみて,妙に頻度の低い語が含まれていないかを調べる.頻度のツールなので,その他,教育・学習目的にいろいろと使えるかもしれない.

[ 固定リンク | 印刷用ページ ]

2011-03-25 Fri

#697. Log-Likelihood Tester CGI [corpus][bnc][statistics][web_service][cgi][lltest][sociolinguistics]

 昨日の記事[2011-03-24-1]で Log-Likelihood Test を話題にした.計算には Rayson 氏の Log-likelihood calculator を利用すればよいと述べたが,実際の検定の際に作業をもう少し自動化したいと思ったので CGI を自作してみた.細かい不備はあると思うが,とりあえず公開.



 上のテキストボックスに入力すべきデータは,タブ区切りの表の形式.1行目(省略可)はコーパス名,2行目以降はキーワードと観察頻度数(ヒット数),最終行は各コーパスのサイズ(語数)."#" で始まる行はコメント行として無視される.1列目のキーワード列は省略可.
 以下のテキストが入力サンプル.[2010-09-11-1]の記事で取り上げたテレビ広告で頻用される形容詞(比較級と最上級を含む)トップ20の頻度を,BNCweb の話し言葉サブコーパスから話者の性別に整理した表である.このままコピーして入力ボックスに貼り付けると,出力結果が確認できる.

    BNC_Male_SpeakersBNC_Female_Speakers
new14991
good408310
free17375
fresh84118
delicious1234
full210107
sure532328
clean197223
wonderful270258
special17782
crisp1016
fine347215
big470415
great20396
real16380
easy326157
bright113110
extra347203
safe18292
rich12045
#--------
corpus_size49499383290569


 男女間で有意差の特に大きいのは,対応行が赤で塗りつぶされた fresh, delicious, clean, wonderful, big で,いずれも期待度数に基づいて計算された Diff_Co ( "Difference Coefficient" 「差異係数」 ) がマイナスであることから,女性に特徴的な形容詞ということになる.big は意外な気がしたが,おもしろい結果である.一方,男性に偏って有意差を示すのは黄色で示した easyrich である.この結果はいろいろと読み込むことができそうだし,より詳細に調べることもできる.広告の形容詞という観点からは,話者ではなく聞き手の性別,年齢,社会階級などを軸に調査してもおもしろそうだ.いろいろと応用できる.

Referrer (Inside): [2011-04-08-1]

[ 固定リンク | 印刷用ページ ]

2011-03-24 Thu

#696. Log-Likelihood Test [corpus][bnc][statistics][lltest]

 [2010-03-04-1]の記事で触れたが,コーパス言語学では各種の統計手法が用いられる.いくつかある手法のなかでも,ある表現のコーパス間の頻度を比較したり,collocation の度合いを測るのに広く用いられているのが Log-Likelihood Test ( LL Test, G Test, G2 Test などとも)呼ばれる検定である.コーパスサイズを考慮に入れた検定なのでサイズの異なるコーパス間での比較が可能であり,同じ目的で以前によく用いられていたカイ2乗検定 ( Chi-Squared Test ) よりもいくつかの点ですぐれた手法と評価されており,最近のコーパス研究では広く用いられている.(例えば,カイ2乗検定は期待頻度が5回より少ないとき,高頻度語を扱うとき,コーパスサイズが大きいものと小さいものを比較するときに信頼性が低くなるが,Log-Likelihood Test はこれらの影響を受けにくい [ Rayson and Garside 2 ] .)
 Log-Likelihood Test の基本的な考え方は,コーパスサイズをもとにある表現の期待される出現頻度(期待頻度)を割り出し,その値と実際に出現する頻度(観察頻度)の差が単純な誤差と考えられるほどに近似しているかどうかを判定するというものである.例として,次のようなケース・スタディを試す.BNC ( The British National Corpus ) から話し言葉サブコーパスと書き言葉サブコーパスを区別し,両サブコーパス間で f*ck という four-letter word の頻度を比較する.BNCweb よりこのキーワードを検索すると,次のような結果が得られた.

CategoryNo. of wordsNo. of hitsDispersion (over files)Frequency per million words
Spoken10,409,85857963/90855.62
Written87,903,571743172/3,1408.45
total98,313,4291,322235/4,04813.45


 統計処理をほどこすまでもなく最右列 "Frequency per million words" を見れば,f*ck が圧倒的に話し言葉で多く用いられることが分かるが,今回はこれを統計的に裏付ける.まず,帰無仮説として「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内であり,この語に関して両者に意味のある差はない」を設定する.その対立仮説は「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内でなく,この語に関して両者の差は意味がある」となる.帰無仮説が支持されるかどうかを決めるのが,検定の目的である.

 Corpus 1Corpus 2Total
Frequency of wordaba+b
Frequency of other wordsc-ad-bc+d-a-b
Totalcdc+d


 Log-Likelihood Test に用いる Log-Likelihood ratio 「対数尤度比」は,上の表の要領で各サブコーパスの総語数 ( c, d ) と,各サブコーパスでの f*ck の頻度数 ( a, b ) を分割表にまとめた上で,それぞれの期待頻度 E1 と E2 を下の (1) の式で求め,その値を (2) の式に代入して求める.

 (1) E1 = c*(a+b)/(c+d); E2 = d*(a+b)/(c+d)
 (2) LL = 2*((a*log(a/E1))+(b*log(b/E2)))

 f*ck の数値で計算すると,以下のようになる.

 E1 = 10409858*(579+743)/(10409858+87903571) = 139.979170861796
 E2 = 87903571*(579+743)/(10409858+87903571) = 1182.0208291382
 LL = 2*((579*log(579/139.979170861796))+(743*log(743/1182.0208291382))) = 954.2115

 Log-likelihood ratio として 954.2115 という値が算出される.次にこの値を,適切な有意水準(通常は 5%, 1%, 0.1%)に対応するカイ二乗値と比較する.2 * 2 の分割表に対する計算では自由度1のカイ二乗値を用いることになっており,その値は有意水準 5%, 1%, 0.1% の順にそれぞれ 3.84, 6.63, 10.83 である.954.2115 の Log-Likelihood ratio は有意水準 0.1% に対応する 10.83 よりもずっと高いので,0.1% の有意水準で帰無仮説は棄却される.言い換えれば,統計的には帰無仮説が真である確率は 0.1% にも満たず,まず偽と考えてよいということである.このようにして対立仮説「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内でなく,この語に関して両者の差は意味がある」が採択されることになる.
 Log-Likelihood Test は以上のように進められるが,この検定を行なうにあたっての前提条件を知っておく必要がある.一般には,計算される期待頻度が 5 を下回るセルが1つでもある場合には,検定の精度は落ちるとされる.これは the Cochran rule と呼ばれているが,よりきめ細かなルールを提起した Rayson, Berridge, and Francis (8) によれば,期待頻度が満たすべき最低値は有意水準 5% で13 回,1% で 11 回,0.1% で 8 回だという.有意水準を 0.01% に設定すれば期待頻度 1 回にも耐える精度を得られるので,Rayson et al. はコーパス言語学で慣習的に用いられている3つの水準に加えて,0.01% の水準(対応するカイ二乗値は 15.13 )までの検定を推奨している.
 統計には詳しくないが,ある表現の 2(サブ)コーパス間での頻度比較というシーンで簡単に用いることができる検定として,Log-Likelihood Test の応用範囲は広そうだ.計算自体は Rayson 氏の Log-likelihood calculator などに任せればよい(本記事はこのページの記述とリンク先の論文を参考にした).
 BNC を用いた f*ck 関連語の分布の研究は,McEnery et al. (264--86) のケース・スタディに詳しい.
 関連して,検定は行なわなかったが,かつて本ブログで扱った gorgeous の調査 ([2010-08-16-1], [2010-08-17-1],[2010-12-25-1]) なども参照.

 ・ Rayson, P., D. Berridge , and B. Francis. "Extending the Cochran Rule for the Comparison of Word Frequencies between Corpora." Le poids des mots: Proceedings of the 7th International Conference on Statistical Analysis of Textual Data (JADT 2004), Louvain-la-Neuve, Belgium, March 10-12, 2004. Ed. Purnelle G., Fairon C., and Dister A. Louvain: Presses universitaires de Louvain, 2004. 926--36. Available online at http://www.comp.lancs.ac.uk/computing/users/paul/publications/rbf04_jadt.pdf .
 ・ Rayson, P. and R. Garside. "Comparing Corpora Using Frequency Profiling". Proceedings of the Workshop on Comparing Corpora, Held in Conjunction with the 38th Annual Meeting of the Association for Computational Linguistics (ACL 2000), 1-8 October 2000, Hong Kong. 2000. 1--6. Available online at http://www.comp.lancs.ac.uk/computing/users/paul/phd/phd2003.pdf .
 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ 固定リンク | 印刷用ページ ]

2011-02-26 Sat

#670. 中英語ロマンスにおける formula の割合 [literature][romance][statistics][formula]

 中世ロマンスの言語上の大きな特徴の1つに,formula の多用がある.stock phrase とも言われ「決まり文句,常套句」を指す.formula の定義には,表現の幅を限定したきわめて狭いものから,語彙や統語のレベルでの型に適合していればよいとする広いものまであるが,多くの formula 研究は Milman Parry の次の定義から出発している.

A formula is "a group of words which is regularly employed under the same metrical conditions to express a given essential idea." (qtd in Wittig, p. 15 as from "Studies in the Epic Technique of Oral Verse-Making. I: Homer and Homeric Style." Harvard Studies in Classical Philology 41 (1930). page 80.)


 formula の具体例を挙げればきりがないが,"'Dame,' he said", "that hendi knight", "feyre and free" などの短いものから,"He was a bolde man and a stowt", "And he were neuer so blythe of mode", "For to make the lady glade / That was bothe gentyll and small" などの長いものまで様々である.Wittig によれば,中英語の韻文ロマンス25作品から Parry の条件を厳密に満たす formula を含む行を抜き出したところ,以下のような結果が得られた.

POEMLENGTHVERSE TYPEFORMULA RATE
Lai le freine340 linescouplet10%
Sir Landeval500couplet11
Sir Launfal1044tail-rhyme16
King Horn1644couplet18
Sir Degare1076couplet21
Havelok2822couplet21
Sir Isumbras804tail-rhyme22
Sir Amadace864tail-rhyme22
Sir Perceval2288tail-rhyme22
Horn Child1138tail-rhyme24
Roswall and Lillian885couplet25
Ocatvian (southern)1962tail-rhyme25
Sir Triamour1719tail-rhyme25
Earl of Toulous1224tail-rhyme26
Ywain and Gawayn4032couplet27
Sir Eglamour1377tail-rhyme29
Squyr of Lowe Degre1131couplet30
Lebeaus Desconus2131tail-rhyme30
Sir Torrent2669tail-rhyme31
Bevis of Hampton4332couplet34
Eger and Grime1474couplet35
Sir Degrevant1920tail-rhyme38
Octavian (northern)1731tail-rhyme39
Floris and Blancheflur1083couplet41
Emare1030tail-rhyme42


 平均をとると,各テキストを構成する行数の26.56%が formula を含んでいることになる.couplet では平均が24.82%,tail-rhyme では27.93%だが,大差はない.また,テキストの長さと formula 行の割合には強い相関はない.Wittig の研究では,Arthur,Troy,Alexander ものなどの "cycle" は含まれていない.参照テキストを限定し,定義を厳密にし,あくまで低めに抑えられた数え上げなので,定義を緩くすれば相当に数値が上がるはずだという.
 ロマンスのテキストの約1/4が formula から成っているとすると,聴衆にとって次にどのような文言が現われるかは予測可能ということになる.また,ロマンスは物語としての筋もおよそ決まっているので,聴衆にとって「新情報」を得る機会は非常に少ないと考えられる.では,そのようなロマンスが中世に大流行したのはなぜか.聴衆はロマンスに何を期待していたのだろうか.

 ・ Wittig, Susan. Stylistic and Narrative Structures in the Middle English Romances. Austin and London: U of Texas P, 1978.

Referrer (Inside): [2011-02-28-1] [2011-02-27-1]

[ 固定リンク | 印刷用ページ ]

2011-02-23 Wed

#667. COCA 最頻50万語で品詞別の割合は? [lexicology][corpus][french][loan_word][adjective][statistics][coca]

 昨日の記事[2011-02-22-1]に引き続き,COCA ( Corpus of Contemporary American English ) に基づく単語の頻度リストを利用したパイロット・スタディ.今回は,こちらで最近になって追加された最頻50万語のリストを用いて,昨日と同様の品詞別割合を調べた.昨日のリストは見出し語 ( lemma ) に基づいた最頻5000語,今日のリストは語形 ( word form ) に基づいた最頻50万語(正確には497187語)で,性格が異なることに注意したい.
 昨日とほぼ同じ作業だが,今回は2万語ずつで階級を区切り,L1からL25までの階級のそれぞれにおいて noun, verb, adj., adv., others の5区分で品詞別割合を出した.(数値データはこのページのHTMLソースを参照.)

Form-Based POS Ratios by COCA

 L6(12万語レベル)辺りから品詞別比率は安定期に入るといってよいだろう.L17(34万語レベル)辺りから変動期が始まるのが気になるが,階級幅を大きくしてみると(ならしてみると)直前のレベルから大きく逸脱していない.
 [2011-02-16-1]の記事以来,形容詞の比率が気になっているが,今回のデータ全体から計算すると,0.1738という値がはじきだされた.昨日の lemma 調査では0.1678だったから,値は非常に近似している.ただし,名詞と動詞の lemma 対 word form の比率は,名詞が 0.5086 : 0.6985,動詞が 0.2000 : 0.1065 と大きく異なるので,形容詞の 0.1678 : 0.1738 という近似は偶然かもしれない.lemma 対 word form の品詞別割合には異なる傾向があるのかもしれないが,それでも大規模に調べると安定期と呼びうる区間が出現することは確かなようだ.
 [2011-02-16-1]の記事で触れたように,中英語期のフランス借用語における形容詞比率は0.1768だった.今回の値0.1738と酷似しているが,主題の性質がまるで違うので,直接の関係を論じることは無理である.もとより昨日と今日の調査は,[2011-02-16-1]の調査とは無関係に始めたものである.しかし,偶然と思えるこの結果は,示唆的ではある.借用語彙といえば名詞が圧倒的なはずだと予想していたものの,フランス語や古ノルド語からはおよそ一定の割合の形容詞(それぞれ lemma 調査で0.1768と0.1817)が借用されていた.そして,その比率は時代が異なるとはいえ現代英語の比率と近似している.英語語彙全体における比率と借用語彙における比率が近似しているということは,もし偶然でないとしたら,何を意味するのだろうか.フランス借用語彙や古ノルド借用語彙が,英語に適応するような自然な比率で英語語彙へ溶け込んだということだろうか.これは,今回のパイロット・スタディの結果を受けての印象に基づく speculation にすぎない.今後も品詞別割合という観点に注目していきたい.

[ 固定リンク | 印刷用ページ ]

2011-02-22 Tue

#666. COCA 最頻5000語で品詞別の割合は? [lexicology][corpus][statistics][n-gram][coca]

 COCA ( Corpus of Contemporary American English ) に基づいた各種語彙リストが Corpus-based word frequency lists, collocates, and n-grams から入手できる.そのなかで最も基本的なリストが,こちらの最頻5000語リストである.列挙されているのは見出し語 ( lemma ) 単位で,順位はコーパスに現われる頻度と分散の関数で計算されている.UCREL CLAWS7 Tagset の品詞コード表に基づいた粗い品詞情報も付与されており,品詞別の頻度などを手軽に分析することができる.
 今回は,500語ごとに区切って頻度の高い順にL1からL10までの階級を設け,それぞれの階級における品詞別割合を出した.品詞は開いた語類 ( open class ) を中心とし,noun, verb, adj., adv., others の5区分とした.(数値データはこのページのHTMLソースを参照.)

Lemma-Based POS Ratios by COCA

 第1階級を除き,どの階級でも名詞が過半数を占めているのは予想できたことだが,第2階級以降に名詞の割合が思ったほど伸びていないことが分かった.動詞と形容詞が後半の階級でもおよそ一定の割合を占め続けているのも予想外だった.全体として,最頻5000語リストに限れば,名詞が飛び抜けつつも,開いた語類の内部比率はおよそ一定に保たれているといえよう.階級幅を様々に動かして試してみたが,およそ安定期に入るのは500語以降と見てよさそうだ.
 [2011-02-16-1]の記事で中英語期のフランス借用語の品詞別割合をみたが,全体としての形容詞比率は0.1768だった.今回の現代英語の最頻5000語では,全体としての形容詞比率は0.1678.比べて意味のある数値かどうかは分からないが,英語(言語?)における品詞別比率の「安定感」のようなものはあるのだろうか.
 COCA に基づくもの以外にオンラインで入手できる最頻英単語リストについては[2010-03-01-1]の記事を参照.頻度表を利用した別のパイロット・スタディとしては,単語の音節数を扱った[2010-04-17-1]の記事を参照.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow