連日の話題となっているが,Algeo と Bauer を比べているうちに俄然おもしろくなってきた新語ソース調査について (##873,874,875,876,877,878,879) .Algeo の詳細な区分 は,1963--72年の新語サンプル5000語に基づいたあくまで共時的な調査結果だが,いくつかの点で通時的な傾向を示唆しているように思える.Algeo 自身が言及あるいは議論している点について,以下に要約する.
(1) 新語の約3分の2 (63.9%) が,既存要素の合成,つまり複合 (compounding) と接辞添加 (affixation) により生じている.複合と接辞添加は特に古英語において新語形成の主要な手段だったと言及されることが多いが,現在英語においてもお得意の語形成であるという事実は変わっていない.
(2) 合成のなかでは,接辞添加 (34.1%) のほうが複合 (29.8%) よりも多い.前者のなかでは,接頭辞のほうが接尾辞より種類が多いものの,接尾辞は統語機能をそなえているために出現頻度が高く,より重要である.この意味で,英語は "a suffixing language" (272) である.
(3) 短縮 (shortening) は,客観的な証拠はないものの,"I suspect that the number of shortenings in English has increased greatly during the last two or three centuries" (271) .その理由としては,識字率向上の結果として生じた書き言葉の優勢を指摘している."Of the various kinds of shortening, the largest subgroup is that in which the shortening is based on the written form (acronyms, alphabetisms, and the like); this preeminence of the written language is clearly one of the consequences of increasing literacy" (272) .
(4) 英語において借用 (borrowing) は14世紀をピークとして衰退してきており,現在ではむしろ他言語へ単語を貸し出すソース言語としての役割が大きくなってきている.
もう1つ,詳細な区分では数値として表われていないが興味深い事実として,以下の点を指摘している.
. . . of the whole sample of new words, 76.7 percent are nouns, 15.2 percent adjectives, 7.8 percent verbs, and .3 percent other parts of speech. It seems that there are far more new things than new events to talk about. Whatever the case may be syntactically, in its lexicon, English is a nominalizing language. (272)
新語に名詞が多いという事実は驚くに当たらないかもしれない(英語語彙の品詞別割合については[2011-02-22-1], [2011-02-23-1]の記事を参照).英語が本当に "a nominalizing language" かどうかを検証するには,語彙全体における名詞の割合について通言語的に調査する必要があるだろう.それでも,Algeo のこの指摘は,Potter のいう現代英語の "noun disease" (100--05) という問題と関係しているかもしれないと考えると,興味をそそられる( "noun disease" については,[2011-09-04-1]の記事「#860. 現代英語の変化と変異の一覧」の1項目として挙げた).
最後に,影が薄くなってきている新語ソースとしての借用について,借用元言語として日本語がフランス語に次いで第2位であるという事実が注意をひく.日本語からの借用については,以下の記事を参照.
・ #45. 英語語彙にまつわる数値: [2009-06-12-1]
・ #142. 英語に借用された日本語の分布: [2009-09-16-1]
・ #126. 7言語による英語への影響の比較: [2009-08-31-1]
・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
・ Potter, Simon. Changing English. London: Deutsch, 1969.
今日も,現代英語の新語ソースに関する最近の一連の話題 (##873,874,875,876,877,878) の続き.[2011-09-19-1]の記事「#875. Bauer による現代英語の新語のソースのまとめ」で Bauer の調査結果をグラフ化したが,それに Algeo の調査結果を追加したものを作成した(原データと表はHTMLソースを参照).各項目で4本目の棒が,Algeo による Barnhart の新語辞書に基づく1963--1974年の数値を反映している.棒グラフとしては隣り合っているが,Algeo の調査対象年代は Bauer の第3期に包含されることに注意されたい.
昨日の記事[2011-09-21-1]でも述べた通り,Bauer と Algeo の調査では前提がいくつか異なっている.特に Bauer では品詞転換が考慮に入れられていないので,比較条件を揃えるために,Algeo のデータから "Shifts" として区分されている数値を除いてあることにも注意されたい( "Shifts" は調査語彙全体の14.2%を占める小さくはない数値である.こちらの詳細区分を参照).また,Algeo の "Blends" は,今回のグラフ作成では "shortening" の一種として扱った.
Algeo の数値は Bauer の第3期の数値と開きこそあるが,新語ソースの傾向としてはおもしろいほどに一致している.Bauer の示唆する通時的な傾向が,Algeo によって著しく強調されて示されていると言ったらよいだろうか.比較基準の差異という問題は常について回るだろうが,互いに支持する結果となったのが興味深い.
・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
[2011-09-17-1], [2011-09-18-1], [2011-09-19-1]の記事で,Bauer (35, 38) による1880--1982年の約1世紀のあいだの新語ソースの変遷について触れてきた.現代英語の新語ソースの内訳が通時的にいかに変化してきたかに関する研究は他にあまり見たことがないが,共時的な内訳の調査であれば昨日の記事「#876. 現代英語におけるかばん語の生産性は本当に高いか?」 ([2011-09-20-1]) で触れた Algeo がある.
Algeo の調査は1963年以降の新語を収録した Barnhart の辞書から無作為抽出した1000語に基づくもので,時期区分で言えば Bauer の第3期(1939--82年)のおよそ後半に相当する時期の新語に関する調査ということになる.新語ソースの分類が Bauer に比べてずっと細かいのが特徴で,分類ラベルを眺めるだけでも形態論や語彙論の概要がつかめてしまいそうな細かさだ.また,Bauer は 品詞転換 (conversion) を調査対象に含めていないが,Algeo は "Shifts" の1部として含めている.ただし,この "Shifts" には意味変化の例も含まれており,新語の定義の問題(新語形のことなのか,あるいは新語義も含むのか)を考えさせられる.
Algeo の論文の Appendix (273--76) に掲載されている,詳細な新語ソース区分とその内訳の数値をこちらのページに転載したので,参照されたい.
上記のように Bauer と Algeo では調査対象とした辞書,時代,新語ソース区分,前提としている新語の定義が一致していないので直接比較はできないものの,両者の与える数値はいずれにせよ概数であるから,合わせて現代英語の新語ソースに関する傾向を示唆するものとして大いに参考になるだろう.
現代英語の新語については,[2011-01-16-1]の記事「#629. 英語の新語サイト Word Spy」を参照.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
・ Barnhart, Clarence L., Sol Steinmetz, and Robert K. Barnhart, eds. The Barnhart Dictionary of New English since 1963. Bronxville, N.Y.: Barnhart, 1973.
[2011-01-18-1]の記事「#631. blending の拡大」で,現代英語においてかばん語が増加している件について取り上げた.かばん語は,現代英語の傾向の1つとして Leech et al. が指摘している "densification" (50) の現われと考えられそうである([2011-01-12-1]の記事「現代英語の文法変化に見られる傾向」を参照).多数のかばん語の例を示されれば,確かにさもありなんと直感されるところではある.しかし,[2011-09-17-1]の記事「#873. 現代英語の新語における複合と派生のバランス」で触れたとおり,Bauer の新語調査によれば,新語におけるかばん語の割合は1880--1982年の期間で p < 0.05 のレベルでも有意な増加を示していない(ただし絶対数は増加している).複数の観察者が指摘しており,私たちの直感にも適うかばん語の増加傾向と,客観的な統計値とのあいだに差があるのはどういうことだろうか.
1つには,Bauer の調査対象期間が1982年で終わっているということがあるだろう.当時の客観的状況と2011年の時点で私たちの抱いている直感とが食い違っていても不思議はない.この30年ほどの間に blending が激増したという可能性も考えられる.
もう1つ,直感と数値のギャップを説明し得る要因がある.この点に関して,Algeo の調査を紹介したい.多くの語彙研究が OED 系の辞書を利用しているが,Algeo はそれとは別系列の辞書を利用して独立した新語調査を行なった.彼の採った方法は,1963年以降の新語を収録した Barnhart の辞書から1000語を無作為抽出し,それをソースや語形成ごとに振り分けるというものである.その調査によると,かばん語は調査した新語語彙全体の4.8%を占めるにすぎず,他の主要な語形成のなかでは目立たないカテゴリーであるという結果となった.しかし,Algeo (271) はこの数値は過小評価だろうと述べている.
Last in numerical importance as a source of new words is blending. Less than a twentieth of our new words have been formed in that way (4.8 percent); however, blending is more popular than that statistic suggests. Its principal areas of use are popular journalism and advertising. Time magazine and Madison Avenue dearly love a blend. Most of the popular coinages are nonce forms that were unreported in the Barnhart dictionary and consequently are not included in these statistics. But every new word begins as a nonce form, so a source that is prolific of nonce forms today may be expected to increase its contribution to the general vocabulary tomorrow. Blending may look like a long shot, but the smart money will keep an eye on it.
"nonce-form" あるいは "nonce-word" (臨時語)に blending が多用されるというのは客観的に確かめにくいが,直感には適う.形態の生産性 (productivity) とは何を指すかという問題は,[2011-04-28-1], [2011-04-29-1], [2011-05-28-1]の記事でも触れてきたように,明確な解答を与えるのが難しい問題である.この問いは,何を(辞書に掲載するに値する)語とみなすかというもう1つの難問にも関係してくる([2011-03-28-1]の記事「#700. 語,形態素,接辞,語根,語幹,複合語,基体」を参照).blending の真の生産性は辞書や辞書に基づいた統計値には現われにくいが,言語使用の現場において活躍している語形成であることは恐らく間違いない.問題は,この主観的評価を,いかにして客観的に支持し得るかという方法の問題なのではないか.
・ Leech, Geoffrey, Marianne Hundt, Christian Mair, and Nicholas Smith. Change in Contemporary English: A Grammatical Study. Cambridge: CUP, 2009.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
・ Algeo, John. "Where Do the New Words Come From?" American Speech 55 (1980): 264--77.
・ Barnhart, Clarence L., Sol Steinmetz, and Robert K. Barnhart, eds. The Barnhart Dictionary of New English since 1963. Bronxville, N.Y.: Barnhart, 1973.
過去2日の記事[2011-09-17-1], [2011-09-18-1]で,Bauer の調査結果に基づいて新語のソースを概観した.類似した調査はそれほど多くないようなので,Bauer のデータ (35, 38) は貴重だと思い,もう少し分析してみた.(データは整理してHTMLソースに載せておいた.)
新語のソースを大きく2分すると,借用 (borrowing) と語形成 (word formation) のカテゴリーが得られる.借用は借用元言語によって数種類に下位区分され,語形成も主として形態論の観点から数種類に下位区分される.あまり細かく区分しても大きな傾向が見にくくなるので,借用は借用元言語を区別せず,語形成は4種類に大別し,(1) borrowing, (2) composition, (3) derivation, (4) shortening, (5) other word formations の5区分で集計しなおした.以下のグラフでは,ソースごとの3期にわたる割合の変化がつかみやすいように百分率で表示してある.例えば,第1期1880--1913年を示す黒棒の数値を足し合わせると100%となる,という読み方である.
全体として,対象となった約100年間の通時的変化は p < 0.0001 のレベルで有意差が出た.そのなかでも借用の激減が最も顕著な変化である(同じく p < 0.0001 のレベルで有意).一方,各時期で合わせて6割ほどを示す composition と derivation の主要2カテゴリーは,時期によってそれほど変化していない( p < 0.05 レベルで有意差なし).また,全体での割合からすると目立たない shortening や他の語形成が順調に増加していることも見逃してはならない(shortening については,p < 0.001 のレベルで有意).カテゴリーの区別の仕方によって傾向の見え方も変化するので,同じデータを様々な角度から眺めることが必要だろう.
この3日間の記事のグラフをまとめてみられるように,3記事を「##873,874,875」で連結したので比較までに.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
昨日の記事「現代英語の新語における複合と派生のバランス」 ([2011-09-17-1]) で取り上げた Bauer の調査は,現代英語の新語を構成する要素の起源,つまりソース言語をも考慮に入れている (32--33, 34--36) .(データはHTMLソースを参照.)
新語における借用比率は,1880--1913, 1914--38, 1939--82年の3期にわたり 31.4% -> 22.3% -> 19.2% と大きく目減りしている.現代英語においては,中英語や初期近代英語に比べ,全体的に借用に依存する程度が急減しているのがわかる.借用元言語ごとに状況を見てみよう.以下のグラフは,Bauer (35) に掲載されている表に基づいて作成したものである.
統計的には Fr. (French) と Grmnc (Other Germanic) において p < 0.05 のレベルで減少の有意差が認められるものの,特定のソース言語が全体的な減少に関与しているというよりは,ソース言語にかかわらず全般的に減少傾向が続いているものと読める.
注意すべきは,1880--1913年の Other カテゴリーが際立っていることだ.ここには,オーストラリア,ポリネシア,アメリカの土着言語からの借用が多く含まれているという.なぜこの時期にこれらの言語からの借用が多かったかという問題は,別途調査して考察する必要があるだろう.
Bauer の第3期の終了年である1982年より,約30年が経過している.以後,英語の借用離れは続いているのだろうか.これも興味深い問いである.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
英語語彙の歴史は,供給源という観点から,大雑把に次のように概括される.古英語では複合 (composition) と派生 (derivation) が盛んだったが,中英語から初期近代英語にかけては借用 (borrowing) が著しく,後期近代英語以降は再び複合と派生が伸張してきた.この語彙史の流れを受けて,現代は新語の供給源を,借用よりも既存要素(それ自体は本来語とは限らない)の再利用に多く負っている時代ということになる.では,現代英語を特徴づけるとされる複合と派生の2つの語形成では,どちらがより生産性が高いといえるだろうか.Potter (69--70) は,両者のバランスはよく取れていると評価している.
German and Dutch, like ancient Greek, make greater use of composition (or compounding) than derivation (of affixation). French and Spanish, on the other hand, like classical Latin, prefer derivation to composition. Present-day English is making fuller use of both composition and derivation than at any previous time in its history.
もちろん,両者のバランスが取れているからといって他言語よりも優れた言語ということにはまったくならない.ただし,ゲルマン語派とロマンス語派の語形成の特徴を兼ね備えていることにより,英語がいずれの立場からも「近い」言語と感じられるという効果はあるかもしれない(関連する議論は[2010-05-27-1]の記事「英語のロマンス語化についての評」を参照).ゲルマン系でもありロマンス系でもあるという現代英語の特徴は,語形成に限らず語彙全体にも言えることである.
さて,Potter は上記のように複合と派生の好バランスを指摘したが,生産性を量的に測ったわけではなく,他の主要なヨーロッパ語あるいは古い英語との比較において評価したにすぎない.この点についてより客観的に調査したのが,Bauer (32--33, 36--39) だ.Bauer は The Supplement to the Oxford English Dictionary (1972--86) を用いた無作為標本調査で,対象に選ばれた本来語要素から成る新語1559語を初出年により (1) 1880--1913, (2) 1914--38, (3) 1939--82 の3期に区分して,造語法別に語を数えた.区別された造語法とは,Abbreviations, Blends, Shortenings, Compounds, Prefixation, Suffixation, Names, Neo-classical compounds, Simultaneous prefix and suffix, Other の10種類である.
Bauer (38) の掲げた表のデータを Log-Likelihood Tester, Ver. 2 に投げ込んで統計処理してみた(データはHTMLソースを参照;グラフは以下を参照.).全体として時期別の差は p < 0.05 のレベルで有意であり,分布の通時的変化が観察されると言ってよいだろう.次に造語法別に変化を見てみると,Abbreviations が p < 0.01 のレベルで有意な増加を示し,Suffixation と Neo-classical compounds がそれぞれ p < 0.05 のレベルで有意な減少を示した.その他の造語法については,3期にわたる揺れは誤差の範囲内ということになる.Bauer (37--38) は,Blends の増加を有意であると示唆しており,しばしば指摘される同趣旨の傾向を支持しているようだが,計算上は p < 0.05 のレベルでも有意差は認められなかったので注意が必要である([2011-01-18-1]の記事「blending の拡大」を参照).
複合系 (Compounds, Neo-classical compounds) と 派生系 (Prefixation, Suffixation, Simultaneous prefix and suffix) で比べると,3時期を通じて後者の割合は前者の割合の2.7倍程度で圧倒している(以下のグラフを参照).数値的には,派生のほうにバランスが偏っているようだ.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
・ Potter, Simon. Changing English. London: Deutsch, 1969.
標題について[2011-08-27-1], [2011-08-28-1]の記事で話題にしてきたが,現代英語でこの用法の she が《古風》となってきている,あるいは少なくともその register が狭まってきているのはなぜだろうか.
これには,1960年代以降,とりわけアメリカ英語で高まってきた言語の gender 論,男女平等という観点からの political correctness (PC) への関心がかかわっている.この観点から,人間の総称としての man(kind),女性接尾辞 -ess,職業人を表わす複合語要素 -man,一般人称代名詞としての he の使用などが疑問視され,数々の代替表現が提案されてきた.(関連する話題は,[2009-08-20-1]「男の人魚はいないのか?」, [2010-01-27-1]「現代英語の三人称単数共性代名詞」, [2011-04-17-1]「レトリック的トポスとしての語源」などの記事を参照.)
この観点から she の特殊用法を見ると,船や国名を取り立てて女性代名詞で受ける理由はないではないかという議論が生じる.船乗りや国の為政者が主として男性だったという英語国の歴史を反映していることは確かだろうが,現在も旧来の慣習を受け継ぐべき合理性はないという考え方である.
特に国名を受ける she の用法は,形式張った書き言葉という register に限ると,1960年代以降,激減してきていることが実証される.The Times corpus を用いてこれを検証した Bauer (148--49) によると,1930年までは国を指示する she の用法は標準的だった.実際,1900年から1930年の間で,国を指示する it の用例は3例のみだったという.ところが,1935年以降,it の例が断続的に現われだし,1970年にはshe を圧迫して一気に標準となった.she の用例が減少してきた過程は逆S字曲線を描いているかのようであり,語彙拡散 (lexical diffusion) を思わせる.以下のグラフは Bauer (149) のグラフに基づいて概数から再作成したものである.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.
・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合
語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.
|
同綴りで品詞によって強勢位置の交替する語 (diatone) の典型例である「名前動後」については,[2009-11-01-1], [2009-11-02-1], [2011-07-07-1], [2011-07-08-1], [2011-07-10-1], [2011-07-11-1]の一連の記事で論及してきた.主に名詞と動詞の差異を強調してきたが,形容詞もこの議論に関わってくる([2011-07-07-1]の記事では関連する話題に言及した).強勢位置について,形容詞は原則として名詞と同じ振る舞いを示し,動詞と対置される.いわば「形前動後」である.
形前動後の事実は,まず統計的に支持される.Bolinger (156--57) によれば,3万語の教育用語彙集からのサンプル調査によると,多音節語について,形容詞の91%が non-oxytonic (最終音節以外に強勢がある)だが,動詞の63%が oxytonic (最終音節に強勢がある)であるという.単音節語については,強勢の位置が前か後ろかを論じることはできないしその意味もないが,単純に動詞と形容詞の個数の比率を取ると動詞が60.7%を占める.単音節語の強勢は通常 oxytonic と解釈されるので,この比率は形容詞に比して動詞の oxytonic な傾向を支持する数値といえよう.
形前動後という強勢位置の分布に関連して,Bolinger は両品詞の語形成上の差異に言及している.形容詞は接尾辞によって派生されるものが多いが (ex. -ant, -ent, -ean, -ial, -al, -ate, -ary, -ory, -ous, -ive, -able, -ible, -ic, -ical, -ish, -ful) ,動詞は接頭辞による派生が多い (ex. re-, un-, de-, dis-, mis-, pre-) .例外的にそれ自身に強勢の落ちる -ose のような形容詞接尾辞もあるが,例外的であることによってかえって際立ち,音感覚性 (phonaesthesia) に訴えかける 増大辞 ( augmentative ) としての機能を合わせもつことになっている(増大辞については[2009-08-30-1]の記事「投票と風船」も参照).bellicose, grandiose, jocose, otiose, verbose などの如くである.
当然のことながら,強勢のない接尾辞により派生された多くの形容詞は必ず non-oxytonic となるし,強勢のない接頭辞により派生された多くの動詞は強勢が2音節目以降に置かれることになり oxytonic となる可能性も高い.この議論を発展させるには,各接辞の生産性や派生語の実例数を考慮する必要があるが,接辞による派生パターンの相違が形前動後の出現に貢献したということであれば大いに興味深い.また,名詞の派生も,形容詞の派生と同様に,接頭辞ではなく接尾辞を多用することを考えれば,名前動後の説明にも同じ議論が成り立つのではないだろうか.
・ Bolinger, Dwight L. "Pitch Accent and Sentence Rhythm." Forms of English: Accent, Morpheme, Order. Ed. Isamu Abe and Tetsuya Kanekiyo. Tokyo: Hakuou, 1965. 139--80.
Biber et al. (Section 4.5.6 [pp. 291--22]) に,一般名詞の単数形と複数形の頻度に関する記述がある.現代英語における大雑把な分布ではあるが,LSWE Corpus の500万語サブコーパスを用いた信頼できる数値なので参考までにメモしておく.まず,各サブコーパスで100万語当たりの生起数に換算してのグラフの再現から(数値データは与えられていなかったのでグラフから概数を読み取っての再現).
(1) conversation transcription (CONV), fiction text (FICT), newspaper text (NEWS), academic text (ACAD) の4サブコーパス間の差が激しい.
- 原則として複数形をとらない不可算名詞も含めているとはいえ,すべてのサブコーパスで単数形が複数形よりも頻度が高い.
- 会話では単数形の頻度が比較的高い.
- 書き言葉では話し言葉よりも複数形の頻度が3--4倍も高い.
(2) 個々の名詞でみると,多くの名詞が単数形あるいは複数形のいずれかへの強い偏りを示す.
(3) 例えば,次の名詞は75%以上の割合で単数形をとる.ex. car, god, government, grandmother, head, house, theory.
(4) 例えば,次の名詞は75%以上の割合で複数形をとる.ex. grandchildren, parents, socks, circumstances, eyebrows, onlookers, employees, perks.
(1) に関して,単数形が圧倒的に多いこと自体はまったく不思議ではない.上述のように不可算名詞は原則として単数形しかあり得ない.また,ほとんどの可算名詞では単数形が lemma そのものであるし無標の形態でもある.ほかには,数の概念が中立化される場合,例えば hand in hand, from time to time などの慣用表現においては,単数形が用いられるのが普通である.
(2)--(4) に関して,名詞によって単数形か複数形への偏りを示すというのも驚くに当たらない.それぞれの語群を眺めれば,そこに "the communicative needs of the language user" (291) が反映されていることがはっきりと分かるだろう.名詞全体をならせば,「コミュニケーション上の必要性」が単数形に偏りそうだということも直感される.
では,会話で単数形の使用が多いというのは,どういうわけだろうか.Biber et al. (291--92) は次のように述べている.
In general, the high frequency of singular nouns in conversation probably follows from the concern of speakers with individuals: a person, a thing, an event. Writers of academic prose, on the other hand, are more preoccupied with generalizations that are valid more widely (for people, things, events, etc.). This same tendency applies not only to nouns, but also to determiners and pronouns (4.4.3.1, 4.12.1, 4.14.1, 4.15.2.1).
コーパス全体としては,複数形は一般名詞の2割程度しか占めないことになる.複数形の研究を専門とする(つまり複数形の例をなるべく多く集めなければならない)私にとっては,なかなか厳しい数値だなあ・・・.
・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
2011年5月3日付けで国連の World Population Prospects: The 2010 Revision が公表された.プレスリリースのPDFはこちら.
これによると,世界人口は今年10月末までに70億人に達し,2050年には93億人,2100年には101億人に達するとされる.人口を押し上げる主因は高い出生率を示す国々で,これにはアフリカの39カ国,アジアの9カ国,オセアニアの6カ国,ラテンアメリカの4カ国が含まれるという.
主な国の数値を示すと,日本の人口は2010年の1億2600万人から2100年には約9130万人へ減少.中国の人口は1925年の約13億9500万人をピークに,2100年には約9億4100万人へ減少.インドの人口は,1925年に中国を追い抜き,1960年には17億1796万人に達し,2100年には約15億5000万人へ減少.
大規模な人口統計予測には多くの前提が含まれている.例えば,プレスリリースの標題にもあるように "if Fertility in all Countries Converges to Replacement Level" という前提がある.したがって解釈には注意を要するが,英語話者人口を推計する上でも,このような統計値は最重要である.[2010-05-07-1]の記事「主要 ENL,ESL 国の人口増加率」で取り上げた主要ENL国(7カ国;参考として日本を追加)とESL国(13カ国)について,2100年までの人口推移( medium variant に基づく)をグラフ化してみた.
ENL国はアメリカを除いて今世紀は低迷の予測だ.一方,ESL国は今世紀半ばにかけて伸長著しく,後半も衰えにくい.インドは突き抜けており,ナイジェリア,パキスタン,タンザニアの勢いも目を見張るものがある.
国別の人口予測をもとに未来の英語話者の人口予測をすることは単純な作業ではないが,少なくともESL国の人口爆発力が具体的な予測に基づいて視覚的に確認されたとはいえるだろう.
英語話者人口については,[2010-06-28-1], [2010-06-15-1], [2010-05-29-1]の記事も参照.
以下に,汎用の Log-Likelihood Tester, Ver. 2 を公開.(後に説明するように,入力データのフォーマットに不備がある場合や,モードが適切に選択されていない場合にはサーバーでエラーが生じる可能性があるので注意.)
though | although | |
---|---|---|
Natural and pure sciences | 56.3 | 80.13 |
Applied science | 37.36 | 68.31 |
World affairs | 45.81 | 68.2 |
Social science | 48.98 | 63.38 |
Commerce and finance | 46.18 | 57.21 |
Arts | 74.07 | 52.93 |
Leisure | 45.85 | 49.46 |
Belief and thought | 70.78 | 46.75 |
Imaginative prose | 80.2 | 26.37 |
昨日の記事[2011-04-06-1]で,though と although の語法の差に触れた.今日も同じ話題で.
4000万語超からなる The Longman Spoken and Written English Corpus (the LSWE Corpus) を駆使した現代英語の文法書,Biber et al. (845--46) では次のようにある.
Both of these subordinators [though and although] occur in all four registers [conversation, fiction, news, and academic prose], although the registers show different preferences of use. Conversation and fiction show a slightly greater use of though (concessive clauses are, however, uncommon in conversation generally). News shows no particular preference. In academic prose, although is about three times as frequent as though. Although seems to have a slightly more formal tone to it, fitting the style of academic prose . . . . The greater use of although by writers of academic prose may also result from an attempt to distinguish this subordinator from the common use of though as a linking adverbial in conversation . . . .
また,同書の p. 842 の表からは,相対的に though が fiction で多く,although は academic prose で多いことが確認される.ジャンルによる差が現われているとの結果だ.
このような先行研究を受けて,今回は BNC ( The British National Corpus ) によりこれを確かめてみる.BNCweb で,{although/CONJ}, {though/CONJ} をそれぞれ検索し,Written/Spoken, Text Domain, Sex of Author/Speaker, Perceived Level of Difficulty など様々なパラメータで出現分布を分析した.主立った結果を以下に示そう(数値データはこのページのHTMLソースを参照).
まず,Written/Spoken の差については,予想されるとおり,両語とも Written への偏りが激しい(差異係数は though で 0.66344 ,although で 0.49770 で,明らかに書き言葉に偏る).Log-Likelihood Test では,p < 0.0001 のレベルで書き言葉と話し言葉の有意差が明確に示された.
書き手,話し手の性による差も興味深い.書き言葉と話し言葉の両方で,although は有意差をもって男性の使用に偏っている.though については,性差は although ほど顕著ではない(ただし書き言葉では p < 0.05 で有意差あり).
次に,Text Domain 別に頻度をみる.9種類の Text Domain を区別した ( Natural and pure sciences, Applied science, World affairs, Social science, Commerce and finance, Arts, Leisure, Belief and thought, Imaginative prose ) .100万語当たりの出現回数に標準化した値で,両語の Text Domain 別頻度をグラフ化したのが以下の図だ.
Text Domain によって両語の出現頻度に対照的な傾向が見られることがわかる.相対的に sciences ( = academic prose ) に although が目立ち,Imag(inative) Prose ( = fiction ) に though が多い.Log-Likelihood Test では,Text Domain による出現傾向の差は p < 0.0001 で有意である.
直感的にも先行研究の結果からも予想され得たことではあるが,although は男性の書き手により学術散文で顕著に用いられるという図式が現われた.
・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.
foot, goose, louse, man, mouse, tooth, woman
昨日の記事[2011-03-24-1]で Log-Likelihood Test を話題にした.計算には Rayson 氏の Log-likelihood calculator を利用すればよいと述べたが,実際の検定の際に作業をもう少し自動化したいと思ったので CGI を自作してみた.細かい不備はあると思うが,とりあえず公開.
BNC_Male_Speakers BNC_Female_Speakers new 149 91 good 408 310 free 173 75 fresh 84 118 delicious 12 34 full 210 107 sure 532 328 clean 197 223 wonderful 270 258 special 177 82 crisp 10 16 fine 347 215 big 470 415 great 203 96 real 163 80 easy 326 157 bright 113 110 extra 347 203 safe 182 92 rich 120 45 #-------- corpus_size 4949938 3290569
男女間で有意差の特に大きいのは,対応行が赤で塗りつぶされた fresh, delicious, clean, wonderful, big で,いずれも期待度数に基づいて計算された Diff_Co ( "Difference Coefficient" 「差異係数」 ) がマイナスであることから,女性に特徴的な形容詞ということになる.big は意外な気がしたが,おもしろい結果である.一方,男性に偏って有意差を示すのは黄色で示した easy や rich である.この結果はいろいろと読み込むことができそうだし,より詳細に調べることもできる.広告の形容詞という観点からは,話者ではなく聞き手の性別,年齢,社会階級などを軸に調査してもおもしろそうだ.いろいろと応用できる.
[2010-03-04-1]の記事で触れたが,コーパス言語学では各種の統計手法が用いられる.いくつかある手法のなかでも,ある表現のコーパス間の頻度を比較したり,collocation の度合いを測るのに広く用いられているのが Log-Likelihood Test ( LL Test, G Test, G2 Test などとも)呼ばれる検定である.コーパスサイズを考慮に入れた検定なのでサイズの異なるコーパス間での比較が可能であり,同じ目的で以前によく用いられていたカイ2乗検定 ( Chi-Squared Test ) よりもいくつかの点ですぐれた手法と評価されており,最近のコーパス研究では広く用いられている.(例えば,カイ2乗検定は期待頻度が5回より少ないとき,高頻度語を扱うとき,コーパスサイズが大きいものと小さいものを比較するときに信頼性が低くなるが,Log-Likelihood Test はこれらの影響を受けにくい [ Rayson and Garside 2 ] .)
Log-Likelihood Test の基本的な考え方は,コーパスサイズをもとにある表現の期待される出現頻度(期待頻度)を割り出し,その値と実際に出現する頻度(観察頻度)の差が単純な誤差と考えられるほどに近似しているかどうかを判定するというものである.例として,次のようなケース・スタディを試す.BNC ( The British National Corpus ) から話し言葉サブコーパスと書き言葉サブコーパスを区別し,両サブコーパス間で f*ck という four-letter word の頻度を比較する.BNCweb よりこのキーワードを検索すると,次のような結果が得られた.
Category | No. of words | No. of hits | Dispersion (over files) | Frequency per million words |
---|---|---|---|---|
Spoken | 10,409,858 | 579 | 63/908 | 55.62 |
Written | 87,903,571 | 743 | 172/3,140 | 8.45 |
total | 98,313,429 | 1,322 | 235/4,048 | 13.45 |
Corpus 1 | Corpus 2 | Total | |
---|---|---|---|
Frequency of word | a | b | a+b |
Frequency of other words | c-a | d-b | c+d-a-b |
Total | c | d | c+d |
中世ロマンスの言語上の大きな特徴の1つに,formula の多用がある.stock phrase とも言われ「決まり文句,常套句」を指す.formula の定義には,表現の幅を限定したきわめて狭いものから,語彙や統語のレベルでの型に適合していればよいとする広いものまであるが,多くの formula 研究は Milman Parry の次の定義から出発している.
A formula is "a group of words which is regularly employed under the same metrical conditions to express a given essential idea." (qtd in Wittig, p. 15 as from "Studies in the Epic Technique of Oral Verse-Making. I: Homer and Homeric Style." Harvard Studies in Classical Philology 41 (1930). page 80.)
formula の具体例を挙げればきりがないが,"'Dame,' he said", "that hendi knight", "feyre and free" などの短いものから,"He was a bolde man and a stowt", "And he were neuer so blythe of mode", "For to make the lady glade / That was bothe gentyll and small" などの長いものまで様々である.Wittig によれば,中英語の韻文ロマンス25作品から Parry の条件を厳密に満たす formula を含む行を抜き出したところ,以下のような結果が得られた.
POEM | LENGTH | VERSE TYPE | FORMULA RATE |
---|---|---|---|
Lai le freine | 340 lines | couplet | 10% |
Sir Landeval | 500 | couplet | 11 |
Sir Launfal | 1044 | tail-rhyme | 16 |
King Horn | 1644 | couplet | 18 |
Sir Degare | 1076 | couplet | 21 |
Havelok | 2822 | couplet | 21 |
Sir Isumbras | 804 | tail-rhyme | 22 |
Sir Amadace | 864 | tail-rhyme | 22 |
Sir Perceval | 2288 | tail-rhyme | 22 |
Horn Child | 1138 | tail-rhyme | 24 |
Roswall and Lillian | 885 | couplet | 25 |
Ocatvian (southern) | 1962 | tail-rhyme | 25 |
Sir Triamour | 1719 | tail-rhyme | 25 |
Earl of Toulous | 1224 | tail-rhyme | 26 |
Ywain and Gawayn | 4032 | couplet | 27 |
Sir Eglamour | 1377 | tail-rhyme | 29 |
Squyr of Lowe Degre | 1131 | couplet | 30 |
Lebeaus Desconus | 2131 | tail-rhyme | 30 |
Sir Torrent | 2669 | tail-rhyme | 31 |
Bevis of Hampton | 4332 | couplet | 34 |
Eger and Grime | 1474 | couplet | 35 |
Sir Degrevant | 1920 | tail-rhyme | 38 |
Octavian (northern) | 1731 | tail-rhyme | 39 |
Floris and Blancheflur | 1083 | couplet | 41 |
Emare | 1030 | tail-rhyme | 42 |
昨日の記事[2011-02-22-1]に引き続き,COCA ( Corpus of Contemporary American English ) に基づく単語の頻度リストを利用したパイロット・スタディ.今回は,こちらで最近になって追加された最頻50万語のリストを用いて,昨日と同様の品詞別割合を調べた.昨日のリストは見出し語 ( lemma ) に基づいた最頻5000語,今日のリストは語形 ( word form ) に基づいた最頻50万語(正確には497187語)で,性格が異なることに注意したい.
昨日とほぼ同じ作業だが,今回は2万語ずつで階級を区切り,L1からL25までの階級のそれぞれにおいて noun, verb, adj., adv., others の5区分で品詞別割合を出した.(数値データはこのページのHTMLソースを参照.)
L6(12万語レベル)辺りから品詞別比率は安定期に入るといってよいだろう.L17(34万語レベル)辺りから変動期が始まるのが気になるが,階級幅を大きくしてみると(ならしてみると)直前のレベルから大きく逸脱していない.
[2011-02-16-1]の記事以来,形容詞の比率が気になっているが,今回のデータ全体から計算すると,0.1738という値がはじきだされた.昨日の lemma 調査では0.1678だったから,値は非常に近似している.ただし,名詞と動詞の lemma 対 word form の比率は,名詞が 0.5086 : 0.6985,動詞が 0.2000 : 0.1065 と大きく異なるので,形容詞の 0.1678 : 0.1738 という近似は偶然かもしれない.lemma 対 word form の品詞別割合には異なる傾向があるのかもしれないが,それでも大規模に調べると安定期と呼びうる区間が出現することは確かなようだ.
[2011-02-16-1]の記事で触れたように,中英語期のフランス借用語における形容詞比率は0.1768だった.今回の値0.1738と酷似しているが,主題の性質がまるで違うので,直接の関係を論じることは無理である.もとより昨日と今日の調査は,[2011-02-16-1]の調査とは無関係に始めたものである.しかし,偶然と思えるこの結果は,示唆的ではある.借用語彙といえば名詞が圧倒的なはずだと予想していたものの,フランス語や古ノルド語からはおよそ一定の割合の形容詞(それぞれ lemma 調査で0.1768と0.1817)が借用されていた.そして,その比率は時代が異なるとはいえ現代英語の比率と近似している.英語語彙全体における比率と借用語彙における比率が近似しているということは,もし偶然でないとしたら,何を意味するのだろうか.フランス借用語彙や古ノルド借用語彙が,英語に適応するような自然な比率で英語語彙へ溶け込んだということだろうか.これは,今回のパイロット・スタディの結果を受けての印象に基づく speculation にすぎない.今後も品詞別割合という観点に注目していきたい.
COCA ( Corpus of Contemporary American English ) に基づいた各種語彙リストが Corpus-based word frequency lists, collocates, and n-grams から入手できる.そのなかで最も基本的なリストが,こちらの最頻5000語リストである.列挙されているのは見出し語 ( lemma ) 単位で,順位はコーパスに現われる頻度と分散の関数で計算されている.UCREL CLAWS7 Tagset の品詞コード表に基づいた粗い品詞情報も付与されており,品詞別の頻度などを手軽に分析することができる.
今回は,500語ごとに区切って頻度の高い順にL1からL10までの階級を設け,それぞれの階級における品詞別割合を出した.品詞は開いた語類 ( open class ) を中心とし,noun, verb, adj., adv., others の5区分とした.(数値データはこのページのHTMLソースを参照.)
第1階級を除き,どの階級でも名詞が過半数を占めているのは予想できたことだが,第2階級以降に名詞の割合が思ったほど伸びていないことが分かった.動詞と形容詞が後半の階級でもおよそ一定の割合を占め続けているのも予想外だった.全体として,最頻5000語リストに限れば,名詞が飛び抜けつつも,開いた語類の内部比率はおよそ一定に保たれているといえよう.階級幅を様々に動かして試してみたが,およそ安定期に入るのは500語以降と見てよさそうだ.
[2011-02-16-1]の記事で中英語期のフランス借用語の品詞別割合をみたが,全体としての形容詞比率は0.1768だった.今回の現代英語の最頻5000語では,全体としての形容詞比率は0.1678.比べて意味のある数値かどうかは分からないが,英語(言語?)における品詞別比率の「安定感」のようなものはあるのだろうか.
COCA に基づくもの以外にオンラインで入手できる最頻英単語リストについては[2010-03-01-1]の記事を参照.頻度表を利用した別のパイロット・スタディとしては,単語の音節数を扱った[2010-04-17-1]の記事を参照.
Powered by WinChalow1.0rc4 based on chalow