##1089,1090,1091 の記事で,言語学が情報理論 (information theory) から得られる知見について,特に言語の余剰性 (redundancy) に注目しながら紹介した.今回は,Jakobson による "Linguistics and Communication Theory" と題する論文にしたがって,情報理論が言語学に与えてくれるヒントを考えてみたい.
Jakobson は,彼の提示した二進法的な音素の示差的特徴 (distinctive feature) と,情報理論における基本単位である "digit" あるいは "bit" との親和性に気づき,(構造)言語学と情報理論の接点に注目した.Jakobson は両分野の共通点と相違点を洗い出し,言語学が情報言語から学べることは何か,両者の間で同一視してはいけないことは何かということを論じている.その中で特に2点が私の関心に引っかかったので,紹介したい.
(1) 情報理論は,もっぱら物理的な情報伝達の効率や情報体系の仕組み (code) に関心があり,その発信者,受信者,文脈,意味は考慮しない.言語体系も code ではあるが,それは言語行動が必要とする諸側面の1つにすぎず,code のみに注目する態度は避けるべきである.code が1側面にすぎないことは「#1070. Jakobson による言語行動に不可欠な6つの構成要素」 ([2012-04-01-1]) で見たとおりである.
There is a similar danger when interpreting human inter-communication in terms of physical information. Attempts to construct a model of language without any relation either to the speaker or to the hearer and thus to hypostasize a code detached from actual communication threaten to make a scholastic fiction from language. (250)
(2) 言語学が (1) の注意点を意識した上で,情報理論の手法を用いて言語体系の効率を測ろうとするとき,二項対立の体系としての理論的な効率と,言語項目の頻度を考慮した実際上の効率との両方を視野に入れておかなければならない.前者は type 的,langue 的な意味での効率,後者は token 的,parole 的な意味での効率といえばわかりやすいだろうか.Jakobson は,音素の示唆的特徴だけでなく形態カテゴリーも二項対立で記述でき,最終的には統語をも "bit" によって記述できると考えており,それにより言語Aと言語Bの文法情報の効率なども比較できるだろうとしているが,これは抽象化された言語体系としての code の効率のことを指している.一方で,言語使用の実際における情報伝達の効率を測ろうとすれば,言語項目の出現頻度を加味した情報の重みづけという作業が必要である.理論と実際のバランスが肝要ということである.
The amount of grammatical information which is potentially contained in the paradigms of a given language (statistics of the code) must be further confronted with a similar amount in the tokens, in the actual occurrences of the various grammatical forms within a corpus of messages. Any attempt to ignore this duality and to confine linguistic analysis and calculation only to the code or only to the corpus impoverishes the research. The crucial question of relationship between the patterning of the constituents of the verbal code and their relative frequency both in the code and in its use cannot be passed over. (251)
(2) の教訓を現代の言語研究に引きつけて解釈すると,構造言語学とコーパス言語学の連携というような課題につながってくるのではないか.コーパスによって得られた統計値をもとに各言語項目に重みづけを行ない,それを対立の集合として記述された言語体系のパラメータとして含めてやる.そうすることによって,Martinet の主張する言語の経済性の原理 ([2012-03-24-1], [2012-04-21-1]) なども検証可能となるのではないか.
・ Jakobson, Roman. "Linguistics and Communication Theory." Structure of Language and Its Mathematical Aspects. Providence: American Mathematical Society, 1961. 245--52.
ある英文を読んでいて,the choice is between rhyme or prose という句に出くわした.between には等位接続詞 and が期待されるところだが,choice の語感に引きずられて or が使用されているものらしい.ジーニアス大辞典では,この用法について以下のように触れられている.
1(3) between 1980 to 1990 や choose between war or peace のように and の代りに to や or を用いるのは((まれ)).to は from A to Bの類推.or はchoose, decide などの動詞と連語するときに多く用いられる.これは choice [decision] A or B の類推と考えられる(→2).
2[区別・選択・分配] …の間に[で];…のどちらかを?choose ? peace and war 平和か戦争かのいずれかを選ぶ《◆and の代りに or を用いることがある; →1 [語法](3)》
OED では,"between" 18 が区別・選択・分配の用法を説明しているが,or を使用する例文は挙げられていない.同じく,MED では bitwene 7 がこの用法に対応するが,やはり or の例文はない."between A or B" の例がいつ現われたのかという問いに答えるには,より詳しく辞書や歴史コーパスを調べる必要がありそうだ.
現代英語について,BNCWeb で動詞句 "{choose/V} between_PRP + or_CJC" として検索し,該当する例文を選り分けたところ,ほんの8例ではあるが用例が得られた.いずれも Written books and periodicals からの例である.比較的わかりやすい4例を挙げよう.
・ . . . in 1627 Emperor Ferdinand ordered all his Bohemian subjects to choose between Catholicism or exile.
・ The main characters are all glorified psychopaths, with little to choose between hero or villain in terms of basic humanity.
・ . . . Mapleton, already out of breath, had to choose between talking or using his energy to keep up.
・ It is for you to choose between clinical or disciplinary action.
同様に,名詞句 "{choice/N} between_PRP + or_CJC" の検索結果も参照されたい.
"between A or B" はあまりに稀な構造だからか,特に規範文法で攻撃されている風でもなさそうだ.先行する語が区別,選択,決定,判定を意味する場合には or の語感は非常によく理解できるし,or の使用によって多義である between の語義が限定されるのだから,このような語法はむしろ推奨されるべきと考える.
COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,[2012-01-08-1]の記事「#986. COCA の "WORD AND PHRASE . INFO"」で紹介した機能 (Frequency List) に加え,英文を投げ込むとCOCAベースで各語に関する諸情報を色づけして返してくれるサービス WORD AND PHRASE . INFO, ANALYZE TEXT を公開した.
適当な英文を投げ込むと,各単語が頻度レベルによって色分けされた状態で返される.上位500語までの超高頻度語は青,3,000語までの高頻度語は緑,それ以下の頻度の語は黄色で示されるほか,academic word が赤字として返される.文章内でのそれぞれの割合も示され,その語彙リストを出すことも容易だ.各語はクリッカブルで,クリックすると用例のサンプルが KWIC で右下ペインに表示される.また,左下ペインには類義語が現われる.以下は,昨日の記事「#1040. 通時的変化と共時的変異」 ([2012-03-02-1]) に引用した英文を投げ込んでのスクリーンショット.
英文を書くときには collocation や synonym を調べながら書くことが多いので,使い方次第では英作文学習に威力を発揮しそうだ.ある文章の academic 度を判定するのにも使える.Academic Word List に含まれる語彙の含有度ということでいえば,[2010-12-30-1]の記事「#612. Academic Word List」で挙げた The AWL Highlighter も類似ツールだ.
昨日の記事「#1034. 英語における敬意を示す言語的手段」 ([2012-02-25-1]) の (4) で,英語では,1人称と他人称が並列される場合に,「倫理的敬意」から1人称が後置されることに触れた.謙譲的な語法といってよいだろう.2人称→3人称→1人称という順序が普通であり,"you and I", "she and I", "you, he, and I" などとなる.このことを初めて学んだとき,これはまさしく尊敬と謙譲の精神の現われであり,日本語に匹敵する敬意と配慮だ,などと感心したものである.Quirk et al. (Section 13.56, Note [a]) には次のようにある.
When one of the conjoins is a personal pronoun, it is considered polite to follow the order of placing 2nd person pronouns first, and (more importantly) 1st person pronouns last: Jill and I (not I and Jill); you and Jill, (not Jill and you), you, Jill, or me (not me, you, or Jill), etc.
同趣旨の記述は,Huddleston and Pullum (1288), Biber et al. (338) にもある.
ところが,英語の人称代名詞の順序を politeness として本当に賛美してよいのかどうか疑わしくなる記述に出くわした.細江 (191) によると,複数では1人称→2人称→3人称の順序が慣例だという.つまり,"we and you", "we and they", "we, you, and they" などとなる.これでは,敬譲にはならないだろう.
ただし,複数主格形について BNCWeb で調べたところ,そもそも用例が少なく,確かめようがないというのが実際のところだ.3つの人称の並列される例などは皆無だった.
・ we and you (0), you and we (0);
・ we and they (11), they and we (7)
・ you and they (11), they and you (6)
・ we, you, and they (0), we, they, and you (0)
・ you, we, and they (0), you, they and we (0)
・ they, we, and you (0), they, you, and we (0)
複数については,例文を豊富に挙げるのを身上とする細江にも例文が挙がっていないことからすると,何らかの規範文法書から取ってきたものなのだろうか.先の3種の大型英文法書にも言及がない.
単数についても,先に示した順序はあくまで慣例であり,場合によってはこの慣例から外れる場合もある.例えば,悪いことをしたときには,1人称を先に出すのがよいとされる (ex. I and Bob were arrested for speeding.) .また,自分の身分のほうが明らかに上の場合には,I and my children や I and my dog も当然ありうる.慣用はあるとしても,最終的にはケースバイケースだろう.
・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.
・ Huddleston, Rodney and Geoffrey K. Pullum. The Cambridge Grammar of the English Language. Cambridge: CUP, 2002.
・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
・ 細江 逸記 『英文法汎論』3版 泰文堂,1926年.
cannot help doing は,「?することが避けられない」を原義とし,「?せずにはいられない,?するのは仕方がない」を意味する慣用表現である.cannot but do としても同義.日本人には比較的使いやすい表現だが,標題のように比較の文において than 節のなかで現われる同構文には注意が必要である.
先に類例を挙げておこう.BNCWeb により "(more (_AJ0 | _AV0)? | _AJC) * than * (can|could) (_XX0)? help" で検索すると,関連する例が8件ヒットした.ほぼ同じ表現は削除して,整理した6例を示そう.
・ . . . the Commander struck out for the shore in a strong breaststroke that did not disturb the phosphorescence more than he could help . . . .
・ I'm not putting money in the pocket of the bloody Hamiltons more than I can help.
・ "Don't be more stupid than you can help, Greg!"
・ Resolutely, and determined to think no more than she could help about it . . . .
・ And I won't spend more than I can help.
・ "We'll do our best; we won't get in your way more than we can help."
さて,この構文の問題は,意図されている意味と統語上の論理が食い違っている点にある.例えば,毎日どうしてもビール3杯は飲まずにいられない人に対してこの命令文を発すると「3杯までは許す,だが4杯は飲むな」という趣旨となるだろう(ここでは話しをわかりやすくするために杯数は自然数とする).少なくとも,それが発話者の意図であると考えられる.しかし,論理的に考えると,you can help と肯定であるから,この量は,何とか飲まずにこらえられるぎりぎりの量,4杯を指すはずだ.これより多くは飲むなということだから,「4杯までは許す,だが5杯は飲むな」となってしまう.つまり,発話者の意図と統語上の意味とが食い違ってしまう.あくまで論理的にいうのであれば,*Don't drink more pints of beer than you cannot help. となるはずだが,この種の構文は BNCWeb でも文証されない.
理屈で言えば上記のようになるが,後者の意図で当該の文を発する機会はほとんどないと想像され,語用的に混乱が生じることはないだろう.また,[2011-12-03-1]の記事「#950. Be it never so humble, there's no place like home. (3)」で見たように,肯定でも否定でも意味が変わらないという,にわかには信じられないような統語構造が確かに存在する.とすると,標題の統語構造が許容される語用論的,統語意味論的な余地はあるということになる.
ちなみに,標記の文は今年の私の標語の1つである.ただし,その論理については……できるだけ広く解釈しておきたい.
COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,年末に,COCAベースで語に関する諸情報を一覧できるサービス WORD AND PHRASE . INFO を公開した.語(lemma 頻度で上位60,000語以内に限る)を入力すると,ジャンルごとの生起頻度やそのコンコーダンス・ラインはもとより,WordNet に基づいた定義や類義語群までが画面上に現われる.ほとんどの項目がクリック可能で,さらなる機能へとアクセスできる.インターフェースが直感的で使いやすい.
類義語研究や collocation 研究には相当に役立つ仕様になったのではないか.例えば,semantic_prosody を扱った[2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」で,強意語 utterly, absolutely, perfectly, totally, completely, entirely, thoroughly についての研究を紹介したが,WORD AND PHRASE . INFO で utterly を入力すれば,これらの類義語群が左下ウィンドウに一覧される.あとは,各語をクリックしてゆくだけで,頻度や collocation の詳細が得られる.このような当たりをつけるのに効果を発揮しそうだ.
昨日の記事「#981. 副詞と形容詞の近似」 ([2012-01-03-1]) の最後に触れた単純形副詞 (flat adverb) を取り上げる.対応する -ly 形が並存している場合,flat adverb は一般に略式的あるいは口語的であることが多いといわれる.規範的な観点からは,-ly を伴う語形が標準形であり,flat adverb は非難の対象とされるので使用を控えるべしとされるが,LGSWE (Section 7.12.2) によれば,以下のような例は会話コーパスでは普通に見られるという.
The big one went so slow. (CONV)
Well it was hot but it didn't come out quick. (CONV)
They want to make sure it runs smooth first. (CONV†)
特に good や real を副詞として用いる語法は,AmE の口語で広く聞かれる.LGSWE (Section 7.12.2.1) の記述によれば,good を well の意味に用いる例は,AmE の会話で圧倒的によく見られ,一方で書き言葉や BrE では稀である.really の代用としての real については,AmE の会話では really の半分ほどの頻度で使用されているというから,相当な普及度だ.コーパス中の絶対頻度でいえば,これは BrE の会話における really の頻度に匹敵するという.なお,BrE では real のこの用法は皆無ではないが,稀である.両者の例を LGSWE からいくつか挙げよう.
It just worked out good, didn't it? (AmE CONV)
Bruce Jackson, In Excess' trainer said, "He ran good, but he runs good all the time. It was easy." (AmE NEWS)
It would have been real [bad] news. (AmE CONV)
I have a really [good] video with a real [good] soundtrack. (AmE CONV)
例のように,good は動詞と構造をなして述部を作る用法,real は形容詞を強調する用法が普通である.
以上のように,現代英語において flat adverb はアメリカ英語の口語で用いられる傾向が強いことがコーパスから明らかとなっているが,この傾向と関連して[2011-01-12-1]の記事「#625. 現代英語の文法変化に見られる傾向」で触れたアメリカ英語化 (Americanisation) と口語化 (colloquialisation) の潮流を想起せずにいられない.今後,good あるいは real に限らず,英語全体として flat adverb の使用が拡大してゆくという可能性があるということだろうか.合わせて,[2010-03-05-1]の記事「#312. 文法の英米差」の (5) も参照されたい.
・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
##953,954,955 の記事で,最近公開された COCA ( Corpus of Contemporary American English ) の n-gram データベースを利用してみた.COCA に現われる 2-grams, 3-grams, 4-grams, 5-grams について,それぞれ最頻約100万の表現を羅列したデータベースで,手元においておけば,工夫次第で COCA のインターフェースだけでは検索しにくい共起表現の検索が可能となる.
ただし,各 n-gram のデータベースは,数十メガバイトの容量のテキストファイルで,直接検索するには重たい.そこで,SQLite データベースへと格納し,SQL 文による検索が可能となるように検索プログラムを組んだ.以下は,検索結果の最初の10行だけを出力する CGI である.
# 1-grams で,前置詞を頻度順に取り出す(ただし,case-sensitive なので再集計が必要)
select * from one where pos1 like "i%" order by freq desc;
# 2-grams で,ハンサムなものを頻度順に取り出す
select * from two where word1 = "handsome" and pos1 = "jj" and pos2 like "nn_" order by freq desc;
# 2-grams で,"absolutely (adj.)" で強調される形容詞を頻度順に取り出す([2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」を参照)
select * from two where word1 = "absolutely" and pos2 = "jj" order by freq desc;
# 3-grams で,高頻度の as ... as 表現を取り出す
select * from three where word1 = "as" and word3 = "as" order by freq desc;
# 4-grams で,高頻度の from ... to ... 表現を取り出す
select * from four where word1 = "from" and pos1 = "ii" and word3 = "to" and pos3 = "ii" order by freq desc;
# 5-grams で,死因を探る; "die of" と "die from" の揺れを観察する
select * from five where word1 in ("die", "dies", "died", "dying") and pos1 like "vv%" and word2 in ("of", "from") and pos2 like "i%" order by word3;
n-gram データベースを最大限に使いこなすには,このようにして得られた検索結果をもとにさらに条件を絞り込んだり,複数の検索結果を付き合わせるなどの工夫が必要だろう.
[2011-12-06-1], [2011-12-07-1]の記事で,COCA ( Corpus of Contemporary American English ) の 3-gram データベースから取り出した,現代英語における頭韻を踏む2項イディオム (binomial) と脚韻を踏む2項イディオムの例を見てきた.分析するなかで,両リストのなかで重複する2項イディオムが散見されたので,取り出してみた.これぞ,頭韻と脚韻の両方を兼ねそなえた,完璧な語呂合わせとしての共起表現である.(検索結果を収めたテキストファイルはこちら.)整理した50表現を挙げよう.
Saturday and Sunday, personal and professional, himself or herself, quantity and quality, morbidity and mortality, quantitative and qualitative, security and stability, best and brightest, latitude and longitude, sixteenth and seventeenth, whenever and wherever, sensitivity and specificity, watching and waiting, majority and minority, basketball and baseball, fight or flight, ranting and raving, forties and fifties, cooperation and coordination, nature and nurture, pushing and pulling, tossing and turning, twisting and turning, grandchildren and great-grandchildren, skiers and snowboarders, communication and collaboration, cooking and cleaning, psychiatrists and psychologists, biggest and best, development and deployment, slipping and sliding, communication and cooperation, Dungeons and Dragons, heterosexual and homosexual, healthier and happier, grandmother and grandfather, stopping and starting, sixteen or seventeen, hooting and hollering, competence and confidence, stalactites and stalagmites, waxing and waning, positive and productive, reading and rereading, patience and perseverance, bedroom and bathroom, consultation and collaboration, going and getting, grandfather and grandmother, protection and promotion
多くは,頭韻と脚韻が語呂として偶然に一致したと考えるよりは,語幹どうしに語源的な関連があるがゆえに頭韻を踏んでいるのであり,同じ接尾辞を用いているがゆえに脚韻を踏んでいるのだ,と解釈すべきだろう.
単なる語呂遊びというなかれ.上記の例は,音と意味の調和をいやおうなく感じさせ,2項の間に一種の必然性すら呼び起こすかのような,高度に修辞的な表現といえるだろう.fight or flight, nature and nurture, competence and confidence, positive and productive などは,単なる高頻度の共起表現であるという以上に,教訓的,ことわざ的ですらある.
昨日の記事「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1]) に引き続き,今回は,脚韻を踏む高頻度の binomial を COCA ( Corpus of Contemporary American English ) の n-gram データベースにより拾い出したい.昨日と同様に,3-gram を用い,"A and/but/or B" の形の共起表現で,かつ A と B が脚韻を踏んでいるような例を取りだした.検索結果を納めたテキストファイルはこちら.
検索結果を眺めていて今更ながら気付いたことなのだが,脚韻は頭韻に比べてパターンが見つけやすい.特に顕著なのは,脚韻の多くが,語幹の語尾に依存しているというよりは,接尾辞に依存していることだ.-ing, -ed, -ly, -al, -y, -ion, -er などの屈折接尾辞や派生接尾辞が活躍している.
positive and negative, national and international, internal and external, Friday and Saturday, teaching and learning, gifted and talented, elementary and secondary, hunting and fishing, personal and professional, presence or absence, reliability and validity, coming and going, winners and losers, physical and psychological, formal and informal, directly and indirectly, advantages and disadvantages, rising and falling, physically and mentally, buyers and sellers
また,これも考えてみれば,さもありなんという事例なのだが,複合語の第2要素に同じ形態素を用いることにより韻を踏んでいる例も多い.一種の self-rhyme ではある.
Friday and Saturday, children and grandchildren, Saturday and Sunday, hardware and software, himself or herself, formal and informal, parents and grandparents, direct and indirect, buyers and sellers, mother and grandmother, father and grandfather, Afghanistan and Pakistan, anything and everything, football and basketball, indoor and outdoor, direct or indirect, servicemen and women, likes and dislikes, urban and suburban, indoor and outdoor
接尾辞を多用する屈折や派生,そして right-headed な複合を好む英語においては,脚韻を利用した2項イディオムの形成が容易であり,頻繁であることは,自然に理解できそうだ.逆から見れば,語幹の語頭音を利用する頭韻の2項イディオムの形成は,相対的に難しいということになるのかもしれない.
[2011-07-26-1]の記事「#820. 英仏同義語の並列」で,2項イディオム (binomial idiom) を紹介した.and, but, or などの等位接続詞で結ばれる2項からなる表現は現代英語でも顕在であり,よく見られるものには,語呂のよいもの (euphony) が多い.英語において語呂の良さといえば,[2011-11-26-1]の記事「#943. 頭韻の歴史と役割」で取り上げた頭韻 (alliteration) が,典型の1つとして挙げられる.
ところで,11月22日に,大規模オンライン・コーパス COCA ( Corpus of Contemporary American English ) などで知られるコーパス言語学者 Mark Davies が,COCA に基づく n-gram を無償で公開した.2, 3, 4, 5語からなる,それぞれ最頻100万の共起表現 (collocation) を,頻度数とともに列挙したデータベースで,ダウンロードしてオフラインで自由に処理できる.
・ Visit N-GRAMS: from the COCA and COHA corpora of American English. For downloading, directly visit Free lists.
・ Also visit Word frequency lists and dictionary: from the Corpus of Contemporary American English for other COCA-derived n-grams and frequency lists.
ここで,COCA n-gram から現代英語の2項イディオムに見られる頭韻を探して出してみようと思い立った.3-gram データベースを利用し,"A and/but/or B" の形の共起表現を探った.話者の意識していないところでも,頭韻は日常表現のなかに相当活用されているはずだとの予想のもとでの検索だったが,実際に多数の例を拾い出すことができた.検索結果のテキストファイルはこちら.2項の語頭の子音字が一致しているものを取り出しただけなので,それが表わす子音が一致しているとは限らず,注意が必要である.それでも,相当数の生きた日常的な頭韻の例を拾い出すことができた.
検索結果上位には,his or her, four or five, six or seven, this or that, Saturday and Sunday など,なるほどとは思わせるが,それほど興味深く感じられない例が少なくない.しかし,イディオム的な性格のもう少し強い,次のような共起表現も次々と挙がり,検索の甲斐があったと満足した.
public and private, rules and regulations, pots and pans, command and control, flora and fauna, free and fair, death and destruction, go and get, safety and security, signs and symptoms, fame and fortune, families and friends, fresh or frozen, peace and prosperity, past and present, quantity and quality, morbidity and mortality, slowly but surely, professional and personal, name and number, facts and figures, pencil and paper, state and society, small but significant, clear and convincing
n-gram については,[2010-12-25-1]の記事「#607. Google Books Ngram Viewer」も参照.
現代英語で「a (large) number of + 複数名詞」が主語に立つとき,動詞は複数に一致するのが原則である.完全にこの理解でいたのだが,先日次のような文に出くわした.
A large number of native speakers is perhaps a pre-requisite for a language of wider communication . . . . (Graddol 12)
そこで,数々の辞書や文法書をひっくり返してみた.ほとんどすべての参考書がこの句を複数扱いとしており,統語分析を与えているものについては,number ではなくこの場合で言えば native speakers を主要部 (head) とみなしている.特に,OALD8, LDOCE5, COBUILD English Usage といった典型的な学習者用英英辞書では,複数形の動詞で一致するよう明示的に注記を与えている.また,規範文法のご意見番 Fowler ("number" の項)によると次の通りで,単数一致については明示的な言及はなかった.
. . . as a noun of multitude in the type 'a number of + pl. noun', normally governs a plural verb both in BrE and AmE.
調べたレファレンスのなかで,単数一致について言及していたのは以下のものである.
・ CGEL: "A (large) number of people have applied for the job. [2]" という例文について,"Use of the singular . . . would be considered pedantic in [2] . . . ." (765) と述べている.
・ CALD3: 単数一致を示す例文を "(slightly formal)" というレーベルを与えつつ挙げていた."A large number of invitations has been sent."
・ 『ジーニアス英和大辞典』: 単数一致を「((正式))」としていた."A ? of passengers were [((正式)) was] injured in the accident."
これで,formal or pedantic という register でまれに使用されるらしいということは分かった.では,BNCWeb で確かめてみようと,"a (very)? (large|great|good|small)? number of ((_AV*)? _AJ*)* _NN2 (_VHZ|_VBZ|was_VBD|_VDZ|_VVZ)" として検索し,該当する例のみを手作業で拾い出してみた.全部で25例あったが,1例を除いてすべてが書き言葉からの文例であり,そのうち12例が Academic prose からのものだった.全体として,この表現が academic or pedantic へ強い傾向を示すことは確かなようだ.
・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm.
・ Burchfield, Robert, ed. Fowler's Modern English Usage. Rev. 3rd ed. Oxford: OUP, 1998.
・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.
昨日の記事「#913. BNC による語彙の男女差の調査」 ([2011-10-27-1]) で取りあげた Rayson et al. では,話者の性別だけでなく年齢による語彙の変異も調査されている.年齢差といっても,35歳未満か以上かで上下の世代に分けた大雑把な分類だが,結果はいくつかの興味深い示唆を与えてくれる.以下は,χ2 の上位19位までの一覧である (142--43) .
Rank | Under 35 | Over 35 | ||
Word | χ2 | Word | χ2 | |
1 | mum | 1409.3 | yes | 2365.0 |
2 | fucking | 1184.6 | well | 1059.8 |
3 | my | 762.4 | mm | 895.2 |
4 | mummy | 755.2 | er | 773.8 |
5 | like | 745.2 | they | 682.2 |
6 | na as in wanna and gonna | 712.8 | said | 538.3 |
7 | goes | 606.6 | says | 443.1 |
8 | shit | 410.1 | were | 385.8 |
9 | dad | 403.7 | the | 352.2 |
10 | daddy | 380.1 | of | 314.6 |
11 | me | 371.9 | and | 224.7 |
12 | what | 357.3 | to | 211.2 |
13 | fuck | 330.1 | mean | 155.0 |
14 | wan as in wanna | 320.6 | he | 144.0 |
15 | really | 277.0 | but | 139.0 |
16 | okay | 257.0 | perhaps | 136.0 |
17 | cos | 254.4 | that | 131.3 |
18 | just | 251.8 | see | 122.1 |
19 | why | 240.0 | had | 118.3 |
標題の話題を扱った Rayson et al. の論文を読んだ.BNC の中で,人口統計的な基準で分類された,話し言葉を収録したサブコーパス(総語数4,552,555語)を対象として,語彙の男女差,年齢差,社会的地位による差を明らかにしようとした研究である.これらの要因のなかで,語彙的変異が統計的に最も強く現われたのは性による差だったということなので,本記事ではその結果を紹介したい.
まず,以下に挙げる数値の解釈には前提知識が必要なので,それに触れておく.BNC に収録された話し言葉は志願者に2日間の自然な会話を Walkman に吹き込んでもらった上で,それを書き起こしたものであり,その志願者の内訳は男性73名,女性75名である.会話に登場する志願者以外の話者についても,女性のほうが多い.したがって,当該サブコーパスへの参加率でいえば,全体として女性が男性よりも高くなることは不思議ではない.
しかし,その前提を踏まえた上でも,全体として女性のほうがよく話すということを示唆する数値が出た.使用された word token 数でいえば,男性を1.00とすると女性が1.51,会話の占有率では,男性を1.00とすると女性は1.33だった.男女混合の会話では男性のほうが高い会話占有率を示すとする先行研究があるが,BNC のサブコーパスでは女性同士の会話が多かったということが,上記の結果の背景にあるのかもしれない.いずれにせよ,興味深い数値であることは間違いない.
次に,より細かく語彙における男女差を見てみよう.男女差の度合いの高いキーワードを抜き出す手法は,原理としては[2010-03-10-1], [2010-09-27-1], [2011-09-24-1]の記事で紹介したのと同じ手法である.男性コーパスと女性コーパスを区別し,それぞれから作られた語彙頻度表を突き合わせて統計的に処理し,カイ二乗値 (χ2) の高い順に並び替えればよい.以下は,上位25位までの一覧である (136--37) .
Rank | Characteristically male | Characteristically female | ||
Word | χ2 | Word | χ2 | |
1 | fucking | 1233.1 | she | 3109.7 |
2 | er | 945.4 | her | 965.4 |
3 | the | 698.0 | said | 872.0 |
4 | year | 310.3 | n't | 443.9 |
5 | aye | 291.8 | I | 357.9 |
6 | right | 276.0 | and | 245.3 |
7 | hundred | 251.1 | to | 198.6 |
8 | fuck | 239.0 | cos | 194.6 |
9 | is | 233.3 | oh | 170.2 |
10 | of | 203.6 | Christmas | 163.9 |
11 | two | 170.3 | thought | 159.7 |
12 | three | 168.2 | lovely | 140.3 |
13 | a | 151.6 | nice | 134.4 |
14 | four | 145.5 | mm | 133.8 |
15 | ah | 143.6 | had | 125.9 |
16 | no | 140.8 | did | 109.6 |
17 | number | 133.9 | going | 109.0 |
18 | quid | 124.2 | because | 105.0 |
19 | one | 123.6 | him | 99.2 |
20 | mate | 120.8 | really | 97.6 |
21 | which | 120.5 | school | 96.3 |
22 | okay | 119.9 | he | 90.4 |
23 | that | 114.2 | think | 88.8 |
24 | guy | 108.6 | home | 84.0 |
25 | da | 105.3 | me | 83.5 |
道具が揃っていれば簡単に実行でき,しかも結果がとてもおもしろいコーパスの使い方として,キーワード抽出がある.その原理については[2010-03-10-1]の記事「#317. 拙著で自分マイニング(キーワード編)」で概説し,[2010-09-27-1]の記事「#518. Singapore English のキーワードを抽出」でもキーワード抽出の事例を紹介した.
今回はより身近な疑問として,(1) アメリカ英語に対していかにもイギリス英語的な単語は何か,(2) イギリス英語に対していかにもアメリカ英語的な単語は何か,を FLOB と Frown の2コーパスを用いて取り出してみたい(両コーパスについては[2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照).解析のお供は,以前と同様 WordSmith の KeyWords 抽出機能である.
両変種の語彙頻度表を互いに突き合わせ,それぞれキーワード性 (keyness) の高い順に上位500語を取り出した(全リストはこちらのテキストファイルを参照).ここでは,それぞれから上位50語のみを再掲しよう.すべて小文字で示す.
Q. (1) アメリカ英語に対していかにもイギリス英語的な単語は何か?
A. (1) 以下の通り.
cent, which, labour, uk, towards, london, per, centre, was, british, programme, behaviour, it, be, colour, britain, defence, favour, royal, there, been, round, bbc, thatcher, sir, mp, charter, nhs, realised, scottish, yesterday, lord, favourite, local, council, recognised, theatre, mr, being, fviii, tory, kinnock, mps, thalidomide, whilst, scotland, churches, should, programmes, parliament
Q. (2) イギリス英語に対していかにもアメリカ英語的な単語は何か
A. (2) 以下の通り.
percent, toward, program, programs, clinton, u, bush, labor, s, defense, president, american, states, center, washington, formula, federal, behavior, color, united, black, state, fiber, says, zen, americans, ó, california, congress, zach, san, o, white, presidential, pex, jell, women, treaty, favorite, said, bill, gray, colors, perot, favor, douglass, hershey, quayle, j, n
中には,それだけでは意味不明のものもある.BrE の第1位 cent などは何故かと思うかもしれないが,分かち書きをする per cent の2語目が抜き出された結果である.AmE では対応する percent が第1位である.他にも綴字の英米差はよく反映されており,behaviour, centre, colour, defence, favour, favourite, labour, programme(s) は互いのリストに現われる.
英国の政治を特徴づける MP(s), NHS, Parliament, Royal, Scotland, Tory,対応する米国の Congress, Federal, President, State(s), Washington, White (House) などは,なるほどと頷かせる.両コーパスのテキスト年代である1990年代初頭(と少し以前の時期)を特徴づける Thatcher, Bush, Clinton も含まれている.
文法語としては,BrE の which や whilst ([2010-09-17-1]の記事「#508. Dracula に現れる whilst」を参照)が興味深い.
それにしても,それぞれ鼻につくほどの BrE あるいは AmE である.逆に,各変種の汎用コーパスからこのようにして抽出されたキーワードがどれくらい含まれているかによって,小説なり何なりのテキストがいかに BrE 的か AmE 的か,あるいはより中立な "World Standard English" に近いかということを測ることができるかもしれない.
キーワード抽出による「いかにも」シリーズは今後も続きそう.
現代英語の動詞 panic や picnic は,屈折語尾や派生語尾が付加されると,panicking, panicky, picnicked, picnicker などと <k> が挿入される.また,brick, kick, stick などの接尾辞ではない,語根の一部としての /-ɪk/ にも <k> が現われる.しかし,一般に接尾辞としての /-ɪk/ が語末に現われる場合,対応する綴字は -ick ではなく -ic である (ex. public, music, specific, basic, domestic, traffic, democratic, scientific, characteristic, academic) .
しかし,Johnson の A Dictionary of the English Language (1755) では,-ic 語はすべて,いまだ -ick として綴られていた.これを現代風の -ic へと改めたのはアメリカの辞書編纂者 Noah Webster だった.彼が The American Dictionary of the English Language (1828) で体現した改革により public の綴字が定着し,そのほかの多くの -ic 語の綴字も定着した.そして,これがアメリカ英語のみならずイギリス英語へも拡大していったのである (Potter 41) .
もっとも,Webster 以前に -ic の綴字がなかったわけではない.むしろ,ある程度の市民権を得ていたからこそ,Webster の一押しが効いたという側面がある.[2010-12-25-1]の記事で紹介した Google Books Ngram Viewer による public と publick の頻度の変遷を見れば,この状況が把握できる.AmE の変遷グラフ と BrE の変遷グラフ を確認されたい.同じデータを Mark Davies による Google Books: American English 経由で10年刻みに見ると,publick は1810--29年までは100万語辺りで20回以上現われていたが,1830年代には4.15回へ激減しているのが分かる.
接尾辞 -ic に関連する話題としては,次の記事も参照.
・ [2009-08-02-1]: #97. 借用接尾辞「チック」
・ [2009-08-03-1]: #98. 「リック」や「ニック」ではなく「チック」で切り出した理由
・ [2009-08-10-1]: #105. 日本語に入った「チック」語
・ Potter, Simon. Changing English. London: Deutsch, 1969.
図書館の reference corner に,古めかしい浩瀚の辞書があるのを日々見ていた.自分ではあまり使うことはないかなと思っていたが,数年前,博士論文研究に関連して eyes (「目」の複数形)に対応する中英語の諸方言形が近代英語や現代英語でどのように発達し,方言分布を変化させてきたかを調べる必要があり,そのときにこの辞書を開いたのが初めてだったように思う(その成果は Hotta (2005) にあり.[2009-12-02-1]の記事「eyes を表す172通りの綴字」も参照).Joseph Wright による6巻ものの辞書 The English Dialect Dictionary (EDD) である.
それ以降もたまに開く機会はあったが,先日参加した学会で,この辞書がオンライン化されたと知った.久しぶりに EDD に触れる良い機会だと思い,早速アクセスしてみることにした.Innsbruck 大学の Prof. Manfred Markus が責任者を務める SPEED (Spoken English in Early Dialects) プロジェクトの成果たる EDD Online の beta-version が公開中である.現時点では完成版ではないとしつつも,すでに検索等の機能は豊富に実装されており(豊富すぎて活用仕切れないほど),学術研究用に使用許可を取得すれば無償でアクセスできる.(使用マニュアルも参照.)
早速,使用許可を得てアクセスしてみた.ただし,調べる題材がない私にとっては,豚に真珠,猫に小判.悲しいかな,見出し語検索に eye を入れてみたりして・・・(←紙で引け!懐かしむな!)(ただし,"structured view" で表示すると,紙版よりずっと見やすいのでそれだけでも有用).Markus 氏が学会でじきじきに宣伝していた通り,様々な検索が可能のようである.見出し語検索や全文検索はもちろんのこと,dialect area 検索では語によっては county レベルで地域を指定できる.usage label 検索では頻度ラベル,意味ラベル(denotation, simile, synonym など),語用ラベル(derogatory, slang など)の条件指定が可能である.etymology 検索の機能も備わっている.これらを組み合わせれば,特定地域と特定の言語からの借用語彙の関係などが見えてくるかもしれない.活用法を考えるに当たっては,まずは EDD がどのような辞書か,EDD Online がどのような機能を実装しているのかを学ばなければ・・・.
EDD そのものについては,VARIENG (Research Unit for Variation, Contacts and Change in English) に掲載されている,Markus 氏による Wright's English Dialect Dictionary computerised: towards a new source of information がよくまとまっている.
(後記 2022/10/21(Fri):EDD や SPEED へのリンクが切れていたのを発見した.EDD は新たにこちらよりどうぞ.)
・ Hotta, Ryuichi. "A Historical Study on 'eyes' in English from a Panchronic Point of View." Studies in Medieval English Language and Literature 20 (2005): 75--100.
・ Wright, Joseph, ed. The English Dialect Dictionary. 6 vols. Henry Frowde, 1898--1905.
標題について[2011-08-27-1], [2011-08-28-1]の記事で話題にしてきたが,現代英語でこの用法の she が《古風》となってきている,あるいは少なくともその register が狭まってきているのはなぜだろうか.
これには,1960年代以降,とりわけアメリカ英語で高まってきた言語の gender 論,男女平等という観点からの political correctness (PC) への関心がかかわっている.この観点から,人間の総称としての man(kind),女性接尾辞 -ess,職業人を表わす複合語要素 -man,一般人称代名詞としての he の使用などが疑問視され,数々の代替表現が提案されてきた.(関連する話題は,[2009-08-20-1]「男の人魚はいないのか?」, [2010-01-27-1]「現代英語の三人称単数共性代名詞」, [2011-04-17-1]「レトリック的トポスとしての語源」などの記事を参照.)
この観点から she の特殊用法を見ると,船や国名を取り立てて女性代名詞で受ける理由はないではないかという議論が生じる.船乗りや国の為政者が主として男性だったという英語国の歴史を反映していることは確かだろうが,現在も旧来の慣習を受け継ぐべき合理性はないという考え方である.
特に国名を受ける she の用法は,形式張った書き言葉という register に限ると,1960年代以降,激減してきていることが実証される.The Times corpus を用いてこれを検証した Bauer (148--49) によると,1930年までは国を指示する she の用法は標準的だった.実際,1900年から1930年の間で,国を指示する it の用例は3例のみだったという.ところが,1935年以降,it の例が断続的に現われだし,1970年にはshe を圧迫して一気に標準となった.she の用例が減少してきた過程は逆S字曲線を描いているかのようであり,語彙拡散 (lexical diffusion) を思わせる.以下のグラフは Bauer (149) のグラフに基づいて概数から再作成したものである.
・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.
現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.
・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合
語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.
|
![]() |
複数形ウォッチャーとして,気になる複数接尾辞がある.発音は -s の場合と同様だが,綴字が <z> となる「z 複数」である.Crystal (137) が以下のように指摘していた.
New spelling conventions have emerged, such as the replacement of plural -s by -z to refer to pirated versions of software, as in warez, tunez, gamez, serialz, pornz, downloadz, and filez. (137)
それぞれ発音の差異を伴わない完全に綴字上の異形態だが,いかがわしい効果は抜群である.このいかがわしさが何に由来するのかといえば,<z> の文字自体のもつ異様さだろう.[2010-07-17-1]の記事「しぶとく生き残ってきた <z>」で取りあげたように,<z> はきわめて影の薄い文字だが,<s> の明らかに期待されるところで <z> が前景化されるとやけに目立つ.
しかし,「海賊複数」 ( plural of piracy ) とでも呼びたくなるこの <z> 接尾辞(字)の使用は,現在では NetSpeak での隠語としての使用に限定されているようだ.COCA ( Corpus of Contemporary American English ) の検索によると,warez で4例がヒットした( warez 以外の上掲の語はヒットなし).以下はそのうちの1例で,2004年の Houston Chronicle からの記事である.
CW Shredder - www.spyware info.com/merijn/ Developed by the same author as Hijack This!, CW Shredder removes a very common piece of spyware known as the Coolwebsearch Trojan. It takes advantage of a flaw in a key component of Windows - Microsoft's version of the Java Virtual Machine - to install itself via pop-ups often found on porn and illegal software (a.k.a. "warez") sites.
他に BNCweb で "*z_NN2" として検索してみると,BOYZ が多数ヒットした.ただし,これはアメリカの人気グループ Boyz II Men やアメリカ英語 Boyz n the Hood への言及によるもので,海賊複数とは趣が異なる.とはいえ,固有名や商品名(の宣伝)に非標準的な綴字を用いることは商業広告では広く見られる現象であり(例えば Heinz 社の "Heinz Buildz Kidz" ),目立たせる効果を狙っている点では共通性が感じられる.
ちなみに,Kirg(h)iz 「キルギス人」がヒットしたが,これはロシア語の綴字に準じたもので単複同形であるにすぎない(異形として Kirg(h)izes もあり).
・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.
Powered by WinChalow1.0rc4 based on chalow