hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 12 次ページ / page 9 (12)

corpus - hellog〜英語史ブログ

最終更新時間: 2024-04-23 15:39

2011-12-07 Wed

#954. 脚韻を踏む2項イディオム [binomial][rhyme][corpus][coca][collocation][euphony][n-gram][suffix][compound]

 昨日の記事「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1]) に引き続き,今回は,脚韻を踏む高頻度の binomial を COCA ( Corpus of Contemporary American English ) の n-gram データベースにより拾い出したい.昨日と同様に,3-gram を用い,"A and/but/or B" の形の共起表現で,かつ A と B が脚韻を踏んでいるような例を取りだした.検索結果を納めたテキストファイルはこちら
 検索結果を眺めていて今更ながら気付いたことなのだが,脚韻は頭韻に比べてパターンが見つけやすい.特に顕著なのは,脚韻の多くが,語幹の語尾に依存しているというよりは,接尾辞に依存していることだ.-ing, -ed, -ly, -al, -y, -ion, -er などの屈折接尾辞や派生接尾辞が活躍している.

positive and negative, national and international, internal and external, Friday and Saturday, teaching and learning, gifted and talented, elementary and secondary, hunting and fishing, personal and professional, presence or absence, reliability and validity, coming and going, winners and losers, physical and psychological, formal and informal, directly and indirectly, advantages and disadvantages, rising and falling, physically and mentally, buyers and sellers


 また,これも考えてみれば,さもありなんという事例なのだが,複合語の第2要素に同じ形態素を用いることにより韻を踏んでいる例も多い.一種の self-rhyme ではある.

Friday and Saturday, children and grandchildren, Saturday and Sunday, hardware and software, himself or herself, formal and informal, parents and grandparents, direct and indirect, buyers and sellers, mother and grandmother, father and grandfather, Afghanistan and Pakistan, anything and everything, football and basketball, indoor and outdoor, direct or indirect, servicemen and women, likes and dislikes, urban and suburban, indoor and outdoor


 接尾辞を多用する屈折や派生,そして right-headed な複合を好む英語においては,脚韻を利用した2項イディオムの形成が容易であり,頻繁であることは,自然に理解できそうだ.逆から見れば,語幹の語頭音を利用する頭韻の2項イディオムの形成は,相対的に難しいということになるのかもしれない.

Referrer (Inside): [2015-09-07-1] [2011-12-08-1]

[ 固定リンク | 印刷用ページ ]

2011-12-06 Tue

#953. 頭韻を踏む2項イディオム [binomial][alliteration][corpus][coca][collocation][euphony][n-gram]

 [2011-07-26-1]の記事「#820. 英仏同義語の並列」で,2項イディオム (binomial idiom) を紹介した.and, but, or などの等位接続詞で結ばれる2項からなる表現は現代英語でも顕在であり,よく見られるものには,語呂のよいもの (euphony) が多い.英語において語呂の良さといえば,[2011-11-26-1]の記事「#943. 頭韻の歴史と役割」で取り上げた頭韻 (alliteration) が,典型の1つとして挙げられる.
 ところで,11月22日に,大規模オンライン・コーパス COCA ( Corpus of Contemporary American English ) などで知られるコーパス言語学者 Mark Davies が,COCA に基づく n-gram を無償で公開した.2, 3, 4, 5語からなる,それぞれ最頻100万の共起表現 (collocation) を,頻度数とともに列挙したデータベースで,ダウンロードしてオフラインで自由に処理できる.

 ・ Visit N-GRAMS: from the COCA and COHA corpora of American English. For downloading, directly visit Free lists.
 ・ Also visit Word frequency lists and dictionary: from the Corpus of Contemporary American English for other COCA-derived n-grams and frequency lists.

 ここで,COCA n-gram から現代英語の2項イディオムに見られる頭韻を探して出してみようと思い立った.3-gram データベースを利用し,"A and/but/or B" の形の共起表現を探った.話者の意識していないところでも,頭韻は日常表現のなかに相当活用されているはずだとの予想のもとでの検索だったが,実際に多数の例を拾い出すことができた.検索結果のテキストファイルはこちら.2項の語頭の子音字が一致しているものを取り出しただけなので,それが表わす子音が一致しているとは限らず,注意が必要である.それでも,相当数の生きた日常的な頭韻の例を拾い出すことができた.
 検索結果上位には,his or her, four or five, six or seven, this or that, Saturday and Sunday など,なるほどとは思わせるが,それほど興味深く感じられない例が少なくない.しかし,イディオム的な性格のもう少し強い,次のような共起表現も次々と挙がり,検索の甲斐があったと満足した.

public and private, rules and regulations, pots and pans, command and control, flora and fauna, free and fair, death and destruction, go and get, safety and security, signs and symptoms, fame and fortune, families and friends, fresh or frozen, peace and prosperity, past and present, quantity and quality, morbidity and mortality, slowly but surely, professional and personal, name and number, facts and figures, pencil and paper, state and society, small but significant, clear and convincing


 n-gram については,[2010-12-25-1]の記事「#607. Google Books Ngram Viewer」も参照.

[ 固定リンク | 印刷用ページ ]

2011-11-13 Sun

#930. a large number of people の数の一致 [agreement][number][syntax][bnc][corpus]

 現代英語で「a (large) number of + 複数名詞」が主語に立つとき,動詞は複数に一致するのが原則である.完全にこの理解でいたのだが,先日次のような文に出くわした.

A large number of native speakers is perhaps a pre-requisite for a language of wider communication . . . . (Graddol 12)


 そこで,数々の辞書や文法書をひっくり返してみた.ほとんどすべての参考書がこの句を複数扱いとしており,統語分析を与えているものについては,number ではなくこの場合で言えば native speakers を主要部 (head) とみなしている.特に,OALD8, LDOCE5, COBUILD English Usage といった典型的な学習者用英英辞書では,複数形の動詞で一致するよう明示的に注記を与えている.また,規範文法のご意見番 Fowler ("number" の項)によると次の通りで,単数一致については明示的な言及はなかった.

. . . as a noun of multitude in the type 'a number of + pl. noun', normally governs a plural verb both in BrE and AmE.


 調べたレファレンスのなかで,単数一致について言及していたのは以下のものである.

 ・ CGEL: "A (large) number of people have applied for the job. [2]" という例文について,"Use of the singular . . . would be considered pedantic in [2] . . . ." (765) と述べている.
 ・ CALD3: 単数一致を示す例文を "(slightly formal)" というレーベルを与えつつ挙げていた."A large number of invitations has been sent."
 ・ 『ジーニアス英和大辞典』: 単数一致を「((正式))」としていた."A ? of passengers were [((正式)) was] injured in the accident."

 これで,formal or pedantic という register でまれに使用されるらしいということは分かった.では,BNCWeb で確かめてみようと,"a (very)? (large|great|good|small)? number of ((_AV*)? _AJ*)* _NN2 (_VHZ|_VBZ|was_VBD|_VDZ|_VVZ)" として検索し,該当する例のみを手作業で拾い出してみた.全部で25例あったが,1例を除いてすべてが書き言葉からの文例であり,そのうち12例が Academic prose からのものだった.全体として,この表現が academic or pedantic へ強い傾向を示すことは確かなようだ.

 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm
 ・ Burchfield, Robert, ed. Fowler's Modern English Usage. Rev. 3rd ed. Oxford: OUP, 1998.
 ・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.

Referrer (Inside): [2021-05-20-1] [2013-01-11-1]

[ 固定リンク | 印刷用ページ ]

2011-10-28 Fri

#914. BNC による語彙の世代差の調査 [bnc][corpus][statistics][lltest][interjection]

 昨日の記事「#913. BNC による語彙の男女差の調査」 ([2011-10-27-1]) で取りあげた Rayson et al. では,話者の性別だけでなく年齢による語彙の変異も調査されている.年齢差といっても,35歳未満か以上かで上下の世代に分けた大雑把な分類だが,結果はいくつかの興味深い示唆を与えてくれる.以下は,χ2 の上位19位までの一覧である (142--43) .

RankUnder 35Over 35
Wordχ2Wordχ2
1mum1409.3yes2365.0
2fucking1184.6well1059.8
3my762.4mm895.2
4mummy755.2er773.8
5like745.2they682.2
6na as in wanna and gonna712.8said538.3
7goes606.6says443.1
8shit410.1were385.8
9dad403.7the352.2
10daddy380.1of314.6
11me371.9and224.7
12what357.3to211.2
13fuck330.1mean155.0
14wan as in wanna320.6he144.0
15really277.0but139.0
16okay257.0perhaps136.0
17cos254.4that131.3
18just251.8see122.1
19why240.0had118.3


 予想される通り,若い世代に特徴的なキーワードはくだけた語を多く含んでいる.表外の語も含めてだが,yeah, okay, ah, ow, hi, hey, ha, no, ooh, wow, hello などの間投詞,fucking, shit, fuck, crap, arse, bollocks などのタブー語が目立つ.しかし,若い世代のキーワードとして,一見すると予想しがたい語も挙がる.例えば,please, sorry, pardon, excuse などの丁寧語が若い世代に特徴的だという.
 ほかには,若い世代に特徴的な形容詞や副詞がいくつか見られる (ex. weird, massive, horrible, sick, funny, disgusting, brilliant, really, alright, basically) .評価を表わす形容詞・副詞が多く,一種の流行とみなすことができる語群だろう.年齢差を "apparent time" の差と考えれば,そこには "real time" の変化が示唆されることになるので,この語群の通時的な頻度の増加を探るのもおもしろそうだ.

 ・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

Referrer (Inside): [2013-04-14-1] [2011-11-02-1]

[ 固定リンク | 印刷用ページ ]

2011-10-27 Thu

#913. BNC による語彙の男女差の調査 [bnc][corpus][statistics][lltest][interjection][gender_difference]

 標題の話題を扱った Rayson et al. の論文を読んだ.BNC の中で,人口統計的な基準で分類された,話し言葉を収録したサブコーパス(総語数4,552,555語)を対象として,語彙の男女差,年齢差,社会的地位による差を明らかにしようとした研究である.これらの要因のなかで,語彙的変異が統計的に最も強く現われたのは性による差だったということなので,本記事ではその結果を紹介したい.
 まず,以下に挙げる数値の解釈には前提知識が必要なので,それに触れておく.BNC に収録された話し言葉は志願者に2日間の自然な会話を Walkman に吹き込んでもらった上で,それを書き起こしたものであり,その志願者の内訳は男性73名,女性75名である.会話に登場する志願者以外の話者についても,女性のほうが多い.したがって,当該サブコーパスへの参加率でいえば,全体として女性が男性よりも高くなることは不思議ではない.
 しかし,その前提を踏まえた上でも,全体として女性のほうがよく話すということを示唆する数値が出た.使用された word token 数でいえば,男性を1.00とすると女性が1.51,会話の占有率では,男性を1.00とすると女性は1.33だった.男女混合の会話では男性のほうが高い会話占有率を示すとする先行研究があるが,BNC のサブコーパスでは女性同士の会話が多かったということが,上記の結果の背景にあるのかもしれない.いずれにせよ,興味深い数値であることは間違いない.
 次に,より細かく語彙における男女差を見てみよう.男女差の度合いの高いキーワードを抜き出す手法は,原理としては[2010-03-10-1], [2010-09-27-1], [2011-09-24-1]の記事で紹介したのと同じ手法である.男性コーパスと女性コーパスを区別し,それぞれから作られた語彙頻度表を突き合わせて統計的に処理し,カイ二乗値 (χ2) の高い順に並び替えればよい.以下は,上位25位までの一覧である (136--37) .

RankCharacteristically maleCharacteristically female
Wordχ2Wordχ2
1fucking1233.1she3109.7
2er945.4her965.4
3the698.0said872.0
4year310.3n't443.9
5aye291.8I357.9
6right276.0and245.3
7hundred251.1to198.6
8fuck239.0cos194.6
9is233.3oh170.2
10of203.6Christmas163.9
11two170.3thought159.7
12three168.2lovely140.3
13a151.6nice134.4
14four145.5mm133.8
15ah143.6had125.9
16no140.8did109.6
17number133.9going109.0
18quid124.2because105.0
19one123.6him99.2
20mate120.8really97.6
21which120.5school96.3
22okay119.9he90.4
23that114.2think88.8
24guy108.6home84.0
25da105.3me83.5


 必ずしもこの25位までの表からだけでは読み取れないが,Rayson et al. (138--40) によれば以下の点が注目に値するという.

 ・ "four-letter words",数詞,特定の間投詞は男性に特徴的である (ex. shit, hell, crap; hundred, one, three, two, four; er, yeah, aye, okay, ah, eh, hmm)
 ・ 女性人称代名詞,1人称代名詞,特定の間投詞は女性に特徴的である (ex. she, her, hers; I, me, my, mine; yes, mm, really) (男性代名詞の使用には特に男女差はない)
 ・ theof の使用は男性に多い(男性に一般名詞を用いた名詞句の使用が多いという別の事実と関連するか?)
 ・ 固有名詞,代名詞,動詞は女性に多い(男性の事実描写 "report" の傾向に対する女性の関係構築 "rapport" の傾向の現われか?)
 ・ 固有名詞のなかでも,人名は女性の使用が多く,地名は男性の使用が多い.

 他のコーパスによる検証が必要だろうが,この結果と解釈に興味深い含蓄があることは確かである.
 キーワードの統計処理と関連して,コーパス言語学でカイ二乗検定の代用として広く使用されるようになってきた Log-Likelihood 検定については,自作の Log-Likelihood Tester, Ver. 1Log-Likelihood Tester, Ver. 2 を参照.

 ・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

[ 固定リンク | 印刷用ページ ]

2011-09-24 Sat

#880. いかにもイギリス英語,いかにもアメリカ英語の単語 [corpus][ame_bre][ame][bre][flob][frown][text_tool][keyword]

 道具が揃っていれば簡単に実行でき,しかも結果がとてもおもしろいコーパスの使い方として,キーワード抽出がある.その原理については[2010-03-10-1]の記事「#317. 拙著で自分マイニング(キーワード編)」で概説し,[2010-09-27-1]の記事「#518. Singapore English のキーワードを抽出」でもキーワード抽出の事例を紹介した.
 今回はより身近な疑問として,(1) アメリカ英語に対していかにもイギリス英語的な単語は何か,(2) イギリス英語に対していかにもアメリカ英語的な単語は何か,を FLOB と Frown の2コーパスを用いて取り出してみたい(両コーパスについては[2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照).解析のお供は,以前と同様 WordSmith の KeyWords 抽出機能である.
 両変種の語彙頻度表を互いに突き合わせ,それぞれキーワード性 (keyness) の高い順に上位500語を取り出した(全リストはこちらのテキストファイルを参照).ここでは,それぞれから上位50語のみを再掲しよう.すべて小文字で示す.

 Q. (1) アメリカ英語に対していかにもイギリス英語的な単語は何か?
 A. (1) 以下の通り.

cent, which, labour, uk, towards, london, per, centre, was, british, programme, behaviour, it, be, colour, britain, defence, favour, royal, there, been, round, bbc, thatcher, sir, mp, charter, nhs, realised, scottish, yesterday, lord, favourite, local, council, recognised, theatre, mr, being, fviii, tory, kinnock, mps, thalidomide, whilst, scotland, churches, should, programmes, parliament


 Q. (2) イギリス英語に対していかにもアメリカ英語的な単語は何か
 A. (2) 以下の通り.

percent, toward, program, programs, clinton, u, bush, labor, s, defense, president, american, states, center, washington, formula, federal, behavior, color, united, black, state, fiber, says, zen, americans, ó, california, congress, zach, san, o, white, presidential, pex, jell, women, treaty, favorite, said, bill, gray, colors, perot, favor, douglass, hershey, quayle, j, n


 中には,それだけでは意味不明のものもある.BrE の第1位 cent などは何故かと思うかもしれないが,分かち書きをする per cent の2語目が抜き出された結果である.AmE では対応する percent が第1位である.他にも綴字の英米差はよく反映されており,behaviour, centre, colour, defence, favour, favourite, labour, programme(s) は互いのリストに現われる.
 英国の政治を特徴づける MP(s), NHS, Parliament, Royal, Scotland, Tory,対応する米国の Congress, Federal, President, State(s), Washington, White (House) などは,なるほどと頷かせる.両コーパスのテキスト年代である1990年代初頭(と少し以前の時期)を特徴づける Thatcher, Bush, Clinton も含まれている.
 文法語としては,BrE の whichwhilst ([2010-09-17-1]の記事「#508. Dracula に現れる whilst」を参照)が興味深い.
 それにしても,それぞれ鼻につくほどの BrE あるいは AmE である.逆に,各変種の汎用コーパスからこのようにして抽出されたキーワードがどれくらい含まれているかによって,小説なり何なりのテキストがいかに BrE 的か AmE 的か,あるいはより中立な "World Standard English" に近いかということを測ることができるかもしれない.
 キーワード抽出による「いかにも」シリーズは今後も続きそう.

[ 固定リンク | 印刷用ページ ]

2011-09-16 Fri

#872. -ick or -ic [suffix][johnson][webster][corpus][google_books][spelling][n-gram]

 現代英語の動詞 panicpicnic は,屈折語尾や派生語尾が付加されると,panicking, panicky, picnicked, picnicker などと <k> が挿入される.また,brick, kick, stick などの接尾辞ではない,語根の一部としての /-ɪk/ にも <k> が現われる.しかし,一般に接尾辞としての /-ɪk/ が語末に現われる場合,対応する綴字は -ick ではなく -ic である (ex. public, music, specific, basic, domestic, traffic, democratic, scientific, characteristic, academic) .
 しかし,Johnson の A Dictionary of the English Language (1755) では,-ic 語はすべて,いまだ -ick として綴られていた.これを現代風の -ic へと改めたのはアメリカの辞書編纂者 Noah Webster だった.彼が The American Dictionary of the English Language (1828) で体現した改革により public の綴字が定着し,そのほかの多くの -ic 語の綴字も定着した.そして,これがアメリカ英語のみならずイギリス英語へも拡大していったのである (Potter 41) .
 もっとも,Webster 以前に -ic の綴字がなかったわけではない.むしろ,ある程度の市民権を得ていたからこそ,Webster の一押しが効いたという側面がある.[2010-12-25-1]の記事で紹介した Google Books Ngram Viewer による publicpublick の頻度の変遷を見れば,この状況が把握できる.AmE の変遷グラフBrE の変遷グラフ を確認されたい.同じデータを Mark Davies による Google Books: American English 経由で10年刻みに見ると,publick は1810--29年までは100万語辺りで20回以上現われていたが,1830年代には4.15回へ激減しているのが分かる.

public or publick by Google Books BYU

 接尾辞 -ic に関連する話題としては,次の記事も参照.

 ・ [2009-08-02-1]: #97. 借用接尾辞「チック」
 ・ [2009-08-03-1]: #98. 「リック」や「ニック」ではなく「チック」で切り出した理由
 ・ [2009-08-10-1]: #105. 日本語に入った「チック」語

 ・ Potter, Simon. Changing English. London: Deutsch, 1969.

Referrer (Inside): [2014-09-30-1]

[ 固定リンク | 印刷用ページ ]

2011-09-12 Mon

#868. EDD Online [dialect][web_service][corpus][lmode][lexicography][edd][dictionary]

 図書館の reference corner に,古めかしい浩瀚の辞書があるのを日々見ていた.自分ではあまり使うことはないかなと思っていたが,数年前,博士論文研究に関連して eyes (「目」の複数形)に対応する中英語の諸方言形が近代英語や現代英語でどのように発達し,方言分布を変化させてきたかを調べる必要があり,そのときにこの辞書を開いたのが初めてだったように思う(その成果は Hotta (2005) にあり.[2009-12-02-1]の記事「eyes を表す172通りの綴字」も参照).Joseph Wright による6巻ものの辞書 The English Dialect Dictionary (EDD) である.
 それ以降もたまに開く機会はあったが,先日参加した学会で,この辞書がオンライン化されたと知った.久しぶりに EDD に触れる良い機会だと思い,早速アクセスしてみることにした.Innsbruck 大学の Prof. Manfred Markus が責任者を務める SPEED (Spoken English in Early Dialects) プロジェクトの成果たる EDD Onlinebeta-version が公開中である.現時点では完成版ではないとしつつも,すでに検索等の機能は豊富に実装されており(豊富すぎて活用仕切れないほど),学術研究用に使用許可を取得すれば無償でアクセスできる.(使用マニュアルも参照.)
 早速,使用許可を得てアクセスしてみた.ただし,調べる題材がない私にとっては,豚に真珠,猫に小判.悲しいかな,見出し語検索に eye を入れてみたりして・・・(←紙で引け!懐かしむな!)(ただし,"structured view" で表示すると,紙版よりずっと見やすいのでそれだけでも有用).Markus 氏が学会でじきじきに宣伝していた通り,様々な検索が可能のようである.見出し語検索や全文検索はもちろんのこと,dialect area 検索では語によっては county レベルで地域を指定できる.usage label 検索では頻度ラベル,意味ラベル(denotation, simile, synonym など),語用ラベル(derogatory, slang など)の条件指定が可能である.etymology 検索の機能も備わっている.これらを組み合わせれば,特定地域と特定の言語からの借用語彙の関係などが見えてくるかもしれない.活用法を考えるに当たっては,まずは EDD がどのような辞書か,EDD Online がどのような機能を実装しているのかを学ばなければ・・・.
 EDD そのものについては,VARIENG (Research Unit for Variation, Contacts and Change in English) に掲載されている,Markus 氏による Wright's English Dialect Dictionary computerised: towards a new source of information がよくまとまっている.

(後記 2022/10/21(Fri):EDD や SPEED へのリンクが切れていたのを発見した.EDD は新たにこちらよりどうぞ.)

 ・ Hotta, Ryuichi. "A Historical Study on 'eyes' in English from a Panchronic Point of View." Studies in Medieval English Language and Literature 20 (2005): 75--100.
 ・ Wright, Joseph, ed. The English Dialect Dictionary. 6 vols. Henry Frowde, 1898--1905.

[ 固定リンク | 印刷用ページ ]

2011-08-29 Mon

#854. 船や国名を受ける代名詞 she (3) [personal_pronoun][she][gender][personification][political_correctness][corpus][statistics][lexical_diffusion]

 標題について[2011-08-27-1], [2011-08-28-1]の記事で話題にしてきたが,現代英語でこの用法の she が《古風》となってきている,あるいは少なくともその register が狭まってきているのはなぜだろうか.
 これには,1960年代以降,とりわけアメリカ英語で高まってきた言語の gender 論,男女平等という観点からの political correctness (PC) への関心がかかわっている.この観点から,人間の総称としての man(kind),女性接尾辞 -ess,職業人を表わす複合語要素 -man,一般人称代名詞としての he の使用などが疑問視され,数々の代替表現が提案されてきた.(関連する話題は,[2009-08-20-1]「男の人魚はいないのか?」, [2010-01-27-1]「現代英語の三人称単数共性代名詞」, [2011-04-17-1]「レトリック的トポスとしての語源」などの記事を参照.)
 この観点から she の特殊用法を見ると,船や国名を取り立てて女性代名詞で受ける理由はないではないかという議論が生じる.船乗りや国の為政者が主として男性だったという英語国の歴史を反映していることは確かだろうが,現在も旧来の慣習を受け継ぐべき合理性はないという考え方である.
 特に国名を受ける she の用法は,形式張った書き言葉という register に限ると,1960年代以降,激減してきていることが実証される.The Times corpus を用いてこれを検証した Bauer (148--49) によると,1930年までは国を指示する she の用法は標準的だった.実際,1900年から1930年の間で,国を指示する it の用例は3例のみだったという.ところが,1935年以降,it の例が断続的に現われだし,1970年にはshe を圧迫して一気に標準となった.she の用例が減少してきた過程は逆S字曲線を描いているかのようであり,語彙拡散 (lexical diffusion) を思わせる.以下のグラフは Bauer (149) のグラフに基づいて概数から再作成したものである.

Feminine References to Country Names in The Times Corpus


 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

[ 固定リンク | 印刷用ページ ]

2011-08-20 Sat

#845. 現代英語の語彙の起源と割合 [lexicology][loan_word][statistics][bnc][corpus]

 現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.

 ・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
 ・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
 ・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合

 語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
 先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
 Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
 これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.

LevelEnglishFrench/LatinScandinavianOther
100 (GSL)92%3%5%0%
600 (LDOCE3)474544
1000 (BNC)46.948.93.21.0
1000 (Williams)831322
2000 (Williams)345727
3000 (Williams)2960110
4000 (Williams)2762110
5000 (Williams)276418
6000 (Williams)2761210
7000 (Williams)2362213
8000 (Williams)2659213
9000 (Williams)2558215
10000 (Williams)2560114
Etymological Breakdown of the Most Frequent Words


 上から3つ目と4つ目の棒グラフは,同じ最頻1000語レベルでの比較だが,3つ目は上述の Durkin の BNC 調査によるもの,4つ目は[2010-06-30-1]の記事で示した Williams のものである.著しい差異が生じたが,これも調査方法が異なるがゆえだろうか.注意して解釈する必要があるが,この点を除けば全体としてなだらかに推移し,最終的には本来語25%,ラテン・フランス語60%,それ以外が15%という数値におよそ落ち着くようだ.

[ 固定リンク | 印刷用ページ ]

2011-07-05 Tue

#799. 海賊複数の <z> [plural][netspeak][suffix][corpus][z][alphabet]

 複数形ウォッチャーとして,気になる複数接尾辞がある.発音は -s の場合と同様だが,綴字が <z> となる「z 複数」である.Crystal (137) が以下のように指摘していた.

New spelling conventions have emerged, such as the replacement of plural -s by -z to refer to pirated versions of software, as in warez, tunez, gamez, serialz, pornz, downloadz, and filez. (137)


 それぞれ発音の差異を伴わない完全に綴字上の異形態だが,いかがわしい効果は抜群である.このいかがわしさが何に由来するのかといえば,<z> の文字自体のもつ異様さだろう.[2010-07-17-1]の記事「しぶとく生き残ってきた <z>」で取りあげたように,<z> はきわめて影の薄い文字だが,<s> の明らかに期待されるところで <z> が前景化されるとやけに目立つ.
 しかし,「海賊複数」 ( plural of piracy ) とでも呼びたくなるこの <z> 接尾辞(字)の使用は,現在では NetSpeak での隠語としての使用に限定されているようだ.COCA ( Corpus of Contemporary American English ) の検索によると,warez で4例がヒットした( warez 以外の上掲の語はヒットなし).以下はそのうちの1例で,2004年の Houston Chronicle からの記事である.

CW Shredder - www.spyware info.com/merijn/ Developed by the same author as Hijack This!, CW Shredder removes a very common piece of spyware known as the Coolwebsearch Trojan. It takes advantage of a flaw in a key component of Windows - Microsoft's version of the Java Virtual Machine - to install itself via pop-ups often found on porn and illegal software (a.k.a. "warez") sites.


 他に BNCweb で "*z_NN2" として検索してみると,BOYZ が多数ヒットした.ただし,これはアメリカの人気グループ Boyz II Men やアメリカ英語 Boyz n the Hood への言及によるもので,海賊複数とは趣が異なる.とはいえ,固有名や商品名(の宣伝)に非標準的な綴字を用いることは商業広告では広く見られる現象であり(例えば Heinz 社の "Heinz Buildz Kidz" ),目立たせる効果を狙っている点では共通性が感じられる.
 ちなみに,Kirg(h)iz 「キルギス人」がヒットしたが,これはロシア語の綴字に準じたもので単複同形であるにすぎない(異形として Kirg(h)izes もあり).

 ・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.

[ 固定リンク | 印刷用ページ ]

2011-06-09 Thu

#773. PPCMBE と COHA の比較 [corpus][coha][ppcmbe][lmode][adjective][comparison][inflection][representativeness]

 本ブログでも何度か取り上げている2つの歴史英語コーパス PPCMBE ( Penn Parsed Corpus of Modern British English; see [2010-03-03-1]. ) と COHA ( Corpus of Historical American English; see [2010-09-19-1]. ) について,塚本氏が『英語コーパス研究』の最新号に研究ノートを発表している.両者とも2010年に公開された近代英語後期のコーパスだが,それぞれ英米変種であること,また編纂目的が異なることから細かな比較の対象には適さない.しかし,代表性をはじめとするコーパスの一般的な特徴を比べることは意味があるだろう.
 PPCMBE は1700--1914年のイギリス英語テキスト約949,000語で構成されており,Parsed Corpora of Historical English の1部をなす.同様に構文解析されたより古い時代の対応するコーパスとの接続を意識した作りである.有料でデータを入手する必要がある.一方,COHA は1810--2009年のアメリカ英語テキスト4億語を収録した巨大コーパスである.こちらは,構文解析はされていない.COHA は無料でオンラインアクセスできるため使いやすいが,インターフェースが固定されているので柔軟なデータ検索ができないという難点がある.
 コーパスの規模とも関係するが,PPCMBE は代表性 (representativeness) の点で難がある.PPCMBE のコーパステキストを18ジャンルへ細かく分類し,テキスト年代を10年刻みでとると,サイズがゼロとなるマス目が多く現われる.これは,区分を細かくしすぎると有意義な分析結果が出ないということであり,使用に際して注意を要する.
 一方,COHA のコーパステキストは Fiction, Popular Magazines, Newspapers, Non-Fiction Books の4ジャンルへ大雑把に区分されている.細かいジャンル分けの研究には利用できないが,10年刻みでも各マス目に適切なサイズのテキストが配されており,代表性はよく確保されている.ただし,Fiction の構成比率がどの時代も約50%を占めており,Fiction の言語の特徴(特に語彙)がコーパス全体の言語の特徴に影響を与えていると考えられ,分析の際にはこの点に注意を要する.
 塚本氏は,両コーパスの以上の特徴を,後期近代英語における形容詞の比較級・最上級の問題によって示している.CONCE (Corpus of Nineteenth-Century English) を用いた Kytö and Romaine の先行研究によれば,19世紀の間,比較級の迂言形に対する屈折形の割合は,30年刻みで世紀初頭の57.1%から世紀末の67.8%へと増加しているという.同様の調査を COHA と PPCMBE で10年刻みに施したところ,前者では1810年の64.7%から1910年の74.3%へ着実に増加していることが確かめられたが,後者では1810年の79.4%から1910年の78.0%まで増減の揺れが激しかったという(塚本,p. 56).しかし,CONCEと同様の30年刻みで分析し直すと,PPCMBE でも有意な変化をほぼ観察できるほどの結果がでるという.
 コーパスはそれぞれ独自の特徴をもっている.よく把握して利用する必要があることを確認した.関連して,[2010-06-04-1]の記事「流れに逆らっている比較級形成の歴史」を参照.

 ・ 塚本 聡 「2つの指摘コーパス---その代表性と類似性」『英語コーパス研究』第18号,英語コーパス学会,2011年,49--59頁.
 ・ Kytö, M. and S. Romaine. "Adjective Comparison in Nineteenth-Century English." Nineteenth-Century English: Stability and Change. Ed. M. Kytö, M. Rydén, and E. Smitterberg. Cambridge: CUP, 2006. 194--214.

Referrer (Inside): [2017-08-15-1] [2015-09-29-1]

[ 固定リンク | 印刷用ページ ]

2011-06-07 Tue

#771. 名詞の単数形と複数形の頻度 [corpus][statistics][plural][countability]

 Biber et al. (Section 4.5.6 [pp. 291--22]) に,一般名詞の単数形と複数形の頻度に関する記述がある.現代英語における大雑把な分布ではあるが,LSWE Corpus の500万語サブコーパスを用いた信頼できる数値なので参考までにメモしておく.まず,各サブコーパスで100万語当たりの生起数に換算してのグラフの再現から(数値データは与えられていなかったのでグラフから概数を読み取っての再現).

Distribution of Plural v. Singular Common Nouns Across Registers by LGSWE


 (1) conversation transcription (CONV), fiction text (FICT), newspaper text (NEWS), academic text (ACAD) の4サブコーパス間の差が激しい.
  - 原則として複数形をとらない不可算名詞も含めているとはいえ,すべてのサブコーパスで単数形が複数形よりも頻度が高い.
  - 会話では単数形の頻度が比較的高い.
  - 書き言葉では話し言葉よりも複数形の頻度が3--4倍も高い.
 (2) 個々の名詞でみると,多くの名詞が単数形あるいは複数形のいずれかへの強い偏りを示す.
 (3) 例えば,次の名詞は75%以上の割合で単数形をとる.ex. car, god, government, grandmother, head, house, theory.
 (4) 例えば,次の名詞は75%以上の割合で複数形をとる.ex. grandchildren, parents, socks, circumstances, eyebrows, onlookers, employees, perks.

 (1) に関して,単数形が圧倒的に多いこと自体はまったく不思議ではない.上述のように不可算名詞は原則として単数形しかあり得ない.また,ほとんどの可算名詞では単数形が lemma そのものであるし無標の形態でもある.ほかには,数の概念が中立化される場合,例えば hand in hand, from time to time などの慣用表現においては,単数形が用いられるのが普通である.
 (2)--(4) に関して,名詞によって単数形か複数形への偏りを示すというのも驚くに当たらない.それぞれの語群を眺めれば,そこに "the communicative needs of the language user" (291) が反映されていることがはっきりと分かるだろう.名詞全体をならせば,「コミュニケーション上の必要性」が単数形に偏りそうだということも直感される.
 では,会話で単数形の使用が多いというのは,どういうわけだろうか.Biber et al. (291--92) は次のように述べている.

In general, the high frequency of singular nouns in conversation probably follows from the concern of speakers with individuals: a person, a thing, an event. Writers of academic prose, on the other hand, are more preoccupied with generalizations that are valid more widely (for people, things, events, etc.). This same tendency applies not only to nouns, but also to determiners and pronouns (4.4.3.1, 4.12.1, 4.14.1, 4.15.2.1).


 コーパス全体としては,複数形は一般名詞の2割程度しか占めないことになる.複数形の研究を専門とする(つまり複数形の例をなるべく多く集めなければならない)私にとっては,なかなか厳しい数値だなあ・・・.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

Referrer (Inside): [2012-12-09-1]

[ 固定リンク | 印刷用ページ ]

2011-05-24 Tue

#757. decline + 蜍募錐隧杣syntax] [gerund][bnc][corpus]

 1796年9月19日,アメリカ合衆国の初代大統領 George Washington (1732--99) が大統領職を去るに当たって farewell address 「お別れのスピーチ」を読んだ.渡辺昇一先生の『英文法を知ってますか』 (252--53) によると,その語り出しの部分が英語精読力の試金石になるというので,院生と精読する機会をもった.以下の英文である.

FRIENDS AND FELLOW-CITIZENS. The period for a new election of a citizen, to administer the executive government of the United States, being not far distant, and the time actually arrived, when your thoughts must be employed in designating the person who is to be clothed with that important trust, it appears to me proper, especially as it may conduce to a more distinct expression of the public voice, that I should now apprise you of the resolution I have formed, to decline being considered among the number of those out of whom a choice is to be made.


 確かに読み応えのある英文である.注を付すべき英文法のポイントはたくさんあるが,最後のほうに decline に不定詞でなく動名詞が後続する点を指摘してくれた学生がいた.私は見逃していたので余計に関心をもったのだが,decline の用法を学習者用英英辞書で調べると,動名詞が後続する構文は触れられていない.しかし,大きな英和辞書では,一般的ではないとしながらも,動名詞が後続し得ると記述されている.また,OED で調べると decline, v. の語義 13b に挙げられている17世紀末以降からの数例で,動名詞の後続する構文が確認される.したがって,Washington がここで動名詞を使用しているのは歴史的にあり得ない構文ではなかったということになる.
 しかし,Washington があえて稀な構文を用いたのはなぜか.style や formality の問題なのか,あるいは decline の取り得る構文の種類の相対頻度が当時から現在までの期間に通時的に変化してきたということなのか.精読を目指すからには,この点が気になった.本格的には通時コーパスなどで調べる必要があるが,まずは BNCweb でどのくらいヒットするか調べてみた.
 不定詞が後続する構文を取り出すのに,"{decline/V} (_{ADV})* _TO0" で検索すると,769例がヒット.一方,動名詞が後続する構文は "{decline/V} (_{ADV})* _VVG" で取り出し,ヒットした9例のうち実際には3例のみ該当する例であることが判明した.コンコーダンスラインを示す.

- FTT 821: . . . but with proper delicacy to this subject they decline making application at Present and till it is ascertained how cattle markets may go in June next . . .
- FTT 839: The Presses of this meeting, as being part owner of the Steam Boat, declines allowing the assessment for the Steam Boat to be charged for this year.
- HW8 831: Dosh and Freddie didn't take much persuading but Chase thankfully declined saying that parties didn't like him.


 FTT なる典拠(An Islay Notebook という non-academic prose and biography)から2例が例証されるというのは,書き手の癖の問題なのだろうか.Washington の動名詞の使用例については判断を下せないままだが,現在までに古風あるいは格式張った使い方に限定されてきた可能性,通時的に頻度が減ってきた可能性はありそうだ.

 ・ 渡辺 昇一 『英文法を知ってますか』 文藝春秋〈文春新書〉,2003年.

Referrer (Inside): [2021-05-12-1]

[ 固定リンク | 印刷用ページ ]

2011-05-05 Thu

#738. inclusive superlative [superlative][contamination][syntax][corpus][ppceme]

 昨日の記事「構文の contamination」 ([2011-05-04-1]) で最後に取り上げた "inclusive superlative" について,BNCweb でどのくらいヒットするか試してみた."(most _AJ0 | _AJS) (_{N})* of (any)? other" で検索すると,以下の7例を取り出すことができた(赤字は引用者).

 - Chang's speed was the best of any other player.
 - Perhaps the most notable of other attempts to describe parents in this fashion was undertaken by Earl S. Schaefer.
 - This percentage is the largest of any other constituency in England.
 - But centuries of migration, conquest, occupation, intermarriage, trade and cultural exchange - not to mention the tendency of artists to copy or reinterpret the most successful facets of other artists' work - have eroded much of this exclusivity.
 - Commander Keen has the largest fan club of any other shareware game available.
 - 'In proportion to the kiwi's size the egg is the largest of any other bird.
 - I say in particular our union because everyone here knows we probably have the largest and best training programme of any other union in Britain today.


 初期近代英語にも見られたということなので,The Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) でざっと調べてみると,John Fryer (b. c1650, d. 1733) なる人物の東洋旅行記に次の1例があった.

They yet retain a Warlike Disposition, being still accounted the best Gunners here of any other places in Persia;


 この妙な構文の起源と歴史を探るには,混交のもととなっている2つの構文 comparative + than any other と superlative + of all の頻度や文脈をまず洗い出す必要があるだろう.

[ 固定リンク | 印刷用ページ ]

2011-05-04 Wed

#737. 構文の contamination [blend][contamination][syntax][superlative][bnc][corpus]

 [2011-01-17-1]blend混成語」を話題にした際に少々触れたが,類似した過程に contamination混交」がある.両者は意識的か否かという観点か区別されることがあるが,特に区別せず同様に用いられることもある.通常は語形成上の過程として捉えられるが,[2011-01-17-1]の記事で触れたように構文のレベルででも起こりうる.例えば,前の記事では,"Why did you do that for?" や "different than" を挙げた.
 Graddol を講読中に構文の contamination に出会った(赤字は引用者).

English is remarkable for its diversity, its propensity to change and be changed. This has resulted in both a variety of forms of English, but also a diversity of cultural contexts within which English is used in daily life. (5)


 ここでは,both . . . and . . .not only . . . but also . . . の構文が混交している.BNCweb より検索キーワード "both +** but also" で類例を探してみると,6例ほどが見つかった(赤字は引用者).

 - Ion Pacepa, Ceausescu's chief intelligence officer who defected in 1978, takes particular pleasure in his memoirs in exposing Stefan Andrei as both corrupt but also as well aware of the absurdity of the Ceausescus' pretensions, especially Elena's academic titles.
 - Their economy and population were both suffering, but also they were becoming wary of the Dzhungars' increasing strength.
 - In fitting statistical models to study relationships, it is important to take account of such hierarchies, both for technical reasons but also because influential factors can be present at any or all levels of aggregation.
 - The changes that have been introduced into South Africa [pause] forced upon the white minority government by both international pressure but also by the magnificent work at the A N C in Cosatu [pause] must be supported as well but we cannot treat South Africa as anything but a pariah [pause] a, a, a national pariah [pause] until we see one person one vote, and a black majority government in South Africa.
 - 'Committees' means both actual committees but also individuals or organisers listed as committees.
 - I mean that can be both pleasurable, but also make somebody feel uncomfortable.


 contamination は,共時的には話者の発話時に生じる2つの関連構文の混交として解釈されるが,これが共同体に広がってある程度の認知度を得ると,新しい構文として独立し定着することがある.そのような場合には,contamination は通時的な観点からアプローチすることができるだろう.以下は現代英語に見られる構文の contamination の例だが,これらがいつ頃に現われ,現在までにどの程度の認知度を得てきたかという問題は,英語史の問題である.

 (1) these kinds of things: these thingsthis kind of things の混交.
 (2) different than: different fromother than の混交.
 (3) different to: different fromopposed to の混交.similar to との類推とも考えられる.
 (4) cannot help but do: cannot help doingcannot but do の混交.
 (5) It is no good for us complaining about it.: It is no good for us to complain about it.It is no good we complaining about it. の混交.
 (6) no sooner . . . when: no sooner . . . thanscarcely . . . when の混交.
 (7) I am friends with him.: I am friendly with him.He and I are friends. の混交.
 (8) a man whom she thought was a murderer: a man who she thought was a murderera man whom she thought to be a murderer の混交.
 (9) the cleverest of all the other boys: cleverer than the other boysthe cleverest of all the boys の混交.

 調べてみるといろいろとあるようだが,(9) のような例は少なくないようで,石橋 (127) は次のようにコメントしている.研究材料としておもしろそうだ.

Sunday's action was the most brilliant and fruitful of any fought up to that date by the fighters of the Royal Air Force. [the most . . . of (all) + (more . . . than) any]---W. Churchill / This is the greatest error of all the rest. [the greatest . . . of (all) + (a greater . . . than) all the rest]---Sh., Mids. N. D. v. i. 250. 最後の例のように,最上級に修飾される名詞を,意味上はそれを含まないはずの「その他」の中に包括させた混交表現を,とくに包括最上級 (Inclusive superlative) と呼ぶことがある.その例は近代初期の英語にときどき見いだされる.


 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm
 ・ 石橋 幸太郎 編 『現代英語学辞典』 成美堂,1973年.

[ 固定リンク | 印刷用ページ ]

2011-04-28 Thu

#731. 接尾辞 -dom をもつ名詞の通時的分布 [suffix][oed][corpus][productivity]

 [2009-05-18-1]の記事「接尾辞-dom をもつ名詞」では現代英語で使われる -dom 語をいくつか挙げたが,今回は通時的な観点からこの接尾辞を眺めてみたい.Bauer (220) によると,-dom は一度は瀕死の接尾辞とみなされるほどに衰退していたが,現代英語では一定の生産性を取り戻してきているという.

-dom    This suffix forms abstract, uncountable nouns from concrete, countable ones. For a long time it was thought that the suffix was moribund or totally non-productive, but Wentworth (1941) showed that it had never completely died out, and it is still productive in contemporary English, though not very much so. Recent examples include Dollardom, fagdom, gangsterdom, girldom (all OEDS). (220)


 -dom は原則として名詞の基体に付加して抽象名詞を作るが,freedom のように形容詞の基体に付加する例もある.
 OED で通時的分布を調べてみた.[2011-01-05-1]で紹介した「OED の検索結果から語彙を初出世紀ごとに分類する CGI」を利用して世紀ごとに -dom 語を数え上げ,以下のように視覚化した.Sodom などの雑音も多少は混じっており,ざっと見て気付いたものは削除したが,大雑把な数え上げとして理解されたい.数値データはこのページのHTMLソースを参照.

Diachronic Distribution of -dom Words by OED

 中英語から近代英語にかけてのじわじわとした復活,そして19世紀の爆発は印象的である.20世紀の下火は,現実を反映しているのか,あるいは OED の語彙収集上の事情によるものだろうか.いずれにしても19世紀以降の新 -dom 語彙はすべてが低頻度語で,nonce-word も多い.Frequency Sorter によると,ANC (American National Corpus) で10回以上用いられているものは,fandom, boredom, stardom, fiefdom くらいだ.
 接辞の生産性 (productivity) は理論的に計算するのが難しいとされる (Baayen and Lieber) .-dom の19世紀の爆発は20世紀そして21世紀にどの程度続いているのか,直感的に捉えられる接辞の生産性とは客観的にどのように記述されるのか,生産性の問題にコーパスがどのように活用できるのか.-dom に注目するだけでも,様々な問題が持ち上がってくる.

 ・ Bauer, Laurie. English Word-Formation. Cambridge: CUP, 1983.
 ・ Baayen, Harald and Rochelle Lieber. "Productivity and English Derivation: A Corpus-Based Study." Linguistics 29 (1991): 801--43.

[ 固定リンク | 印刷用ページ ]

2011-04-08 Fri

#711. Log-Likelihood Tester CGI, Ver. 2 [corpus][bnc][statistics][web_service][cgi][lltest]

 以下に,汎用の Log-Likelihood Tester, Ver. 2 を公開.(後に説明するように,入力データのフォーマットに不備がある場合や,モードが適切に選択されていない場合にはサーバーでエラーが生じる可能性があるので注意.)

each-line mode lump mode


 [2011-03-25-1]の記事で,コーパス研究でよく用いられる対数尤度検定 ( Log-Likelihood Test ) の計算機 Log-Likelihood Tester, Ver. 1 を公開した.Ver. 1 は,コーパスサイズを加味しながら2つのコーパスでのキーワード(群)の出現頻度を比べ,コーパス間の差が有意であるかどうかを検定するものだった.
 Log-Likelihood Test は上述の目的で用いることが多いと思い,Ver. 1 ではあえて機能を特化させたのだが,より一般的に複数行,複数列の分割表で与えられるデータに対応する対数尤度検定を行ないたい場合もある.例えば,昨日の記事[2011-04-07-1]で,現代英語における thoughalthough の出現傾向について BNC に基づいた調査を紹介したが,Text Domain ごとの頻度比率は,両語の間で統計的にどの程度一致している,あるいは一致していないとみなすことができるのだろうか.昨日のグラフから,although は学術散文に多く,though は創作散文に多いという傾向が一目瞭然だが,この直感的な「一目瞭然」は統計的にはどのように表現されるのだろうか.
 このような場合には,次のような頻度表(値は100万語当たりの出現頻度に標準化済み)を準備し,これをコピーして入力ボックスに貼り付ける."lump mode" にチェックを入れ替え,"Go!" する.(デフォルトは "each-line mode" で,これは Ver. 1 と同等のモード.)

    thoughalthough
Natural and pure sciences56.380.13
Applied science37.3668.31
World affairs45.8168.2
Social science48.9863.38
Commerce and finance46.1857.21
Arts74.0752.93
Leisure45.8549.46
Belief and thought70.7846.75
Imaginative prose80.226.37


 結果は,1行だけの表として出力される.thoughalthough を表わす2列の数値の並びが,統計的にどのくらい近似しているかを計算している.結論としては,両語の Text Domain ごとの頻度の並びの差は p < 0.0001 という非常に高いレベルで有意であり,両語の出現傾向は Text Domain によってほぼ確実に異なるといえる.
 入力ボックスに入れるデータの書式は,タブ区切りの分割表.表頭と表側はいずれも省略可.サンプルのように表頭と表側の両方を含める場合には,左上のセルは空白にしておく必要あり.
 "each-line mode" の機能は Ver. 1 と互換なので,入力形式もそちらの説明を参照.今回の Ver. 2 の "each-line mode" では,出力結果をシンプルにおさえてある(逆に,詳しい内部計算値を得たい場合には Ver. 1 のほうが有用).
 Log-Likelihood Test の概要については,[2011-03-24-1]の記事を参照.

Referrer (Inside): [2012-10-26-1]

[ 固定リンク | 印刷用ページ ]

2011-04-07 Thu

#710. thoughalthough の語法の差 (2) [bnc][corpus][lltest][conjunction][statistics]

 昨日の記事[2011-04-06-1]で,thoughalthough の語法の差に触れた.今日も同じ話題で.
 4000万語超からなる The Longman Spoken and Written English Corpus (the LSWE Corpus) を駆使した現代英語の文法書,Biber et al. (845--46) では次のようにある.

Both of these subordinators [though and although] occur in all four registers [conversation, fiction, news, and academic prose], although the registers show different preferences of use. Conversation and fiction show a slightly greater use of though (concessive clauses are, however, uncommon in conversation generally). News shows no particular preference. In academic prose, although is about three times as frequent as though. Although seems to have a slightly more formal tone to it, fitting the style of academic prose . . . . The greater use of although by writers of academic prose may also result from an attempt to distinguish this subordinator from the common use of though as a linking adverbial in conversation . . . .


 また,同書の p. 842 の表からは,相対的に though が fiction で多く,although は academic prose で多いことが確認される.ジャンルによる差が現われているとの結果だ.
 このような先行研究を受けて,今回は BNC ( The British National Corpus ) によりこれを確かめてみる.BNCweb で,{although/CONJ}, {though/CONJ} をそれぞれ検索し,Written/Spoken, Text Domain, Sex of Author/Speaker, Perceived Level of Difficulty など様々なパラメータで出現分布を分析した.主立った結果を以下に示そう(数値データはこのページのHTMLソースを参照).
 まず,Written/Spoken の差については,予想されるとおり,両語とも Written への偏りが激しい(差異係数は though で 0.66344 ,although で 0.49770 で,明らかに書き言葉に偏る).Log-Likelihood Test では,p < 0.0001 のレベルで書き言葉と話し言葉の有意差が明確に示された.
 書き手,話し手の性による差も興味深い.書き言葉と話し言葉の両方で,although は有意差をもって男性の使用に偏っている.though については,性差は although ほど顕著ではない(ただし書き言葉では p < 0.05 で有意差あり).
 次に,Text Domain 別に頻度をみる.9種類の Text Domain を区別した ( Natural and pure sciences, Applied science, World affairs, Social science, Commerce and finance, Arts, Leisure, Belief and thought, Imaginative prose ) .100万語当たりの出現回数に標準化した値で,両語の Text Domain 別頻度をグラフ化したのが以下の図だ.



 Text Domain によって両語の出現頻度に対照的な傾向が見られることがわかる.相対的に sciences ( = academic prose ) に although が目立ち,Imag(inative) Prose ( = fiction ) に though が多い.Log-Likelihood Test では,Text Domain による出現傾向の差は p < 0.0001 で有意である.
 直感的にも先行研究の結果からも予想され得たことではあるが,although は男性の書き手により学術散文で顕著に用いられるという図式が現われた.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

Referrer (Inside): [2011-04-10-1] [2011-04-08-1]

[ 固定リンク | 印刷用ページ ]

2011-04-05 Tue

#708. Frequency Sorter CGI [corpus][bnc][statistics][web_service][cgi][lexicology][plural]

 何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
 改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.

foot, goose, louse, man, mouse, tooth, woman


     sort by rank?


 まず,BNC lemma-pos list による出力だが,この頻度表は約1億語の BNC 全体から,頻度にして800回以上現われる,上位6318位までの見出し語 ( lemma ) を収録している.したがって,それよりも頻度の下回る goose, louse については空欄となっている.頻度と不規則性の相関関係を考える際に参考になるだろう.
 次に,ANC word-tagset list による出力が続くが,この頻度表は BNC のものよりも規模が大きく,かつきめ細かい.合計22,164,985語を有する ANC (American National Corpus) から,Penn Treebank Tagset によってクラス付与された単位で語形が列挙されたリストである.タグセットが細かいので読みにくいし,自動タグ付与に起因するエラーも少なからず含まれているが,BNC のものよりも低頻度の語(形)を収録しているので,gooselouse の頻度情報も現われる.こちらの頻度表では WORD FORM ごとの頻度も確認できるため,直接 geeselice の頻度も確かめられる.
 当初 Frequency Sorter の用途として想定していたのは,上記の不規則複数形を示す語群などの頻度と順位の一括調査だったが,他にも用途はあるかもしれない.以下に,思いつきをメモ.

 ・ 1単語から使えるので,like のような多品詞語を入力して,品詞(あるいはタグ付与されたクラス)ごとの頻度を取り出せる.
 ・ ヒット数だけを確認したい場合には,いちいちコーパスを立ち上げる必要がない.
 ・ 論文やプレゼンで,ある目的で集めた数百語の単語リストの中から典型的な例,分かりやすい例を10個ほど示したいときなど,頻度の高い10個を選べばよい.例えば,[2011-03-29-1]で列挙した sur- を接頭辞にもつ単語リストのうち,例示に最もふさわしい10個を選ぶなどの目的に.頻度に基づいた順番のほうが,ランダム順やアルファベット順よりも親切なことが多いだろう(今後,本ブログ執筆に活用する予定).
 ・ 英米それぞれの代表的なコーパスに基づく頻度表を利用しているので,綴字や形態などの頻度の英米差を確認するのに使える.
 ・ (実際には lemmatisation が必要だが)適当な英文を放り込んでみて,妙に頻度の低い語が含まれていないかを調べる.頻度のツールなので,その他,教育・学習目的にいろいろと使えるかもしれない.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow