hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 次ページ / page 1 (2)

bnc - hellog〜英語史ブログ

最終更新時間: 2018-11-17 05:11

2018-01-10 Wed

#3180. 徐々に高頻度語の仲間入りを果たしてきたフランス・ラテン借用語 [french][latin][loanword][borrowing][frequency][statistics][lexicology][hc][bnc]

 英語史では,中英語から初期近代英語にかけて,フランス語とラテン語から大量の語彙借用がなされた.それらのうち現在常用されるものについては,おそらく借用時点からスタートして時間とともに使用頻度が増してきたものと想像される.というのは,借用された当初から高頻度で用いられたとは考えにくく,徐々に英語に同化し,日常化してきたととらえるのが自然だからだ.
 この仮説を実証するのにいくつかの方法がありそうだが,Durkin があるやり方で調査を行なっている.中英語,初期近代英語,現代英語のそれぞれにおいてコーパスに基づく最高頻度語リストを作り,そのなかにフランス・ラテン借用語がどのくらいの割合で含まれているかを調べ,その割合の通時的推移を比較するという手法だ.古い時代のコーパスでは綴字の変異という問題が関わるため,厳密に調査しようとすれば単純にはいかないが,Durkin はとりあえずの便法として,中英語と初期近代英語については Helsinki Corpus の 1150--1500年と1500--1710年のセクションを用いて,現代英語については BNC を用いて異綴字ベースで調査した.それぞれ頻度ランキングにして900--1000位ほどまでの単語(綴字)リストを作り,そのなかでフランス・ラテン語借用語が占める割合をはじき出した.
 結果は,中英語セクションでは7%ほどだったものが,初期近代英語セクションでは19%まで上昇し,さらに現代英語セクションでは38%までに至っている.粗い調査であることは認めつつも,フランス・ラテン借用語で現在頻用されているものの多くについては,歴史のなかで徐々に頻度を上げてきた結果として,現在の日常的な性格を示すことがよくわかった.
 さらにおもしろいことに,初期近代英語のセクション(1500--1710年)に関する数値について,高頻度語リストに含まれるフランス・ラテン借用語のすべてが1500年より前に借用されたものであり,しかもその2/3ほどは確実にフランス借用語であるという事実が確認される (Durkin 338--39) .
 また,中英語と初期近代英語の高頻度語リストに含まれるフランス・ラテン借用語の多くが,現代英語の高頻度語リストにも再現されている事実にも触れておこう.古い2期には現われるが現代期からは漏れている語群を眺めると,なんとも時代の変化を感じさせてくれる.例えば,honour, justice, manner, noble, parliament, pray, prince, realm, religion, supper, treason, usury, virtue である (Durkin 340) .
 時代によって最頻語リストやキーワードが異なることは当然といえば当然だが,歴史英語コーパスを用いて様々な時代を比較してみるとおもしろそうだ.例えば,初期近代英語コーパスに基づくキーワード・リストについて「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.また,頻度と歴史の問題については「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) も参照されたい.

 ・ Durkin, Philip. Borrowed Words: A History of Loanwords in English. Oxford: OUP, 2014.

[ | 固定リンク | 印刷用ページ ]

2015-09-07 Mon

#2324. n-gram [corpus][information_theory][coca][bnc][google_books][statistics][n-gram][collocation][frequency][link]

 情報理論や自然言語処理の分野で用いられる n-gram という分析手法がある.コーパス言語学でもすでにお馴染みの概念であり,共起表現 (collocation) の研究などでは当たり前のように用いられるようになった.種々のコーパスのインターフェースにおいても採用されており,「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) では名前に含まれているほどだし,本ブログでも COCA (Corpus of Contemporary American English) の N-gram データベースを用いて「#956. COCA N-Gram Search」 ([2011-12-09-1]) を実装してきた(その応用は,「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1]),「#954. 脚韻を踏む2項イディオム」 ([2011-12-07-1]),「#955. 完璧な語呂合わせの2項イディオム」 ([2011-12-08-1]) を参照).BNC では,Explore Words and Phrases from the BNC が利用できる.
 コンピュータを用いた分析手法というと難しそうに聞こえるが,n-gram の考え方は至って単純である.文字レベルの 2-gram (bigram) を考えてみよう.最長の英単語といわれる pneumonoultramicroscopicsilicovolcanoconiosis (「#63. 塵肺症は英語で最も重い病気?」 ([2009-06-30-1])) を例にとる.まず,先頭の2文字1組の pn を取り出す.次に,2文字目に進んで同じように ne を取り出す.3文字目に進んで eu を,4文字目に進んで um を得る.同じように,1文字ずつ右にずらしながら,最後の is まで2文字1組を次々と拾っていく.これで44組の2文字を得たことになる.この組のなかで,ic と co という組み合わせは各々3回起こり,os, si, no, on の組み合わせは各々2回現われ,それ以外の組み合わせはいずれも1度きりである.したがって,この単語において最高頻度の2文字1組は ic と co となる.
 n-gram の単位は,このように文字である必要はなく,音素でもよいし,より大きな単位である形態素や語でもよく,さらに大きな句などのより大きな単位でもよい.英語コーパス言語学では,語という単位で考えるのが普通だろう.Martin Luther King, Jr. の I Have a Dream の演説のテキストで語単位の 4-gram を取ると,最も多い4語の組み合わせは,予想通り "I have a dream" の8回だが,"will be able to" も同じく8回現われる."Let freedom ring from" も7回とよく現われる,等々の分析が可能となる.ここでは4語という「窓」を設定したので 4-gram と呼ばれるが,隣接するいくつの文字を考慮するかにより 1-gram (unigram), 2-gram (bigram), 3-gram (trigram),そして 5-gram 以上ももちろん考えることができる(1-gram の場合,得られるリストは,事実上各語の生起頻度表である).
 巨大コーパスから得られた 2-gram や 3-gram の一覧は,それ自体が共起表現の研究などでは基本データとなるため,ウェブ上でもいろいろと公開されている.日本語では「N-gram コーパス - 日本語ウェブコーパス 2010」があるし,現代英語では COCA の n-gram データベース がある.また,Bigram Plus では,歴史英語コーパスを含めた各種英語コーパスから N-Gram Search を行なえる機能を提供している.ほかにも任意のテキストやコーパスを対象に n-gram を取る各種のツールやソフトも,ウェブ上で入手可能だ.
 n-gram 分析の言語分野への応用範囲は広い.次に来る語(音,文字)は何か,という予測可能性とも関係が深いため,機械による音声認識,統語分析,言語判定,自動翻訳,スペルチェック,剽窃探知,全文検索用インデックスの作成などに活用される.もちろん,共起表現の研究では,基本にして不可欠の手段となっている.一方,n-gram はもっぱら言語として表面化されたテキストを対象とし,深層にある構造にまったく触れることがないため,生成文法のような言語理論の方面からは批判があるようだ.詳しくは,n-gram in Wikipedia を参照.
 n-gram は工夫次第で,まだまだ使い道がありそうだ.歴史英語テキストにも,応用していきたい.

(後記 2015/09/12(Sat): Sketch Engine より N-grams も参照.)

Referrer (Inside): [2016-09-07-1]

[ | 固定リンク | 印刷用ページ ]

2015-05-22 Fri

#2216. 研究社Webマガジンの記事「コーパスで探る英語の英米差 ―― 実践編 ――」 [link][corpus][bnc][coca][ame_bre][sociolinguistics][language_change][gender_difference][link]

 一ヶ月前の「#2186. 研究社Webマガジンの記事「コーパスで探る英語の英米差 ―― 基礎編 ――」」 ([2015-04-22-1]) に引き続き,5月20日付で「実践編」が公開されました.研究社WEBマガジン Lingua リンガより,こちらをご覧ください.  *
 今回は,複数のコーパスを用いることの利点やおもしろさを押し出しました.また,英語の英米差という一見すると静的な話題にも,動的あるいは通時的に迫ることにより,新たな見方が得られる点も強調しました.
 記事のなかでも触れましたが,実際には今回の「実践編」で述べた結論に至るには,もっと詳しく調査しなければなりません.しかし,コーパスを用いて,例えばこのような言語変化の徴候をとらえることができるかもしれないという可能性を感じ取ってもらえれば,という気持ちで執筆しました.基礎編,実践編で私の執筆担当は完結ですが,来月以降も引き続き研究社WEBマガジン Lingua リンガの記事にご注目ください.バックナンバーも非常に有用です.以下,改めて研究社WEBマガジン Lingua リンガの各記事へのリンク(最新版)を張っておきます.

 1. なぜコーパスか? (赤須 薫)
 2. 英語コーパス体験ツアー ― BNCweb を検索してみる ―(前編) (石井 康毅)
 3. 英語コーパス体験ツアー ― BNCweb を検索してみる ―(後編) (石井 康毅)
 4. Google をコーパスに見立てる (仁科 恭徳)
 5. 言語統計の基礎(前編) ― 頻度差の検定 ― (小林 雄一郎 )
 6. 言語統計の基礎(後編) ― 共起尺度 ― (小林 雄一郎)
 7. コーパスを活用した古くて新しい学問領域:フレイジオロジー ― 理論編 ― (井上 亜依)
 8. コーパスを活用した古くて新しい学問領域:フレイジオロジー ― 実践編 ― (井上 亜依)
 9. 学習者コーパスとは何か? (鎌倉 義士)
 10. 学習者コーパスで何ができるのか? (鎌倉 義士)
 11. パラレルコーパスの可能性 (仁科 恭徳)
 12. 日本語コーパスに見られる慣用句の用法 (石田 プリシラ)
 13. 日本語コーパスに見られる慣用句の変化可能性 (石田 プリシラ)
 14. COCA を使ったコロケーションの検索 (内田 諭)
 15. COCA を使った類義語の検証 (内田 諭)
 16. コーパスで話し言葉を探る ― 基礎編 ― (青木 理香)
 17. コーパスで話し言葉を探る ― 実践編 ― (青木 理香)
 18. 学習者の話し言葉コーパスを使った語用論分析 (1)談話標識 well, I mean, kind of, like の使い方 (三浦 愛香)
 19. 学習者の話し言葉コーパスを使った語用論分析 (2)買い物での要求の表現 (三浦 愛香)
 20. 認知言語学を用いてコーパスから意味を探る― 入門編 ― (大谷 直輝)
 21. 認知言語学を用いてコーパスから意味を探る― 前置詞・句動詞編 ― (大谷 直輝)
 22. コーパスで探る英語の英米差 ―― 基礎編 ―― (堀田 隆一)
 23. コーパスで探る英語の英米差 ―― 実践編 ―― (堀田 隆一)

 なお,今回の実践編で注目した gorgeous に関しては,本ブログでも以下の記事で扱ってきましたのでご参照ください.
 
 ・ 「#476. That's gorgeous!」 ([2010-08-16-1])
 ・ 「#477. That's gorgeous! (2)」 ([2010-08-17-1])
 ・ 「#607. Google Books Ngram Viewer」 ([2010-12-25-1])

 また,英語(言語)の男女差についても gender_difference の各記事で扱ってきました.特に言語の男女差とコーパス利用を絡めた記事として,「#913. BNC による語彙の男女差の調査」 ([2011-10-27-1]) をご覧ください.

[ | 固定リンク | 印刷用ページ ]

2014-12-01 Mon

#2044. なぜ mayn't が使われないのか? (1) [auxiliary_verb][negative][tag_question][bnc][corpus]

 なぜ may not の短縮形 mayn't が現代英語では一般的に用いられないのかという質問をいただいた.確かに不思議だと思っていたのだが,これまで扱わずにきたので少し考えてみたい.
 法助動詞が否定辞を伴う形には,たいてい対応する短縮形がある.can't, couldn't, won't, wouldn't, shouldn't, mightn't, mustn't, needn't, use(d)n't, oughtn't 等々だ.しかし,mayn't はあまりお目にかからない.実際のところ大きな辞書には記載があるのだが,レーベルとしては口語的であるとか古風であるとか,特殊な用法とされている.OED でも mayn't は "(colloq., now rare)" や "rare in all varieties of English" とあり,標準英語をターゲットとする英語教育において教えられていないのも無理からぬことである.Quirk et al. (122) でも,mayn'tshan't とともに用いられなくなってきていることが述べられている.

Every auxiliary except the am form of BE has a contracted negative form . . ., but two of these, mayn't and shan't, are now virtually nonexistent in AmE, while in BrE shan't is becoming rare and mayn't even more so.


 また Quirk et al. (811--12) は,付加疑問において mayn't I? などの形が使いにくい現状のぎこちなさにも言い及んでいる.mightn't I?can't I? で代用する話者もいるようだが,スマートではない.may I not? は常に可能だが,堅苦しすぎて多くの文脈にはふさわしくない.

The negative tag question following a positive statement with modal auxiliary may poses a problem because the abbreviated form mayn't is rare (virtually not found in AmE). There is no obvious solution for the tag question, though some speakers will substitute mightn't or can't or --- when the reference is future --- won't:
   ?I may inspect the books, | mightn't I?
                             | can't I?
   ?They may be here next week, | mightn't they?
                                | won't they?
The abbreviated form is fully acceptable, but limited to formal usage:
   I may inspect the books, may I not?
   They may be here next week, may they not?


 さて,BNC で mayn't を検索すると7例のみヒットした.話し言葉サブコーパスからは2例のみだが,書き言葉サブコーパスからの5例も口語的な文脈において生起している.7例中3例が mayn't you?, mayn't it?, mayn't there といった付加疑問のなかで現われており,一応は使用されていることがわかるが,1億語規模のコーパスでこれだけの例数ということは,やはり事実上の不使用といってよいだろう.
 can'tmightn't との平行性を断ち切り,かつ付加疑問におけるそのぎこちなさを甘受してまでも mayn't の使用は避けるというこの状況は,いったいどのように理解すればよいのだろうか.歴史的に何か解明できるのだろうか.歴史的な事情について,明日の記事で考察したい.

 ・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.

Referrer (Inside): [2014-12-02-1]

[ | 固定リンク | 印刷用ページ ]

2014-09-11 Thu

#1963. 構文文法 [bnc][construction_grammar][syntax][cognitive_linguistics][prototype][web_service][speech_act][generative_grammar]

 構文文法 (construction grammar) は,この四半世紀の間で発展してきた認知言語学に基づく文法理論である.Lakoff, Fillmore, Goldberg, Kay などによって洗練されてきた.
 構文という捉え方そのものは,統語論において長い伝統がある.構造言語学では当然視されていたし,その流れを汲んだ「文型」の考え方も,語学教育を通じて広く知られている.しかし,生成文法の登場により,従来の構文や文型は相対化され,二次的な付帯現象として扱われるようになった.
 しかし,1970年代後半の認知言語学の誕生により,構文は単に形式的な観点からだけではなく,機能的・意味的な観点からアプローチされるようになった.特定の構文は,深層構造から生成されるのではなく,それ自身の資格において特定の意味に直接貢献する単位であるという考え方だ.例えば,Me write a novel?! という一見すると破格的な構文は,それ自体が独自の韻律(主部と述部が上昇調のイントネーションを帯びる)を伴い,「あざけり」を含意する.また,There's the bell! のような構文は,人差し指を上げる動作とともに用いられることが多く,「知覚の直示性」を表わす,といった具合だ.構文文法では,構文そのものが意味,語用,韻律などを規定していると捉える.
 ただし,構文が意味などを規定しているといっても,その規定の強さは変異する.例えば,Is A B? の構文は典型的に質問の発話行為を表わすが,Is that a fact? は,通常,質問ではなく話者の驚きを表わす(いわゆる間接的発話行為 (indirect speech_act)) .このように,構文文法は,構文とその意味の関係もプロトタイプ的に考える必要があると主張する.また,定型構文となると,そのなかの語句を他のものに交換できなくなるなど,意味的,統語的に融通のきかなくなるケースもある.例えば,Thanks a lot, Thanks a million からの発展で Thanks a billion は可能だが,*Thanks a hundred は不可能となる.day in day out, month in month out は可だが,minute in minute outcentury in century out は不可である,等々 (Taylor 225--28) .
 構文文法は上記のように生成文法へのリアクションとして生じてきたが,近年では生成文法の側でも構文文法と親和性のある反語彙論や分散形態論などの理論が発展してきている.構文復権の徴候が顕著になってきたといえるだろう.
 構文文法の枠組みで BNC の例文に構文情報を付したデータベースが,http://framenet.icsi.berkeley.edu/ で公開されており,こちらのインターフェースよりアクセスできる.数十の注目すべき英語構文が登録されている.

 ・ Taylor, John R. Linguistic Categorization. 3rd ed. Oxford: OUP, 2003.

[ | 固定リンク | 印刷用ページ ]

2012-12-08 Sat

#1321. BNC Frequency Extractor [cgi][web_service][frequency][corpus][bnc]

 Adam Kilgarriff が公開している BNC database and word frequency lists から,見出し語化されていない頻度表 (unlemmatised lists) をダウンロードし,検索できるようにデータベースをこしらえた.

    


 仕様の説明.データベースには SQLite を用いており,SQL対応.select 文のみ有効.テーブルは "bnc" (コーパス全体),"written" (書き言葉コーパス),"demog" ('demographic' spoken material) ,"cg" ('context-governed' spoken material) ,"variances" (計算された分散その他の値を含む)の5種類.variances を除く4テーブルについては,フィールドは "freq" (頻度), "word" (語形), "pos" (品詞;BNC CLAWS POS-tags の一覧を参照), "files" (その語形が生起しているテキスト数)の4つ.variances のテーブルについては,上記4フィールドに加えて,"mean" (= freq / files) ,"variance" (分散),"variance_to_mean" (= variance / mean) の3つが設定されている.variances の計算基準となっているサブコーパスは,5000語以上を含む書き言葉テキストということで,全体としては約1千万語(BNC全体の約1割)である.具体的には,"select * from bnc limit 10" や "select * from variances limit 10" などとすれば,データの格納のされ方を確かめることができる.
 以下に,典型的な検索式を挙げておこう.

# 書き言葉テキストで,英米差があるとされる "diarrhoea" vs. "diarrhea" の綴字の生起頻度を確認
select * from written where word like "diarrh%"

# s で始まる語形を分散の高い順に
select * from variances where word like "s%" order by variance desc limit 100

# 母音変異の複数形を示す語の単数形の頻度(cf. 「#708. Frequency Sorter CGI」([2011-04-05-1]) の例では lemma 検索だった)
select * from bnc where word in ("foot", "goose", "louse", "man", "mouse", "tooth", "woman") and pos = "nn1" order by freq desc

# 母音変異の複数形の頻度
select * from bnc where word in ("feet", "geese", "lice", "men", "mice", "teeth", "women") and pos = "nn2"

# POSでまとめて頻度の高い順に(話し言葉 'demog')
select pos, sum(freq) from demog group by pos order by sum(freq) desc

# 最も広く多く使われる名詞
select * from variances where pos like "n%" order by variance desc limit 100

# 最も広く多く使われる形容詞
select * from variances where pos like "aj%" order by variance desc limit 100


 なお,見出し語化されている頻度表 (lemmatised list) については,頻度にして800回以上現われる,上位6318位までの見出し語のみに限定されており,その検索ツールは「#708. Frequency Sorter CGI」 ([2011-04-05-1]) として実装してある.関連して,「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.

Referrer (Inside): [2014-01-21-1] [2012-12-09-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-31 Wed

#1283. 共起性の計算法 [corpus][statistics][bnc][collocation][lltest]

 [2010-03-04-1]の記事「#311. girl とよく collocate する形容詞は何か」で,語と語の共起 (collocation) を測る計算法 (association measure) にはいくつかの種類があることを見た.コーパス言語学では,Log-Likelihood Test という検定にかかわる計算法が比較的よく使われているが,それぞれの計算法には特徴があるので,なるべく複数の方法を試すのがよい.今回は[2010-03-04-1]の内容と重複する部分もあるが,BNCweb で実装されている7種類の計算法の各々について Hoffmann et al. (149--58) を参照しながら,特徴および利用のヒントを示したい.
 各種の計算法は,(a) 共起頻度 (frequency of co-occurrence),(b) 共起有意性 (significance of co-occurrence),(c) エフェクト・サイズ (effect-size) の1つ,あるいは複数の組み合わせに基づいている.(b) は,共起が統計的に有意であるとの確信度を表わす指標であり,共起の強さを表わすものではないことに注意する必要がある.(c) は,観察頻度と期待頻度との比を計算の基本とする指標である.

 (1) Rank by frequency
  観察される共起頻度そのものを用いる,最も単純で直感的な尺度.他の計算法のような複雑な統計処理はほどこされておらず,指標としては最も粗い.機能語や句読記号などが上位に来ることが多い.通常の共起分析には用いられない.

 (2) Log-likelihood
  共起有意性を用いる.BNCweb のデフォルトの計算法で,コーパス研究で広く用いられている.機能語や句読記号などの極めて高頻度の語との共起や,逆に極めて低頻度の語(1, 2回など)との共起をはじく傾向がある.しかし,共起頻度の高い組み合わせに高得点を与えるという特徴があり,解釈には注意を要する.

 (3) Mutual information (MI)
  エフェクト・サイズを用いる.非常によく用いられている計算法だが,利用に当たっては多くの注意を要する.機能語や句読記号などとのありふれた共起を効果的に排除してくれる点はよいが,反面,低頻度の共起表現への偏りが激しい.この偏りの影響を減じるために,BNCweb では "Freq(node, collocate) at least" を10以上に設定することが推奨される.これにより,"conspicuous and intuitively appealing collocations involving words of intermediate frequency" (Hoffmann et al. 154) が浮き彫りとなる.

 (4) T-score
  共起頻度と共起有意性を考慮する計算法.期待頻度が1以下程度の稀な共起表現については Rank by frequency と似たような振る舞いをし,頻度の高い共起表現については共起有意性を反映した振る舞いをする.また,観察頻度が期待頻度よりも必ず高くなる.Log-likelihood と類似した結果となることが多いが,高頻度へのバイアスは一層強くなる.ノードそのものが1000回を大きく下回る場合に,効果を発揮することがある.

 (5) Z-score
  共起有意性とエフェクト・サイズを考慮する計算法.高頻度の共起表現にはエフェクト・サイズをより重視するが,低頻度の共起表現にはそこまでエフェクト・サイズに寄りかからない.Log-likelihood と MI の両特徴を兼ね備えたような,バランスの取れた指標である.ただし,MI と同様に,低頻度の共起表現へのバイアスがみられるので,"Freq(node, collocate) at least" を5程度に設定するのがよいとされる.

 (6) MI3
  共起頻度とエフェクト・サイズを考慮する計算法.MI のもつ低頻度表現への偏重を取り除くべく改善されている.低頻度共起表現にはエフェクト・サイズが,高頻度共起表現には共起頻度が,比較的よく反映される.POS による限定とともに用いると効果的.複数語からなる用語などの取り出しに威力を発揮する.しかし,全体としては高頻度共起表現へのバイアスが強く,一般的な共起分析には向かない.

 (7) Dice coefficient
  MI3 と同様に,共起頻度とエフェクト・サイズを考慮する計算法.しかし,MI3と異なり,低頻度共起表現には共起頻度が,高頻度共起表現にはエフェクト・サイズがよく反映され,両者の切り替えが急なのが特徴的である.切り替えは,ノードそのものの頻度が共起表現の頻度の10倍ほどの点で起こるとされる.経験的に,Z-score と似たような結果が得られるが,Z-score ほど頻度に基づくバイアスが見られない.

 以上のように多種類あって目移りするが,Hoffmann et al. の見解によれば,単一基準の計算法としては Log-likelihood と MI がお勧めで,混合基準の計算法としては Z-score と Dice がお勧めとのことである.
 共起性の様々な計算法については,Association measures を参照.

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

[ | 固定リンク | 印刷用ページ ]

2012-10-27 Sat

#1279. BNC の強みと弱み [bnc][corpus][representativeness]

 10月8--11日の4日間にわたり,立教大学英語教育研究所による主催で,Lancaster 大学名誉教授 Geoffrey Leech の公開講演会が開かれた.私は,2日目の "The British National Corpus: Both a Triumph and a Failure" と題する講演のみの参加だったが,聴きに行った.BNC 編者じきじきの作成秘話など,おもしろい話しが何点かあった.
 題名にある "triumph" と "failure" について,Leech はそれぞれ次のような項目を列挙していた.

A triumph:
 ・ It has been claimed that the BNC is the most widely used corpus in the world.
 ・ It was the first text corpus of its size to be made widely available.
 ・ It is available from a wide range of different sources.
 ・ It is widely regarded as a 'standard reference corpus' for the English language.
 ・ It has been licensed to over 1300 institutions throughout the world, over 1800 users have signed on for access to it through the BNCweb online interface, etc.

A failure:
 ・ It never reached 100 million words! (98,300,000)
 ・ The design criteria were never totally achieved.
 ・ It hardly ever contains complete texts.
 ・ The spoken materials are poorly transcribed.
 ・ The metadata are incomplete and can be erroneous.
 ・ The part-of-speech tagging contains many errors.
 ・ It is out of date! (dating from the late 20th century)


 Leech の言葉の端々には,triumph の各点に示されているように,実績に裏付けされた自信がみなぎっていた.一方,自らのコーパス編集について,こうすればよかった,ああすればよかったという類の後悔ともいえる反省点を多く挙げていたのが印象的である.BNC のタグ付けに用いられたプログラム CLAWS4 の精度が97%ほどある(Hoffmann et al. 43 によると,98--99%)というのは,私は驚くべきことだと思っていたが,コーパス規模が大きいので数パーセントのエラーとはいっても約300万件にのぼるという事実は見落としていた.話しことばコーパスについては,コーパス全体の1割ほどしか含められなかったこと,音声データの transcription の質が悪かったこと,当初採用したデータフォーマット TEI が,話しことばのタグ付けには必ずしも適切でなかったこと,などを挙げていた.
 なかでも,企画段階から現在に至るまで一貫してこだわり続けている代表性 (representativeness) について,BNC では完全に目的を果たせなかったことに,後悔をにじませていた.企画段階から,設定する Text Domain のバランスやサイズに関する議論が重ねられてきたことはよく知られている.1ユーザーとしては,限られたリソースのなかで,あれだけの代表性を確保したことは偉業だと評価しているが,Leech にとっては,できる限りのことはやったという自負の反面として,理想が果たせなかったという思いも強いようだ.同時に,穏やかな口調ではあったが,BNC と比較される他のすべての大規模コーパスが,代表性をさほど重視していない点を批判していた.ただし,彼自身が述べているように,コーパスの代表性について独自の理論はもっているが,最終的には "impressionistic" な判断の問題だと考えているようであり,この問題の難しさをにじませていた.いずれにせよ,Leech の代表性への執念の強さに,高度なプロフェッショナリズムを感じた.
 なお,[2012-07-05-1]の記事「#1165. 英国でコーパス研究が盛んになった背景」で触れた通り,残念ながらBNCの続編はないだろうということを,Leech は明言していた.
 扱う時代は大きく異なるが,初期中英語コーパス The LAEME Corpus の代表性の問題について,[2012-10-10-1], [2012-10-11-1]の記事で考察したので,ご参照を.

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

[ | 固定リンク | 印刷用ページ ]

2012-10-26 Fri

#1278. BNC を中心とするコーパス研究関連のリンク集 [corpus][bnc][link][web_service][lltest]

 コーパス言語学の勢いが止まらない.分野が分野だけに,関連情報はウェブ上で得られることが多く,便利なようにも思えるが,逆に情報が多すぎて,選択と判断に困る.せめて自分のためだけでも便利なリンク集をまとめておこうと思うのだが,学界のスピードについて行けない.私が最もよく用いる BNC に関連するものを中心に,断片的ではあるが,リンクを張る.リンク集をまとめる労を執るよりは,芋づる式にたどるかキーワード検索のほうが効率的という状況になりつつある・・・.
 
1. BNC インターフェース

  ・ BNCweb要無料登録
  ・ BYU-BNC (要無料登録)
  ・ BNC ( The British National Corpus )

2. BNC のレファレンス・ガイド

  ・ Quick Reference for Simple Query Syntax (PDF)
  ・ Reference Guide for the British National Corpus (XML Edition)
  ・ 上の Reference Guide の目次
    * 6.5 Guidelines to the Wordclass Tagging
    * The BNC Basic (C5) Tagset
    * 9.8 Simplified Wordclass Tags
    * 9.7 Contracted forms and multiwords
    * 1 Design of the Corpus
    * 9.6 Text and genre classification code

3. コーパス関連の総合サイト

  ・ David Lee による Bookmarks for Corpus-based Linguists
    * Corpora, Collections, Data Archives
    * Software, Tools, Frequency Lists, etc.
    * References, Papers, Journals
    * Conferences & Project

4. hellog 内の記事

  ・ 「#568. コーパスの定義と英語コーパス入門」: [2010-11-16-1]
  ・ 「#506. CoRD --- 英語歴史コーパスの情報センター」: [2010-09-15-1]
  ・ 「#308. 現代英語の最頻英単語リスト」: [2010-03-01-1]
  ・ コーパス関連記事: corpus
  ・ BNC 関連記事: bnc
  ・ COCA 関連記事: coca

5. 計算ツール

  ・ Corpus Frequency Wizard
  ・ Paul Rayson's Log-likelihood Calculator
  ・ VassarStats
  ・ hellog の「#711. Log-Likelihood Tester CGI, Ver. 2」: [2011-04-08-1]

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

Referrer (Inside): [2015-04-22-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-24 Wed

#1276. hereby, hereof, thereto, therewith, etc. [compounding][synthesis_to_analysis][adverb][register][corpus][bnc][hc]

 標題のような herethere を第1要素とし,前置詞を第2要素とする複合副詞は多数ある.これらは,herethis と,thereitthat と読み替えて,それを前置詞の後ろに回した句と意味的に等しく,標題の語はそれぞれ by this, of this, to that, with that ほどを意味する.現代では非常に形式張った響きがあるが,古英語から初期近代英語にかけてはよく使用され,その種類や頻度はむしろ増えていたほどである.だが,17世紀以降は急激に減ってゆき,現代のような限られた使用域 (register) へと追い込まれた.衰退の理由としては,英語の構造として典型的でないという点,つまり総合から分析への英語の自然な流れに反するという点が指摘されている (Rissanen 127) .文法化した語として,現代まで固定された状態で受け継がれた語は,therefore のみといってよいだろう.
 現代英語で確認される使用域の偏りは,すでに中英語にも萌芽が見られる.here-, there- 複合語は,後期中英語ではいまだ普通に使われているが,ジャンルでみると法律文書での使用が際だっている.以下は,Rissanen (127) の Helsinki Corpus による調査結果である(数字は頻度,カッコ内の数字は1万語当たりの頻度を表わす).


StatutesOther texts
ME4 (1420--1500)68 (60)621 (31)
EModE1 (1500--70)77 (65)503 (28)
EModE2 (1570--1640)84 (71)461 (26)
EModE3 (1640--1710)126 (96)191 (12)


 初期近代英語のあいだ,一般には問題の複合語の頻度は落ちているが,法律文書においては token 頻度が(そして,Rissanen, p. 128 によれば type 頻度も)増加していることに注意されたい.後の時代でも,法律文書における使用は続き,現代に至る.
 現代の分布については,独自に BNCweb で調べてみた.therefore を除く,hereabout, hereabouts, hereafter, hereby, herein, hereinafter, hereof, hereto, heretofore, hereupon, herewith, thereabout, thereabouts, thereafter, thereby, therefrom, therein, thereinafter, thereof, thereon, thereto, theretofore, thereunder, thereupon, therewith の25語について,Written Corpus に絞った上で,CQP syntax にて 「"(hereabout|hereabouts|hereafter|hereby|herein|hereinafter|hereof|hereto|heretofore|hereupon|herewith|thereabout|thereabouts|thereafter|thereby|therefrom|therein|thereinafter|thereof|thereon|thereto|theretofore|thereunder|thereupon|therewith)" %c」と検索した.出現頻度は 68.93 wpm で,散らばり具合は3140テキスト中の1522テキストである.
 次に,法律関係の文書を最も多く含んでいると想定されるジャンルとして「W:ac:polit_law_edu」に絞り,同じ検索式で結果を見ると,231.33 wpm で,186テキスト中の153テキストに出現する.なお,「W:admin」に絞ると,コーパスサイズはずっと小さくなるが,頻度は439.85 wpm となり,最頻出ジャンルであることがわかる.いずれにせよ,この種のジャンルで here-, there- 複合語が今なお頻繁に用いられていることは確かめられた.

 ・ Rissanen, Matti. "Standardisation and the Language of Early Statutes." The Development of Standard English, 1300--1800. Ed. Laura Wright. Cambridge: CUP, 2000. 117--30.

[ | 固定リンク | 印刷用ページ ]

2012-05-06 Sun

#1105. 美女の形容としての grey eyes (2) [romance][adjective][collocation][bnc][corpus]

 昨日の記事[2012-05-05-1]に引き続き grey eyes の話題.昨日は,中英語ロマンスの grey eyes について考えたが,この共起表現は現代にも続いている.BNCWeb で,"(grey|gray) {eye/N}" として検索すると,287例がヒットした.grey eyes がさらに別の形容詞に先行されている例をみると,clear, dark, deep, pale が比較的多い.beautifulbright の例もわずかながらあった.
 このような例から判断すると,grey 自体は輝きの有無を表わす意味を担当していないように思われる.もし担当しているとすれば,むしろ pale 寄りの「薄い,輝きのない」という解釈に引き寄せられるだろう.英英辞書で確認する限り,現代英語の grey の一般的な語感は,日本語のそれとよく似て,negative だからだ.老年,陰気,病気,憂鬱,退屈,悪天候のイメージだ.したがって,現代英語の grey eyes は,negative なニュアンスを特に含意しない読みを求めるとするならば,純粋に色としての「灰色」あるいは「青みのいくぶん混じった灰色」を表わすものと考えられる.あるいは,grey eyes は,意味の薄まった共起表現の伝統として用いられているにすぎないという可能性もあるかもしれない.
 すると,ますます中英語の美女の典型的な描写としての grey eyes がわからない.もし,MED や Silverstein が述べている通り,中英語の grey が輝きを表わしたのだとすれば,現代英語の輝きのない grey は180度の意味変化を経たことになる.
 色は gradation を描くものであり,かつて覆っていた範囲や意味を推定して復元することは,なかなか難しい.英語のみならず日本語においても,色彩語を巡る議論は厄介である.
 なお,中世の美女の典型的な描写を示しておこう.Brewer (258) は,Matthew of Vandôme による Helen of Troy の描写が,以下の要約の通り,1つの型であるとしている.

. . . her hair is golden, forehead white as paper, eyebrows black and thin. The space between the eyes (in contrast to the Greek ideal) is white and clear, a 'milky way'; the face is a shining star; the eyes are like stars. She has a little smile, a nose neither too big nor too small. Her face is rosy, her colouring white and red, like rose and snow. Teeth are like ivory, lips are small, slightly swelling, honeyed. Her mouth smells like a rose, her neck is smooth, shoulders radiant, well-spaced (dispatiati), breasts small, and figure incomparable.


 こんな女性,いるんでしょうか,ぜひ会ってみたい・・・.

 ・ Silverstein, Theodore, ed. Sir Gawain and the Green Knight. Chicago: U of Chicago P, 1983.
 ・ Brewer, D. S. "The Ideal of Feminine Beauty in Medieval Literature, Especially 'Harley Lyrics', Chaucer, and Some Elizabethans." The Modern Language Review 50 (1955): 257--69.

[ | 固定リンク | 印刷用ページ ]

2012-04-19 Thu

#1088. lingua franca (3) [elf][model_of_englishes][global_language][bnc]

 この2日間の記事[2012-04-17-1], [2012-04-18-1]に引き続き,lingua franca という語の意味と用法についての話題.昨日は主に辞書の定義を参考にしたが,今日はコーパスに現われる用例から lingua franca の現行の意味に迫りたい.
 BNCWeb で "lingua franca" を単純検索すると,34例がヒットした.KWIC出力を眺めてみると,英語が主題となっている例文は予想されるほど多くない.ピジン英語などを含めると英語のシェアが相対的に高いことは認めるにせよ,ラテン語,ギリシア語,フランス語,スワヒリ語などの諸言語に関する例文も決して少なくない.昨日は学習者用英英辞書が,lingua franca の例文において英語びいきであることを見たが,現行の lingua franca の使用では,そのような英語へのバイアスは特にないことが,コーパスの例から明らかだろう.また,lingua franca に対して「世界語」という訳をつけることが不適切であることも,改めて理解できるだろう.
 コーパス検索からは,次のように比喩的で広義の「意思伝達の役割を果たすもの」の用例も見られた.

 ・ Mr Tsurumaki was successful at 315 million francs, generally translated into lingua franca dollars at $51.4 million.
 ・ . . . the user has to resort to good old ASCII, the lingua franca of all computer systems . . . .


 このように専門語から一般語への転身も着実に進んでいるようである.語の意味が広く一般的になるということは,それが本来もっていた意味上の区別を失うということである.この種の意味変化は日常茶飯事であり,言語学的には非難の対象とも推奨の対象ともならない.しかし,専門用語としての lingua franca のもつ繊細な含蓄は保つ価値があるように思う.それは,昨日も指摘した,lingua franca の「母語話者のイメージを喚起しない」性質である.ELF (English as a Lingua Franca) に,母語話者は関わってこない.一方で,母語話者の参加の有無にかわかわらず国際的に用いられる共通語としての英語を話題にするには EIL (English as an International Language) という用語がより適切だろうし,これらすべてを超越する用語として (English as a) Global Language という用語も頻繁に聞かれるようになってきた.
 厳密さを要しない一般的な文脈で現在の英語の地位に言及する場合には,lingua franca も global language も大差なく使われているように思われるが,上記のように,両者の区別はつけておくのがよいと考える.母語話者の不関与を押し出す lingua franca と,母語話者の関与・不関与を超越する global language ―――この対立には,単なる定義上の区別のみならず,背景にある英語観の違い,英語の役割のどの側面に力点を置くかの違いが反映されているように思われる.

Referrer (Inside): [2013-02-16-1]

[ | 固定リンク | 印刷用ページ ]

2012-03-30 Fri

#1068. choose between war or peace [conjunction][corpus][bnc][preposition]

 ある英文を読んでいて,the choice is between rhyme or prose という句に出くわした.between には等位接続詞 and が期待されるところだが,choice の語感に引きずられて or が使用されているものらしい.ジーニアス大辞典では,この用法について以下のように触れられている.

1(3) between 1980 to 1990 や choose between war or peace のように and の代りに to や or を用いるのは((まれ)).to は from A to Bの類推.or はchoose, decide などの動詞と連語するときに多く用いられる.これは choice [decision] A or B の類推と考えられる(→2).

2[区別・選択・分配] …の間に[で];…のどちらかを‖choose 〜 peace and war 平和か戦争かのいずれかを選ぶ《◆and の代りに or を用いることがある; →1 [語法](3)》


 OED では,"between" 18 が区別・選択・分配の用法を説明しているが,or を使用する例文は挙げられていない.同じく,MED では bitwene 7 がこの用法に対応するが,やはり or の例文はない."between A or B" の例がいつ現われたのかという問いに答えるには,より詳しく辞書や歴史コーパスを調べる必要がありそうだ.
 現代英語について,BNCWeb で動詞句 "{choose/V} between_PRP + or_CJC" として検索し,該当する例文を選り分けたところ,ほんの8例ではあるが用例が得られた.いずれも Written books and periodicals からの例である.比較的わかりやすい4例を挙げよう.

 ・ . . . in 1627 Emperor Ferdinand ordered all his Bohemian subjects to choose between Catholicism or exile.
 ・ The main characters are all glorified psychopaths, with little to choose between hero or villain in terms of basic humanity.
 ・ . . . Mapleton, already out of breath, had to choose between talking or using his energy to keep up.
 ・ It is for you to choose between clinical or disciplinary action.


 同様に,名詞句 "{choice/N} between_PRP + or_CJC" の検索結果も参照されたい.
 "between A or B" はあまりに稀な構造だからか,特に規範文法で攻撃されている風でもなさそうだ.先行する語が区別,選択,決定,判定を意味する場合には or の語感は非常によく理解できるし,or の使用によって多義である between の語義が限定されるのだから,このような語法はむしろ推奨されるべきと考える.

Referrer (Inside): [2013-02-15-1]

[ | 固定リンク | 印刷用ページ ]

2012-02-26 Sun

#1035. 列挙された人称代名詞の順序 [personal_pronoun][corpus][bnc][honorific]

 昨日の記事「#1034. 英語における敬意を示す言語的手段」 ([2012-02-25-1]) の (4) で,英語では,1人称と他人称が並列される場合に,「倫理的敬意」から1人称が後置されることに触れた.謙譲的な語法といってよいだろう.2人称→3人称→1人称という順序が普通であり,"you and I", "she and I", "you, he, and I" などとなる.このことを初めて学んだとき,これはまさしく尊敬と謙譲の精神の現われであり,日本語に匹敵する敬意と配慮だ,などと感心したものである.Quirk et al. (Section 13.56, Note [a]) には次のようにある.

When one of the conjoins is a personal pronoun, it is considered polite to follow the order of placing 2nd person pronouns first, and (more importantly) 1st person pronouns last: Jill and I (not I and Jill); you and Jill, (not Jill and you), you, Jill, or me (not me, you, or Jill), etc.


 同趣旨の記述は,Huddleston and Pullum (1288), Biber et al. (338) にもある.
 ところが,英語の人称代名詞の順序を politeness として本当に賛美してよいのかどうか疑わしくなる記述に出くわした.細江 (191) によると,複数では1人称→2人称→3人称の順序が慣例だという.つまり,"we and you", "we and they", "we, you, and they" などとなる.これでは,敬譲にはならないだろう.
 ただし,複数主格形について BNCWeb で調べたところ,そもそも用例が少なく,確かめようがないというのが実際のところだ.3つの人称の並列される例などは皆無だった.

 ・ we and you (0), you and we (0);
 ・ we and they (11), they and we (7)
 ・ you and they (11), they and you (6)
 ・ we, you, and they (0), we, they, and you (0)
 ・ you, we, and they (0), you, they and we (0)
 ・ they, we, and you (0), they, you, and we (0)


 複数については,例文を豊富に挙げるのを身上とする細江にも例文が挙がっていないことからすると,何らかの規範文法書から取ってきたものなのだろうか.先の3種の大型英文法書にも言及がない.
 単数についても,先に示した順序はあくまで慣例であり,場合によってはこの慣例から外れる場合もある.例えば,悪いことをしたときには,1人称を先に出すのがよいとされる (ex. I and Bob were arrested for speeding.) .また,自分の身分のほうが明らかに上の場合には,I and my childrenI and my dog も当然ありうる.慣用はあるとしても,最終的にはケースバイケースだろう.

 ・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.
 ・ Huddleston, Rodney and Geoffrey K. Pullum. The Cambridge Grammar of the English Language. Cambridge: CUP, 2002.
 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
 ・ 細江 逸記 『英文法汎論』3版 泰文堂,1926年.

[ | 固定リンク | 印刷用ページ ]

2012-01-09 Mon

#987. Don't drink more pints of beer than you can help. (1) [negative][comparison][idiom][syntax][corpus][bnc]

 cannot help doing は,「〜することが避けられない」を原義とし,「〜せずにはいられない,〜するのは仕方がない」を意味する慣用表現である.cannot but do としても同義.日本人には比較的使いやすい表現だが,標題のように比較の文において than 節のなかで現われる同構文には注意が必要である.
 先に類例を挙げておこう.BNCWeb により "(more (_AJ0 | _AV0)? | _AJC) * than * (can|could) (_XX0)? help" で検索すると,関連する例が8件ヒットした.ほぼ同じ表現は削除して,整理した6例を示そう.

 ・ . . . the Commander struck out for the shore in a strong breaststroke that did not disturb the phosphorescence more than he could help . . . .
 ・ I'm not putting money in the pocket of the bloody Hamiltons more than I can help.
 ・ "Don't be more stupid than you can help, Greg!"
 ・ Resolutely, and determined to think no more than she could help about it . . . .
 ・ And I won't spend more than I can help.
 ・ "We'll do our best; we won't get in your way more than we can help."


 さて,この構文の問題は,意図されている意味と統語上の論理が食い違っている点にある.例えば,毎日どうしてもビール3杯は飲まずにいられない人に対してこの命令文を発すると「3杯までは許す,だが4杯は飲むな」という趣旨となるだろう(ここでは話しをわかりやすくするために杯数は自然数とする).少なくとも,それが発話者の意図であると考えられる.しかし,論理的に考えると,you can help と肯定であるから,この量は,何とか飲まずにこらえられるぎりぎりの量,4杯を指すはずだ.これより多くは飲むなということだから,「4杯までは許す,だが5杯は飲むな」となってしまう.つまり,発話者の意図と統語上の意味とが食い違ってしまう.あくまで論理的にいうのであれば,*Don't drink more pints of beer than you cannot help. となるはずだが,この種の構文は BNCWeb でも文証されない.
 理屈で言えば上記のようになるが,後者の意図で当該の文を発する機会はほとんどないと想像され,語用的に混乱が生じることはないだろう.また,[2011-12-03-1]の記事「#950. Be it never so humble, there's no place like home. (3)」で見たように,肯定でも否定でも意味が変わらないという,にわかには信じられないような統語構造が確かに存在する.とすると,標題の統語構造が許容される語用論的,統語意味論的な余地はあるということになる.
 ちなみに,標記の文は今年の私の標語の1つである.ただし,その論理については……できるだけ広く解釈しておきたい.

Referrer (Inside): [2015-02-23-1] [2012-01-10-1]

[ | 固定リンク | 印刷用ページ ]

2011-11-13 Sun

#930. a large number of people の数の一致 [agreement][number][syntax][bnc][corpus]

 現代英語で「a (large) number of + 複数名詞」が主語に立つとき,動詞は複数に一致するのが原則である.完全にこの理解でいたのだが,先日次のような文に出くわした.

A large number of native speakers is perhaps a pre-requisite for a language of wider communication . . . . (Graddol 12)


 そこで,数々の辞書や文法書をひっくり返してみた.ほとんどすべての参考書がこの句を複数扱いとしており,統語分析を与えているものについては,number ではなくこの場合で言えば native speakers を主要部 (head) とみなしている.特に,OALD8, LDOCE5, COBUILD English Usage といった典型的な学習者用英英辞書では,複数形の動詞で一致するよう明示的に注記を与えている.また,規範文法のご意見番 Fowler ("number" の項)によると次の通りで,単数一致については明示的な言及はなかった.

. . . as a noun of multitude in the type 'a number of + pl. noun', normally governs a plural verb both in BrE and AmE.


 調べたレファレンスのなかで,単数一致について言及していたのは以下のものである.

 ・ CGEL: "A (large) number of people have applied for the job. [2]" という例文について,"Use of the singular . . . would be considered pedantic in [2] . . . ." (765) と述べている.
 ・ CALD3: 単数一致を示す例文を "(slightly formal)" というレーベルを与えつつ挙げていた."A large number of invitations has been sent."
 ・ 『ジーニアス英和大辞典』: 単数一致を「((正式))」としていた."A 〜 of passengers were [((正式)) was] injured in the accident."

 これで,formal or pedantic という register でまれに使用されるらしいということは分かった.では,BNCWeb で確かめてみようと,"a (very)? (large|great|good|small)? number of ((_AV*)? _AJ*)* _NN2 (_VHZ|_VBZ|was_VBD|_VDZ|_VVZ)" として検索し,該当する例のみを手作業で拾い出してみた.全部で25例あったが,1例を除いてすべてが書き言葉からの文例であり,そのうち12例が Academic prose からのものだった.全体として,この表現が academic or pedantic へ強い傾向を示すことは確かなようだ.

 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm
 ・ Burchfield, Robert, ed. Fowler's Modern English Usage. Rev. 3rd ed. Oxford: OUP, 1998.
 ・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.

Referrer (Inside): [2013-01-11-1]

[ | 固定リンク | 印刷用ページ ]

2011-10-28 Fri

#914. BNC による語彙の世代差の調査 [bnc][corpus][statistics][lltest][interjection]

 昨日の記事「#913. BNC による語彙の男女差の調査」 ([2011-10-27-1]) で取りあげた Rayson et al. では,話者の性別だけでなく年齢による語彙の変異も調査されている.年齢差といっても,35歳未満か以上かで上下の世代に分けた大雑把な分類だが,結果はいくつかの興味深い示唆を与えてくれる.以下は,χ2 の上位19位までの一覧である (142--43) .

RankUnder 35Over 35
Wordχ2Wordχ2
1mum1409.3yes2365.0
2fucking1184.6well1059.8
3my762.4mm895.2
4mummy755.2er773.8
5like745.2they682.2
6na as in wanna and gonna712.8said538.3
7goes606.6says443.1
8shit410.1were385.8
9dad403.7the352.2
10daddy380.1of314.6
11me371.9and224.7
12what357.3to211.2
13fuck330.1mean155.0
14wan as in wanna320.6he144.0
15really277.0but139.0
16okay257.0perhaps136.0
17cos254.4that131.3
18just251.8see122.1
19why240.0had118.3


 予想される通り,若い世代に特徴的なキーワードはくだけた語を多く含んでいる.表外の語も含めてだが,yeah, okay, ah, ow, hi, hey, ha, no, ooh, wow, hello などの間投詞,fucking, shit, fuck, crap, arse, bollocks などのタブー語が目立つ.しかし,若い世代のキーワードとして,一見すると予想しがたい語も挙がる.例えば,please, sorry, pardon, excuse などの丁寧語が若い世代に特徴的だという.
 ほかには,若い世代に特徴的な形容詞や副詞がいくつか見られる (ex. weird, massive, horrible, sick, funny, disgusting, brilliant, really, alright, basically) .評価を表わす形容詞・副詞が多く,一種の流行とみなすことができる語群だろう.年齢差を "apparent time" の差と考えれば,そこには "real time" の変化が示唆されることになるので,この語群の通時的な頻度の増加を探るのもおもしろそうだ.

 ・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

Referrer (Inside): [2013-04-14-1] [2011-11-02-1]

[ | 固定リンク | 印刷用ページ ]

2011-10-27 Thu

#913. BNC による語彙の男女差の調査 [bnc][corpus][statistics][lltest][interjection][gender_difference]

 標題の話題を扱った Rayson et al. の論文を読んだ.BNC の中で,人口統計的な基準で分類された,話し言葉を収録したサブコーパス(総語数4,552,555語)を対象として,語彙の男女差,年齢差,社会的地位による差を明らかにしようとした研究である.これらの要因のなかで,語彙的変異が統計的に最も強く現われたのは性による差だったということなので,本記事ではその結果を紹介したい.
 まず,以下に挙げる数値の解釈には前提知識が必要なので,それに触れておく.BNC に収録された話し言葉は志願者に2日間の自然な会話を Walkman に吹き込んでもらった上で,それを書き起こしたものであり,その志願者の内訳は男性73名,女性75名である.会話に登場する志願者以外の話者についても,女性のほうが多い.したがって,当該サブコーパスへの参加率でいえば,全体として女性が男性よりも高くなることは不思議ではない.
 しかし,その前提を踏まえた上でも,全体として女性のほうがよく話すということを示唆する数値が出た.使用された word token 数でいえば,男性を1.00とすると女性が1.51,会話の占有率では,男性を1.00とすると女性は1.33だった.男女混合の会話では男性のほうが高い会話占有率を示すとする先行研究があるが,BNC のサブコーパスでは女性同士の会話が多かったということが,上記の結果の背景にあるのかもしれない.いずれにせよ,興味深い数値であることは間違いない.
 次に,より細かく語彙における男女差を見てみよう.男女差の度合いの高いキーワードを抜き出す手法は,原理としては[2010-03-10-1], [2010-09-27-1], [2011-09-24-1]の記事で紹介したのと同じ手法である.男性コーパスと女性コーパスを区別し,それぞれから作られた語彙頻度表を突き合わせて統計的に処理し,カイ二乗値 (χ2) の高い順に並び替えればよい.以下は,上位25位までの一覧である (136--37) .

RankCharacteristically maleCharacteristically female
Wordχ2Wordχ2
1fucking1233.1she3109.7
2er945.4her965.4
3the698.0said872.0
4year310.3n't443.9
5aye291.8I357.9
6right276.0and245.3
7hundred251.1to198.6
8fuck239.0cos194.6
9is233.3oh170.2
10of203.6Christmas163.9
11two170.3thought159.7
12three168.2lovely140.3
13a151.6nice134.4
14four145.5mm133.8
15ah143.6had125.9
16no140.8did109.6
17number133.9going109.0
18quid124.2because105.0
19one123.6him99.2
20mate120.8really97.6
21which120.5school96.3
22okay119.9he90.4
23that114.2think88.8
24guy108.6home84.0
25da105.3me83.5


 必ずしもこの25位までの表からだけでは読み取れないが,Rayson et al. (138--40) によれば以下の点が注目に値するという.

 ・ "four-letter words",数詞,特定の間投詞は男性に特徴的である (ex. shit, hell, crap; hundred, one, three, two, four; er, yeah, aye, okay, ah, eh, hmm)
 ・ 女性人称代名詞,1人称代名詞,特定の間投詞は女性に特徴的である (ex. she, her, hers; I, me, my, mine; yes, mm, really) (男性代名詞の使用には特に男女差はない)
 ・ theof の使用は男性に多い(男性に一般名詞を用いた名詞句の使用が多いという別の事実と関連するか?)
 ・ 固有名詞,代名詞,動詞は女性に多い(男性の事実描写 "report" の傾向に対する女性の関係構築 "rapport" の傾向の現われか?)
 ・ 固有名詞のなかでも,人名は女性の使用が多く,地名は男性の使用が多い.

 他のコーパスによる検証が必要だろうが,この結果と解釈に興味深い含蓄があることは確かである.
 キーワードの統計処理と関連して,コーパス言語学でカイ二乗検定の代用として広く使用されるようになってきた Log-Likelihood 検定については,自作の Log-Likelihood Tester, Ver. 1Log-Likelihood Tester, Ver. 2 を参照.

 ・ Rayson, Paul, Geoffrey Leech, and Mary Hodges. "Social Differentiation in the Use of English Vocabulary: Some Analyses of the Conversational Component of the British National Corpus." International Journal of Corpus Linguistics 2 (1997): 133--52.

[ | 固定リンク | 印刷用ページ ]

2011-08-20 Sat

#845. 現代英語の語彙の起源と割合 [lexicology][loan_word][statistics][bnc][corpus]

 現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.

 ・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
 ・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
 ・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合

 語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
 先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
 Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
 これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.

LevelEnglishFrench/LatinScandinavianOther
100 (GSL)92%3%5%0%
600 (LDOCE3)474544
1000 (BNC)46.948.93.21.0
1000 (Williams)831322
2000 (Williams)345727
3000 (Williams)2960110
4000 (Williams)2762110
5000 (Williams)276418
6000 (Williams)2761210
7000 (Williams)2362213
8000 (Williams)2659213
9000 (Williams)2558215
10000 (Williams)2560114
Etymological Breakdown of the Most Frequent Words


 上から3つ目と4つ目の棒グラフは,同じ最頻1000語レベルでの比較だが,3つ目は上述の Durkin の BNC 調査によるもの,4つ目は[2010-06-30-1]の記事で示した Williams のものである.著しい差異が生じたが,これも調査方法が異なるがゆえだろうか.注意して解釈する必要があるが,この点を除けば全体としてなだらかに推移し,最終的には本来語25%,ラテン・フランス語60%,それ以外が15%という数値におよそ落ち着くようだ.

[ | 固定リンク | 印刷用ページ ]

2011-05-24 Tue

#757. decline + 動名詞 [syntax][gerund][bnc][corpus]

 1796年9月19日,アメリカ合衆国の初代大統領 George Washington (1732--99) が大統領職を去るに当たって farewell address 「お別れのスピーチ」を読んだ.渡辺昇一先生の『英文法を知ってますか』 (252--53) によると,その語り出しの部分が英語精読力の試金石になるというので,院生と精読する機会をもった.以下の英文である.

FRIENDS AND FELLOW-CITIZENS. The period for a new election of a citizen, to administer the executive government of the United States, being not far distant, and the time actually arrived, when your thoughts must be employed in designating the person who is to be clothed with that important trust, it appears to me proper, especially as it may conduce to a more distinct expression of the public voice, that I should now apprise you of the resolution I have formed, to decline being considered among the number of those out of whom a choice is to be made.


 確かに読み応えのある英文である.注を付すべき英文法のポイントはたくさんあるが,最後のほうに decline に不定詞でなく動名詞が後続する点を指摘してくれた学生がいた.私は見逃していたので余計に関心をもったのだが,decline の用法を学習者用英英辞書で調べると,動名詞が後続する構文は触れられていない.しかし,大きな英和辞書では,一般的ではないとしながらも,動名詞が後続し得ると記述されている.また,OED で調べると decline, v. の語義 13b に挙げられている17世紀末以降からの数例で,動名詞の後続する構文が確認される.したがって,Washington がここで動名詞を使用しているのは歴史的にあり得ない構文ではなかったということになる.
 しかし,Washington があえて稀な構文を用いたのはなぜか.style や formality の問題なのか,あるいは decline の取り得る構文の種類の相対頻度が当時から現在までの期間に通時的に変化してきたということなのか.精読を目指すからには,この点が気になった.本格的には通時コーパスなどで調べる必要があるが,まずは BNCweb でどのくらいヒットするか調べてみた.
 不定詞が後続する構文を取り出すのに,"{decline/V} (_{ADV})* _TO0" で検索すると,769例がヒット.一方,動名詞が後続する構文は "{decline/V} (_{ADV})* _VVG" で取り出し,ヒットした9例のうち実際には3例のみ該当する例であることが判明した.コンコーダンスラインを示す.

- FTT 821: . . . but with proper delicacy to this subject they decline making application at Present and till it is ascertained how cattle markets may go in June next . . .
- FTT 839: The Presses of this meeting, as being part owner of the Steam Boat, declines allowing the assessment for the Steam Boat to be charged for this year.
- HW8 831: Dosh and Freddie didn't take much persuading but Chase thankfully declined saying that parties didn't like him.


 FTT なる典拠(An Islay Notebook という non-academic prose and biography)から2例が例証されるというのは,書き手の癖の問題なのだろうか.Washington の動名詞の使用例については判断を下せないままだが,現在までに古風あるいは格式張った使い方に限定されてきた可能性,通時的に頻度が減ってきた可能性はありそうだ.

 ・ 渡辺 昇一 『英文法を知ってますか』 文藝春秋〈文春新書〉,2003年.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow