現代英語に起きている文法上の変化として wh- 関係代名詞が減少し,that や zero 関係代名詞が増加しているという例が挙げられる.wh- 関係詞は比較的 formal な響きを有しており,話し言葉よりも書き言葉に現れることが多いとされるが,その書き言葉においても頻度が目に見えて落ちているという.
Leech and Smith (195--96) は the Brown family of corpora を用いて英米各変種における1961年と1991/1992年の間に起こったいくつかの言語変化を調査した.調査によると,AmE では30年ほどの間に関係詞 which が34.9%減少した.それに対して,that は48.3%増加し,zero も23.1%増加した.同様に,BrE でも which は9.5%減少し,that が9%増加,zero が17.1%増加した.いずれの関係詞も,AmE のほうが BrE よりも振れ幅が大きい,つまり増減が激しいということになる.特に AmE での which の減少率が著しい.
これには,私自身も思い当たる経験がある.ちょうど1991/1992年辺りに中学・高校の学校英文法をたたきこまれた私は,関係詞 which の使用についてはドリル練習を通じて精通していた.ところが,後に英語論文を書く立場になって自信をもって which を連発したところ,アメリカ英語母語話者のネイティブチェックでことごとく which でなく that にせよと朱を入れられてしまった経験がある.それが一種のトラウマになったようで,最近は関係詞 which の使用にはかなり慎重である.自分の中で Americanisation が起こりつつあるということだろうか.
アメリカ英語では which は非限定用法にしか使われなくなりつつあるというが,ワープロソフトの校正機能もこうした傾向を助長している節がある.かつてのあのドリル練習は何だったのだろうかと改めて思わせる言語変化である.ドリルに励んでいたあの1991年の時点でもすでに限定用法としての which の衰退は方向づけられていたのに・・・.
・ Leech, Geoffrey and Nicholas Smith. "Recent Grammatical Change in Written English 1961--1992: Some Preliminary Findings of a Comparison of American with British English." The Changing Face of Corpus Linguistics. Ed. Antoinette Renouf and Andrew Kehoe. Amsterdam and New York: Rodopi, 2006. 185--204.
過去二日の記事[2010-05-11-1], [2010-05-12-1]で,often という語の歴史をみた.OED によると oft に代わって often が一般化するのは16世紀以降ということだが,頻度の高い語なので Helsinki Corpus ( The Diachronic Part of the Helsinki Corpus of English Texts ) で確かめられそうだと思い,時代区分( COCOA の <C で表される part of corpus )のみをキーにしておおまかに頻度を数えてみた.時代区分の略号などはこちらのマニュアルから.
WORD | PERIOD | oft | often |
REGEX | /\bofte?\b/ | /\boft[ei]n\b/ | |
OE | O1 | 0 | 0 |
O2 | 72 | 0 | |
OX/2 | 4 | 0 | |
O3 | 45 | 0 | |
O2/3 | 32 | 0 | |
OX/3 | 106 | 0 | |
O4 | 9 | 0 | |
O2/4 | 8 | 0 | |
O3/4 | 37 | 0 | |
OX/4 | 2 | 0 | |
ME | M1 | 67 | 0 |
MX/1 | 20 | 0 | |
M2 | 60 | 4 | |
MX/2 | 9 | 1 | |
M3 | 63 | 4 | |
M2/3 | 15 | 0 | |
M4 | 15 | 7 | |
M2/4 | 3 | 0 | |
M3/4 | 17 | 1 | |
MX/4 | 20 | 0 | |
EModE | E1 | 14 | 28 |
E2 | 14 | 33 | |
E3 | 9 | 78 |
昨日の記事[2010-04-29-1]では敢えてコーパスの負の側面を見たが,それは近年のコーパスが大いに英語学に貢献してきた状況へのリアクションからであり,コーパス英語学の正の側面を指摘しない限り,評価は完成しない.そこで,特に英語史研究の視点から,コーパス英語学の発展がいかに多大な好影響を与えてきたかを,家入先生による指摘ポイントを含めつつ,何点か列挙したい.
・ 散文と韻文などテキストの形式やジャンルをまたいでの比較が可能になった
・ コーパスの巨大化により,低頻度事項でも例数を集められるようになり,研究可能なテーマが広がった
・ 現代英語の研究者に通時的研究の契機を与えることとなり,英語史研究の裾野が広がった
・ コーパスでは校訂やその他の annotation がタグにより明示されるので,研究者間で共通の前提に立った議論が成り立ちやすい
・ 研究テーマについて,コーパス研究で結論の見当をつけ,次に詳細研究に進むという研究手法が可能になった
・ 定説を含めた従来の仮説をコーパスによって検証するという基盤的な研究ジャンルが開かれた
英語史研究の視点からと述べたが,他分野でも似たようなポイントは挙げられるだろう.
・ 家入 葉子 「<特集:コーパス言語学の現在>英語史研究とコーパス」 『英語青年』 2004年2月号,15-17頁.
[2010-02-28-1]の第二弾.重複することもあるが,改めてコーパス利用研究の注意点や弱点を備忘録として書き留めておきたい.いずれもコーパスやコーパス研究それ自身が悪いわけではなく,コーパス(研究)に依存しすぎると問題が生じると考えられるポイントである.
・ コーパスで研究できないことは研究しなくなる
・ コーパスで都合のよい結果が出ればそれを採用し,都合の悪い結果が出れば見て見ぬふりをする,というアドホックな態度に陥りがちになる
・ コーパスの扱いそのものが目的となってしまう傾向がある
・ コーパス研究はとりあえず数値として明確な結果が出るのでそれで満足してしまい,次の段階へ進まなくなる可能性がある
・ user-friendly なコーパス解析ツールの登場により分析の過程が black box 化されることが多く,行っている作業に無自覚・無責任になる傾向がある
最初の点について付言すると,コーパス研究が可能あるいはふさわしいテーマについては,当然,一つの方法論としてコーパス利用が検討されるべきである.頻度を数え上げるタイプの研究課題がコーパス研究に向いているというのは言わずもがなだが,それ以外にどのようなタイプの研究がコーパスに向いているのか,きちんと考えてみる必要があるだろう.例えば,文献学ではほんの一例の存在が意味をもつことが少なくないので,頻度検索ならぬ有無検索にもコーパスは力を発揮しそうだ.
『英語コーパスの初歩』によると,英語コーパスの発展は (1) 大規模化,(2) 種類の拡大,(3) 品詞標識の付与,という3軸で進んできたという.以下はその詳細.
(1) 大規模化.近代英語コーパスの祖である Brown Corpus ( The Standard Corpus of Present-Day Edited American English ) の公開されたのが1964年.約100万語からなるコーパスで,後の多くの英語コーパスがそのコーパスデザインにならった.しかし,1990年代以降は約1億語の BNC ( The British National Corpus ) や5億語を越える巨大規模の The Bank of English などが現れている.
(2) 種類の拡大.コーパスの種類の拡大は,コーパスを用いて研究できる領域や切り口の選択肢が増えてきたことを意味する.Brown Corpus の正式名称が示唆するとおり,最初期のコーパスは「現代の」「書き言葉の」「英米変種の」「標準的な」英語を対象としていた.しかし,その後「歴史的な」「話し言葉も含めた」「英米変種以外の」「非母語話者や学習者の変種も含めた」英語を視野に入れたコーパスが続々と現れた.今後も,英語学・英文学の様々な領域と切り口を反映した種々のコーパスが編纂されてゆくことだろう.
(3) 品詞標識の付与.より一般的には,annotation の種類や方法が増えてきたといえる.初期の平テキストのコーパスから,まずは品詞標識付け ( POS-Tagging ) が試みられ,続いて統語形態標識,構文解析,意味標識,音調標識なども付与されるようになってきている.これも,コーパス利用が英語学の種々の領域や理論に開かれてきたことと関連する.標識をテキストに埋め込むか,別ファイルとして提供するかという問題や,林立する annotation scheme の存在など,annotation をめぐる混乱はあるが,裏を返せば発展がそれほど著しいということだろう.
上記のコーパス発展の3軸すべての前提として,コンピュータ技術の進歩,とりわけテキスト処理技術の進展があることは間違いない.コーパス分析・開発ソフトウェアの開発,そのマニュアルや教材の出版,研究者によるコーパス使用の試行錯誤もコーパス英語学の発展を後押ししている.テキスト処理技術が今後も発展を続けるのと平行して,コーパス英語学もますます勢いを増してゆくものと思われる.このように技術の進歩にともなってコーパス英語学自体が発展してゆくことは,それ自体としてよいことである.しかし,それだけでは物足りない.やはり研究の切り口を新しく開発することで,コーパス研究を発展させてゆくのが理想なのだろうと思う.
昨日英語コーパス学会の第35回大会に参加しての所感.
・ 大門 正幸,柳 朋宏 著 『英語コーパスの初歩』 英潮社,2006年.5--6頁.
今日は軽くウェブ上のコンコーダンサーを紹介.英語例文検索 EReK は「英語で書かれたウェブページのテキストを巨大な例文集(コーパス)とみなし,それを検索するサイト」.Yohoo! の Web API が利用されている.出力は KWIC ( Key Word in Context ) で,百数十の例文が表示される.各コンコーダンス・ラインから,ワンクリックでソースに飛ぶことができるのも便利.また,キーワード前後の語での並べ替え機能や,検索対象を .edu ドメインや ニュースサイトに限定するオプションも装備されている.「ウェブ上の文書なので正確な表現である保証はありません」と但し書きがあるが,Web上の手軽なコンコーダンサーとして利用価値はありそうだ.
時々刻々と変化するウェブ・リソースを検索対象とするので一種の monitor corpus とも考えられ,時事を反映した出力が期待できる.例えば,2010年4月24日現在,ニュースサイト限定検索 "volcano" とやれば Iceland や Icelandic と共起するコンコーダンス・ラインが大量に得られる.( see [2010-04-20-1]. )
姉妹版で日本語版の JReK もあり,こちらは日本語の文章書きに効果を発揮しそう.
少し変わり種のコーパスとして,COLT: The Bergen Corpus Of London Teenage Language を紹介する.1993年におけるロンドンの若者(13歳から17歳)の話し言葉を収集したコーパスで,約50万語からなる.31人のロンドン各地・各階層の男子女子の会話を,合計50時間だけ録音し,文字に起こしたものである.BNC ( The British National Corpus ) にも組み込まれているコーパスだ.語類情報や休止などの韻律情報がタグ付けされており,若者言葉によって先導される言語変化の調査や語用論的な研究において実績がある.
コーパス自体は有料だが,上記のHPから手に入る COLT による最頻1000語のリスト が目を引いた.COLT に現れる表記語 ( graphic word ) の最頻リストで,lemmatise されていない.要するに,do と did,laugh と laughing などは別々にカウントされている.
今回,このコーパスに目を付けたのは,先日[2010-04-10-1], [2010-04-11-1]でパイロット・スタディとしておこなった「BNC Word Frequency List による音節数の分布調査」の COLT 版を試してみようと思ったからである.BNC による音節数分布調査では,書き言葉と話し言葉の両方を対象とし,lemmatise された基底形 ( base form ) での頻度表を用いたが,COLT を用いれば,大きく異なった条件のもとで類似した調査をおこなうことができる( COLT が BNC の一部になっていることを考慮しても).具体的には,話し言葉に限定された,表記語に基づく頻度表をベースとして音節数の分布を調べられる.
注意を要するのは,COLT の頻度表には unclear, nv, singing など,地の文の語ではなくタグ名として使われている語もうっかり数えられてしまっていることだ.したがって,この種の語は手作業で除去し,最終的に有効最頻語976語のリストが得られた.これをもとにして,音節数の分布をいざ探ってみることにする.結果は,明日.
本ブログでは,オンラインで利用できる現代英語のコーパスとして,簡便に使える BNC ( The British National Corpus ),より本格的に使える BNCWeb(要無料登録)を紹介してきた.BNC はその名の如くイギリス英語専門のコーパスで,ほぼ1975年以降の英語が約1億語おさめられている.そのうち9割は書き言葉,1割は話し言葉という構成である.現在オンラインで利用できる最大級の規模の英語コーパスである.
規模だけでいえば,もっと大きな英語コーパスが存在する.常に拡大を続けるモニターコーパス The Bank of English であり,その規模は5億5000万語にまで達する.BNC と異なり,イギリス英語だけでなくアメリカ英語を含めた他の変種もカバーしている.
このうちの一部,約5600万語が Cobuild Concordance and Collocations Sampler としてオンラインで無料で公開されている.コンコーダンス・ラインは40行まで,コロケーションのスコア・ランキングは100位までしか出力されない「デモ版」ではあるが,検索語に簡単なタグ指定ができるなど,手軽な目的であれば十分に使える仕様だろう(有料版 Collins WordbanksOnline もあり).
コロケーションのスコアとしては,T-score か MI ( Mutual Information ) かを選べる.[2010-03-04-1]でも触れたが,それぞれのスコアの特徴を簡単に述べる.
・ MI (mutual information): 共起する2語が持つ意味的特性に焦点が当てられる傾向がある.慣用句,ことわざ,複合語,専門用語など独特の言い回しを構成する語に高い値が与えられる.コーパスのサイズに依存しない.3以上の値をもって collocate しているとみなせるといわれる.イメージとしては,連想ゲーム的な語と語の関係が明らかになると考えるとよい ( = lexical collocation ).低頻度語が強調される傾向があり,独特でおもしろい結果になることがある.
・ T-score: collocation 強度そのものの指標というよりも,互いに関連があると言い切れる確信度の指標.コーパスのサイズが勘案されている.通常は,2以上の値でその collocation が統計的に有意とみなされる.特定の2語の共起頻度に焦点を当てるため,キーワードの前後に頻繁に生起する前置詞,不変化詞,人称代名詞,限定詞などの文法構造を満たすための語のほか,常套句や使い古されてしまった比喩,決まり文句などを構成する語が上位にランクインする.イメージとしては,主に文型や機能語の連語情報が明らかになると考えるとよい ( = grammatical collocation ) .
コンコーダンスやコロケーションの出力は,英語の研究や学習のためだけでなく,汎用の発想ツール,連想ツールとしても使える.例えば,octopus のコロケーションの MI 値を出してみると,上位に squid, dried, october などが現れる.味わい深い.
・ 鷹家 秀史,須賀 廣 『実践コーパス言語学』 桐原ユニ,1998年.113--15頁.
昨日の記事[2010-03-09-1]に引き続き,拙著 The Development of the Nominal Plural Forms in Early Middle English で自分マイニング.WordSmith には KeyWords 抽出機能がある.単に単語リストを頻度順に並べた昨日のリストでもおよそのテキストの主題を読み取ることは可能だが,上位に機能語などの雑音が大量に入り込み,解釈しにくい.それに対して,キーワードリストでは対象テキストの主題をよく表す実質的なキーワードが上位に来るので,解釈しやすい.
考え方としては以下の通りである.巨大なコーパスなどを参照テキストとして使用し,そこから単語ごとに一般的な頻度を導き出す.次に,対象テキスト内で各単語について頻度を出す.ある語の対象テキスト内での頻度が,参照テキスト内での頻度よりも相当に大きい場合には,それは対象テキストに特有のキーワードとみなせる.そのようなキーワードを自動的に探し出してくれるのが,WordSmith の KeyWords 抽出機能である.拙著はイギリス英語で書いていることもあり,参照テキストとしては FLOB ( Freiburg-LOB corpus ) を使用した.以下,上位50語のキーワードである.
plural, english, s, n, old, nouns, norse, dialect, midland, middle, plurals, dialects, texts, language, forms, text, ending, diffusion, v, south, west, nominative, early, stem, the, spread, linguistic, singular, endings, inflectional, contact, accusative, o, system, weak, in, development, sec, change, fem, dative, morphological, languages, saxon, item, formation, period, transfer, germanic, strong
ずばり来てくれました plural .複数形の研究なのでそうでなければ困るところだ.昨日のリストよりも機能語の雑音がよくはじかれている.
WordSmith には各キーワードのファイル内での出現箇所を視覚的にプロットする機能もあり,上記の50語について以下のようなプロットが得られた.
執筆者本人なので,なるほどと思えることが多い.最上位語はテキスト中にまんべんなく現れる傾向があるが,それでも分布が偏っているものもある.7位の norse は Old Norse について論じている7章に固まっているし,18位 diffusion は Lexical Diffusion を集中的に扱っている5章に集中している.
われながらの発見もあった.言語変化を論じているので development と change を多用しているが,執筆中にはそれほど意識して両語を使い分けていたわけではなかった.そうであればまんべんなく分布していそうなものだが,実際には change が5章辺りに偏在している.ということは,無意識のうちに使い分けていたということなのだろうか.無意識の癖とでもいうべきものが発見できておもしろい.
文章をこのように分析することで,実用的な効果がいろいろ考えられそうである.思いつきを記す.
・ 文体の統計を把握することで今後の文章改善に活かす(誰々の文体に近づきたい,ボキャ貧をなおしたい,パラグラフ構成の指針をもちたい,など)
・ 自分の過去の文章と比較し,文体の経年変化を観察する
・ 論文などを書き終えた後でタイトル候補が複数ある場合に,キーワードを参考にして決定する
・ 自分の過去の論文などをひっくるめて分析対象とし,「私の研究テーマは(キーワード)です」と言い切れるようになる
・ 相手の過去の論文などをひっくるめて分析対象とし,「あなたの研究テーマは(キーワード)です」と言い切れるようになる(←おせっかい)
・ 緩やかに関連する二つの論文 A と B を互いに参照テキストとしてそれぞれのキーワードを抽出し,A の特徴と B の特徴を比べる.共通点が多いことを前提としているので,キーワードによって逆に相違点が浮き彫りになる可能性がある.
[2010-02-26-1]の記事で取りあげた話題の続編.先日の記事では,単語によって比率は異なるものの,イギリス英語では -ise と -ize の両方の綴字が行われることを,BNC に基づいて明らかにした.高頻度20語については,おおむね -ise 綴りのほうが優勢ということだった.
通時的な観点がいつも気になってしまう性質なので,そこで新たな疑問が生じた.-ise / -ize のこの比率は,過去から現在までに多少なりとも変化しているのだろうか.大昔までさかのぼらないまでも,現代英語の30年間の分布変化だけを見ても有意義な結果が出るかもしれないと思い,1960年代前半のイギリス英語を代表する LOB ( Lancaster-Oslo-Bergen corpus ) と1990年代前半のイギリス英語を代表する FLOB ( Freiburg-LOB corpus ) を比較してみることにした.
それぞれのコーパスで,前回の記事で取りあげた頻度トップ20の -ise / -ize をもつ動詞について,その変化形(過去形,過去分詞形,三単現の -s 形,-ing(s) )を含めた頻度と頻度比率を出してみた(下表参照).
item | LOB: rate (freq) | FLOB: rate (freq) | ||
-ise | -ize | -ise | -ize | |
recognise | 59.6% (99) | 40.4% (67) | 71.8% (127) | 28.2% (50) |
realise | 63.2% (134) | 36.8% (78) | 68.7% (125) | 31.3% (57) |
organise | 65.6% (42) | 34.4% (22) | 67.2% (43) | 32.8% (21) |
emphasise | 37.7% (20) | 62.3% (33) | 62.9% (39) | 37.1% (23) |
criticise | 52.0% (13) | 48.0% (12) | 80.0% (24) | 20.0% (6) |
characterise | 0.0% (0) | 100.0% (4) | 56.3% (18) | 43.8% (14) |
summarise | 35.3% (6) | 64.7% (11) | 64.7% (11) | 35.3% (6) |
specialise | 56.3% (18) | 43.8% (14) | 81.8% (27) | 18.2% (6) |
apologise | 68.8% (11) | 31.3% (5) | 70.6% (12) | 29.4% (5) |
advertise | 100.0% (41) | 0.0% (0) | 100.0% (55) | 0.0% (0) |
authorise | 77.4% (24) | 22.6% (7) | 68.2% (15) | 31.8% (7) |
minimise | 90.0% (9) | 10.0% (1) | 80.0% (16) | 20.0% (4) |
surprise | 100.0% (182) | 0.0% (0) | 100.0% (173) | 0.0% (0) |
supervise | 100.0% (10) | 0.0% (0) | 100.0% (9) | 0.0% (0) |
utilise | 70.0% (7) | 30.0% (3) | 83.3% (5) | 16.7% (1) |
maximise | 50.0% (2) | 50.0% (2) | 50.0% (9) | 50.0% (9) |
symbolise | 50.0% (3) | 50.0% (3) | 40.0% (4) | 60.0% (6) |
mobilise | 66.7% (2) | 33.3% (1) | 20.0% (1) | 80.0% (4) |
stabilise | 58.3% (7) | 41.7% (5) | 33.3% (3) | 66.7% (6) |
publicise | 81.8% (9) | 18.2% (2) | 84.6% (11) | 15.4% (2) |
コーパスを使った collocation 研究は多い.しかし自分では行ったことがなかったので,McEnery et al. (56--57, 210--20) を参考にしつつ,自らお題を一つ掲げて collocation 研究のさわりを試してみた.特に collocation にかかわる様々な統計指標の特徴に注意してみたい.
お題は「girl とよく collocate する形容詞は何か」.使用するコーパスは BNCWeb .girl の左側3語までに現れる形容詞を検索対象とし,collocation の強度を示す様々な指標を出して,指標ごとに上位20個までの形容詞を一覧にしたのが下表である.
Rank | raw frequency | observed/expected | t-score | z-score | log-likelihood | MI | MI3 |
---|---|---|---|---|---|---|---|
1 | little | 15-year-old | little | little | little | 15-year-old | little |
2 | young | 16-year-old | young | young | young | 16-year-old | young |
3 | that | dark-haired | good | 15-year-old | good | dark-haired | good |
4 | this | 13-year-old | that | dark-haired | clever | 13-year-old | clever |
5 | good | nine-year-old | this | 16-year-old | poor | nine-year-old | pretty |
6 | one | 14-year-old | old | clever | pretty | 14-year-old | that |
7 | old | four-year-old | poor | pretty | old | four-year-old | 15-year-old |
8 | other | year-old | other | teenage | that | year-old | dark-haired |
9 | poor | clever | clever | 13-year-old | beautiful | clever | poor |
10 | clever | teenage | one | nine-year-old | lovely | teenage | 16-year-old |
11 | beautiful | blonde | pretty | four-year-old | golden | blonde | this |
12 | pretty | pretty | beautiful | head | nice | pretty | old |
13 | small | head | nice | 14-year-old | 15-year-old | head | beautiful |
14 | any | little | lovely | poor | teenage | little | teenage |
15 | nice | wee | big | blonde | dark-haired | wee | lovely |
16 | big | eldest | small | good | head | eldest | head |
17 | another | brave | golden | golden | 16-year-old | brave | golden |
18 | lovely | golden | tall | beautiful | tall | golden | nice |
19 | new | silly | dear | lovely | this | silly | tall |
20 | golden | young | teenage | year-old | dear | young | blonde |
Penn Parsed Corpora of Historical English のプロジェクトの成果として,University of Pennsylvania から PPCMBE ( Penn Parsed Corpus of Modern British English ) が出版された.これにより,以下の通り,古英語から現代英語にわたる各時期のイギリス英語の統語タグ付きコーパスが出そろったことになる.
・ YCOE: Taylor, Ann, Anthony Warner, Susan Pintzuk, and Frank Beths. York-Toronto-Helsinki Parsed Corpus of Old English Prose, first edition. Oxford Text Archive, 2003. (1.5 million words)
・ PPCME2: Kroch, Anthony and Ann Taylor. Penn-Helsinki Parsed Corpus of Middle English, second edition. University of Pennsylvania, 2000. (1.3 million words)
・ PPCEME: Kroch, Anthony, Beatrice Santorini, and Ariel Diertani. Penn-Helsinki Parsed Corpus of Early Modern English, first edition. University of Pennsylvania, 2004. (1.8 million words)
・ PPCMBE: Kroch, Anthony, Beatrice Santorini, and Ariel Diertani. Penn-Hensinki Parsed Corpus of Modern British English, first edition. University of Pennsylvania, 2010. (1.0 million words)
いずれも Helsinki Corpus をベースとしたソースに対して同一の annotation scheme による統語的タグが付加されており,互いに連携できるように作られている.視点は異なるが,およそ1410年から1695年までのあいだの書簡集となるコーパス PCEEC も同様の annotation scheme でタグ付けされており,やはり連携が可能である(ただし利用は限定的).
・ PCEEC: Taylor, Ann, Arja Nurmi, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Parsed Corpus of Early English Correspondence, first edition. Oxford Text Archive, 2006. (2.2 million words)
現時点で,あわせて 7.8 million words が通時的かつ統語的な視点からタグ付けされ,一般に利用可能になったことになる.
一昨日と昨日と,東京外国語大学のグローバルCOEプログラム「コーパスに基づく言語学教育研究拠点」 ( Corpus-based Linguistics and Language Education ) 主催で,"Corpus Analysis and Diachronic Linguistics" と題する国際シンポジウムが同大学で開かれ,Anthony Kroch や Merja Kytö など英語史コーパス言語学の著名な学者も講演した(ポスターはこちら).PPCMBE の出版直後ということもあったので,特に Anthony Kroch が何を話すかに興味をもっていた.一連の歴史英語コーパスを使った統語研究の一端でも見せてくれるのかなと期待していたが,驚いたことに,歴史英語コーパスと歴史フランス語コーパスを組み合わせた「英仏対照通時統語コーパス言語学」とでもいうべき研究の可能性を示す発表だった.今や University of Pennsylvania は英語に限らず諸言語のコーパス作成の拠点となっており,あれやこれやと組み合わせるとこんなこともあんなこともできるんだぞというところを見せつけられたとでもいおうか.
ちなみに,取り上げられた話題は英仏の direct object topicalization の歴史で,英語の場合には 1151--1250 年期から 1251--1350 年期にかけて,直接目的語の前置される頻度が一気に減少したという.
現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.
[主要な頻度表]
・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.
[他のリストへのリンク集]
・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
・ Famous Frequency Lists: 様々な頻度表へのリンク集.
・ Basic English and Common Words: ML上の最頻語頻度表についての議論.
[アルファベットの文字の頻度表]
・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.
(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)
英語研究を始め言語研究にコーパスが利用されるようになって,すでに久しい.英語史の分野でも,革新的な The Diachronic Part of the Helsinki Corpus of English Texts の出版以来,様々な種類の歴史・通時コーパスが出ている.
研究には大いにコーパスを利用したいが,コーパス利用研究の注意点を(コメントつきで)挙げておきたい (McEnery et at. 121).
(1) コーパスは negative evidence を提供してくれない.○○がどれだけ生起するかは教えてくれるが,××が生起しないことは教えてくれない.(だが,一般的にいって存在しないかもしれないことを研究することは難しいので,これはコーパス言語学に限った問題点ではない.)
(2) コーパスは事実を提供してくれるが,その事実の説明はしてくれない.(確かに.説明それ自身は研究者の仕事である.)
(3) コーパスは,研究の範囲を限定する.(コーパスではできない研究もたくさんある.コーパス研究は,問題を適切に設定すればその目的のためには常に有効である.しかし,最初の問題設定の外にも問題が広がっていることは忘れてはいけない.)
(4) コーパス研究で導かれた結論を一般化する際には細心の注意を要する.(いくら膨大なコーパスでも,あくまで対象とする言語事実の部分集合である.)
以上4点を書き留めてみてふと立ち止まった.考えてみれば,この4点はコーパス利用ならずとも常に気をつけなければならない点である.英語史を含め歴史言語学の研究は,話者の直感に頼ることができない以上,残された事実(=コーパス)を分析するところから始まらざるをえないのだから,それを電子的に扱うか否かにかかわらず,やっていることはコーパス言語学にほかならない.ただ,電子的な統計に注目する傾向のある近年の(コンピュータ)コーパス言語学では,上記4点について余計に注意すべきだということは言えるだろう.
(3) に関連して,望遠鏡(コーパス言語学に代表される量的研究)と顕微鏡(文献学や談話分析に代表される質的研究)の比喩が興味深い.コーパスを利用するか否かにかかわらず,研究の目的が最重要ということだろう.
If it is ridiculous to criticize a telescope for not being a microsope, it is equally pointless to criticize the corpus-based approach for not doing what it is not intended to do (McEnery et al. 121)
英語コーパス研究の入り口として,以下の非常に良質なリンクを参照.
・ コーパス言語学の入門: 家入葉子先生のサイトより.英語史研究に有用.
・ 英語史関係のコーパス・電子テキスト: 家入葉子先生のサイトより.
・ 英語史関係のコーパス: 三浦あゆみさんの A Gateway to Studying HEL より.
・ コーパス研究に有用なWebサイト一覧
・ JAECS 英語コーパス学会
(後記 2010/03/21(Sun))
・ おすすめコーパスサイト: 『実践コーパス言語学』の著者の一人,須賀廣氏のリンク集.
・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.
私は,普段,英語を書くときにはイギリス綴りを用いている.英国留学中,指導教官に -ize / -ization の語を -ise / -isation に訂正されてから意識しだした習慣である.そのきっかけとなったこのペアは,一般には,アメリカ英語ではもっぱら -ize を用い,イギリス英語では -ise も用いられるとされる.
イギリス英語での揺れの理由としては,アメリカ英語の影響や,接尾辞の語源としてギリシャ語の -izein に遡るために -ize がふさわしいと感じられることなどが挙げられるだろう.単語によって揺れ幅は異なるようだが,実際のところ,イギリス英語での -ise と -ize のあいだの揺れはどの程度あるのだろうか.
この問題について,Tieken-Boon van Ostade (38) に BNC ( The British National Corpus ) を用いたミニ検査が示されていた.generalise, characterise, criticise, recognise, realise の5語で -ise と -ize の比率を調べたというものである.このミニ検査に触発されて,もう少し網羅的に揺れを調べてみようと思い立ち,BNC-XML で計399個の -ise / -ize に揺れのみられる動詞についてそれぞれの頻度を出してみた.以下は,-ise / -ize を合わせて頻度がトップ20の動詞である.ちなみに,399個の動詞についての全データはこちら.
item | -ise rate (freq) | -ize rate (freq) | -ise + -ize |
---|---|---|---|
recognise | 61.1% (9143) | 38.9% (5812) | 14955 |
realise | 63.2% (9442) | 36.8% (5492) | 14934 |
organise | 62.3% (5540) | 37.7% (3359) | 8899 |
emphasise | 60.0% (2998) | 40.0% (1998) | 4996 |
criticise | 54.9% (2054) | 45.1% (1688) | 3742 |
characterise | 52.2% (1398) | 47.8% (1278) | 2676 |
summarise | 61.4% (1164) | 38.6% (731) | 1895 |
specialise | 70.7% (1163) | 29.3% (481) | 1644 |
apologise | 68.8% (1084) | 31.2% (492) | 1576 |
advertise | 99.5% (1542) | 0.5% (7) | 1549 |
authorise | 64.5% (987) | 35.5% (543) | 1530 |
minimise | 65.4% (984) | 34.6% (521) | 1505 |
surprise | 99.9% (1345) | 0.1% (1) | 1346 |
supervise | 99.8% (1303) | 0.2% (3) | 1306 |
utilise | 68.9% (798) | 31.1% (360) | 1158 |
maximise | 63.2% (719) | 36.8% (418) | 1137 |
symbolise | 49.2% (324) | 50.8% (334) | 658 |
mobilise | 45.5% (286) | 54.5% (342) | 628 |
stabilise | 53.5% (334) | 46.5% (290) | 624 |
publicise | 69.4% (419) | 30.6% (185) | 604 |
現代英語の語彙研究あるいは英語語彙の歴史的研究をおこなうときに,情報源は二つある.一つは辞書であり,もう一つは(電子)コーパスである.(膨大な量のテキストに体当たりという力業もあるが,ここではその可能性は考えないことにする.)歴史的な観点から英語の語彙論や形態論に関心のある私は,とりわけ OED 等の辞書(電子版)にお世話になることが多いが,The Helsinki Corpus of English Texts (Diachronic Part) を始めとする電子コーパスをもっと活用すべきだと自認している.
辞書は語と語にまつわる諸情報を集めることに特化した出版物なので,電子版を用いれば「かくかくしかじかの条件に当てはまる語彙を一覧にせよ」という類の命令にはめっぽう強い.一方で,電子コーパスは通常,語彙研究に特化しているわけではなく広く言語研究全般に供する情報源として出版されている.だが,語彙研究において電子コーパスのほうが辞書よりも有用であるケースは少なくない.Baayen and Lieber (803) によると,語彙研究におけるコーパスの利点は以下の通り.
(1) コーパスで語を検索すると,その頻度を知ることができる.辞書では頻度はわからない.
(2) コーパスは生の言語使用を反映しており,辞書に掲載されない語を含んでいる可能性が高い.(辞書は一般に保守的な傾向が強く,俗語や新語を含んでいないことが多い.)
(3) 逆に辞書に掲載されていてもコーパスではヒットしない語が多く存在する.
まとめると,語彙研究にコーパスを用いる利点は,「生きた語彙を頻度つきで集めることができる」という点だろう.要は,辞書とコーパスそれぞれの長所と短所をわきまえたうえで,目的に応じて両者を使い分ければよいということになろう.
辞書とコーパスのちょっとした比較例としては,octopus の複数形 ([2009-08-26-1]) と rhinoceros の複数形 ([2009-10-05-1]) の記事を参照.
・Baayen, Harald and Rochelle Lieber. "Productivity and English Derivation: A Corpus-Based Study." Linguistics 29 (1991): 801--43.
「レディース」と答える人が圧倒的ではないだろうか.英語でも,men's wear に対して ladies' wear というのが一般的である.ところが,先日,ユニクロの日替わりセールの広告で「ウィメンズ 3Dスキニージーンズ 1,490円」なる文言を見つけた.
確かに,英語でも women's wear という表現はないではないし,むしろ mens' wear との対比が綴字上の eye rhyme として効果的に示されるという利点はあるかもしれない.ただ,[2009-12-06-1], [2009-12-07-1]で見たように,発音上は /mɛnz/ と /wɪmɪnz/ とでは韻を踏まない.
一方,日本語では,綴字上も発音上も見事に韻を踏む.「メンズ」に対して,「ウィメンズ」と発音が日本語化するからである.無標の ( unmarked ) 「レディース」ではなく,あえて有標の ( marked ) 「ウィメンズ」を使うというのは,ユニクロの差別化戦略だろうか?
英語の話しに戻るが,ladies' wear と women's wear のように二つ(以上)の variants があり,どちらの使用頻度がより高いかの見当をつけたい場合に便利なウェブツールがある.英文校正サイト [NativeChecker]は「Web上に蓄積されている膨大な英文テキストを基盤とした,英語のネイティブチェックシステム」で,自然な英語表現のチェックに威力を発揮する.入力された英語表現のヒット数によって,その頻度や自然度も計れるので,今回のような問題に活用できる.
これによると,ladies' wear のヒットは2,780,000件,women's wear のヒットは1,520,000件だった.前者のほうが,およそ倍近くの頻度を誇るようだ.およその見当付けとして活用したい.
[2009-08-26-1]で octopus の複数形は何かという話題を扱ったが,今回は rhinoceros /raɪnˈɑsərəs/ 「犀」の複数形は何かという問題に分け入りたい.
この語はギリシャ語にさかのぼり,rhīno- "nose" + -kerōs "horned" の複合語である.英語には1300年頃に借用された.
この語は,私が知っている英単語のなかで,取り得る複数形態の種類が最も多い語である.まずは OED で調べてみると,8種類の複数形があり得ると分かる.
rhinoceros, rhinocerons, rhinocerontes, rhinoceroes, rhinocero's, rhinoceri, rhinoceroses, rhinocerotes
とてつもない語なので,Jespersen の文法などでも取りあげられているし,『英語青年』にも記事がある.これには,さすがに犀もびっくりしていることだろう.
須貝氏の記事によれば,1905年に Sir Charles Eliot なる人物がこの問題に頭を悩ませていたという記録がある.rhinocerotes は衒学的であり,かといって rhinoceroses は口調が良くない.口語での省略形の rhinos では威厳がなく,単複同形の rhinoceros では問題を回避しているに過ぎないとも言う.
また,1938年には Julian Huxley なる生物学者が,rhinoceri は誤用であり,rhinoceroses がもっとも抵抗が少ないだろうが,それですら衒学的な響きを禁じ得ないとも述べている.結論としては rhinos を正規の複数形とするよう提案している.
この二人の記録と洞察を忠実に受け入れて考えてみよう.1905年の時点で rhinocerotes にはすでに衒学的な響きがあったということだが,「規則複数」の rhinoceroses には特に衒学的な響きがあったとは触れられていない.だが,1938年には rhinoceroses ですら衒学的になっていたということが述べられている.だからこそ,rhinos を提案したわけである.
とすると,1938年までの推移の順序は以下のように推論できるのではないか.まず,rhinocerotes を含めた多くの「不規則複数」が20世紀初頭にはすでに衒学的だった.そこで,「規則複数」たる rhinoceroses がより一般的になりかけた.だが,口調上の理由でこれも最終的には好まれず,やや口語ぽい響きが気にはなるものの,省略形に規則的な -s を付け足した rhinos が一般化し出した.
須貝氏のいうように,この30年余の期間における「犀」の複数形の推移は,Jespersen のいう simplification と monosyllabism という英語の通時的傾向を表す好例のように思われる( rhinos の場合,厳密には monosyllabism への変化とはいえないが,音節数の減少であることは確かである).まず不規則を規則化し,それでも飽き足りずに切り株 ( clipping ) にした.
さて,現在に話しを移そう.須貝氏の記事は1938年のものであり,それから現在までに「犀」の複数形はどのように変化したか.BNC ( The British National Corpus ) の単純検索によると,「不規則複数」のヒットは皆無だった(タグ付き検索ではないため,単複同形の rhinoceros の複数形としてのヒット数については未確認).規則形については,ヒット数は以下の通り.
rhinoceroses | 13 |
rhinos | 100 |
octopus の複数形は何か.手持ちの辞書を引き比べてもらうとわかるが,すべての辞書で規則的な octopuses が挙がっていることだろう.特に記述のない辞書では octopuses を当然とみなしての省略に違いない.
だが,大きめの辞書や古めの辞書を引くと,octopodes なる複数形が併記されている.例えば OED では,octopodes /ɒkˈtəʊpədi:z/ が先に挙がっており,その後に octopuses が追記されている.
Web3 ( Webster's Third New International Unabridged Dictionary ) にいたっては,第三の複数形として octopi /ˈɑktəˌpaɪ/ が挙げられている.
複数形態に関するこの複雑な状況は,この単語がギリシャ語からネオ・ラテン語を経て,18世紀に英語へ借用されてきたという経緯による.ギリシャ語の屈折に従えば octopodes となり,ラテン語の屈折を適用すると octopi になる( see sg. alumnus -- pl. alumni ).ただし,ラテン語に準じた octopi は,COD11 ( The Concise Oxford English Dictionary 11th ed. ) によると誤用とされている.
ただ,この二種類の古典語に基づく不規則複数形は,現在では衒学的・専門的な響きが強すぎて普通には用いられないと考えてよい.このことは,多くの学習者英英辞典で octopuses のみが挙げられていることからもわかる.
BNC ( The British National Corpus )で調べてみるとヒット数は以下の通りだった.
octopuses | 29 |
octopi | 11 |
octopodes | 4 |
昨日の記事[2009-07-14-1]で,Verbix の古英語版の機能を紹介し,評価して終わったが,実は述べたかったことは別のことである.
動詞の不定詞形を入れると活用表が自動生成されるという発想は,標準語として形態論の規則が確立している現代語を念頭においた発想である.これは古英語や中英語などには,あまりなじまない発想である.確かに古英語にも Late West-Saxon という「標準語」が存在し,古英語の文法書では,通常この方言にもとづいた動詞の活用表が整理されている.だが,Late West-Saxon の「標準語」内ですら variation はありうるし,方言や時代が変われば活用の仕方も変わる.中英語にいたっては,古英語的な意味においてすら「標準語」が存在しないわけであり,Verbix の中英語版というのは果たしてどこの方言を標準とみなして活用表を生成しているのだろうか.
Verbix 的な発想からすると,方言や variation といった現象は,厄介な問題だろう.このような問題に対処するには,Verbix 的な発想ではなくコーパス検索的な発想が必要である.タグ付きコーパスというデータベースに対して,例えば「bēon の直説法一人称単数現在形を提示せよ」とクエリーを発行すると,コーパス中の無数の例文から該当する形態を探しだし,すべて提示してくれる.その検索結果は,おそらく Verbix 型のきれいに整理された表ではなく,変異形 ( variant ) の羅列になるだろう.古英語の初学者にはまったく役に立たないリストだろうが,研究者には貴重な材料だ.
英語史研究,ひいては言語研究における現在の潮流は,標準形を前提とする Verbix 的な発想ではなく,variation を許容するコーパス検索的な発想である.同じプログラミングをするなら,Verbix のようなプログラムよりも,コーパスを検索するプログラムを作るほうがタイムリーかもしれない.
とはいえ,Verbix それ自体は,学習・教育・研究の観点から,なかなかおもしろいツールだと思う.だが,個人的な研究上の都合でいうと,古英語や中英語の名詞の屈折表の自動生成ツールがあればいいのにな,と思う.誰か作ってくれないだろうか・・・.自分で作るしかないのだろうな・・・.
Powered by WinChalow1.0rc4 based on chalow