綴字の英米差の典型例の1つとされる colour vs color の問題については,本ブログで以下の記事などで取り上げてきた.
・ 「#3182. ARCHER で colour と color の通時的英米差を調査」 ([2018-01-12-1])
・ 「#3247. 講座「スペリングでたどる英語の歴史」の第5回「color か colour か? --- アメリカのスペリング」」 ([2018-03-18-1])
・ 「#4152. アメリカ英語の -our から -or へのシフト --- Webster の影響は限定的?」 ([2020-09-08-1])
・ 「#4161. アメリカ式 color はラテン語的,イギリス式 colour はフランス語的」 ([2020-09-17-1])
・ 「#4169. GloWbE --- Corpus of Global Web-Based English」 ([2020-09-25-1])
綴字に限らず英語における英米差の事例は多々あるが,歴史的にみると,これらの差異は,あるタイミングで突如として生じたというよりも,時間をかけて成立し,確立してきたというのが事実である.アメリカ英語的とされる color の綴字が定着するのにも,[2018-01-12-1], [2020-09-08-1] の記事でみたように,19世紀中の数十年という時間がかかっているし,イギリス英語的とされる colour にしても,後期近代英語期中にライバルの color を駆逐するには至っていない.後者の状況について,今回,1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパス CLMET3.0 を用いて調査してみた.
調査対象は,colo(u)r のみならず,これを語幹にもつ各種の接頭辞や接尾辞を付した語形で,bicolor, colorless, colouration, discoloured など様々な種類をも含む.以下,3区分した時代別の頻度数を示す.
Period (subcorpus size) | colour | color |
---|---|---|
1710--1780 (10,480,431 words) | 1,273 (88.28%) | 169 |
1780--1850 (11,285,587) | 1,650 (83.71%) | 321 |
1850--1920 (12,620,207) | 3,242 (94.11%) | 203 |
昨日の記事 ([2020-10-29-1]) に引き続き,コーパス周りの用語を解説する.
concordance とは,もともとは「用語索引」ほどを意味し,ある本に出てくる単語を1つ1つ取り出してアルファベット順にリスト化したものである.その本に例えば the という単語が何回出現したか,さらに具体的にどこに出現したがが分かるような作りになっていることもあり,文献学研究や言語研究では馴染みのツールだった.聖書のコンコーダンスやChaucer のコンコーダンスなどがよく知られている.
しかし,電子コーパスが普及してからは,concordance という用語は別の意味でも用いられるようになった.昨今の電子コーパスで何らかの語なり表現なりを検索式の形にして検索すると,その条件にあった形式を含む例文がコーパス全体から収集され,ずらっと画面上に提示される.この全体が,その形式の concordance ということになる.そして,例文を含む個々の行のことを concordance line と呼ぶ.たとえていえば,ある単語を Google 検索して1万件ヒットしたという場合,その1万件全体が concordance ということになり,その1件1件が concordance line ということになる.
たいていのコーパス検索では,注目している形式の前後にどのような語が共起しているかを知りたいことが多いので,注目する形式が各 concordance line の中央に位置するように表示されると都合がよい.前後の文脈 (context) も合わせてその形式の用例を確認できることから,この表示法はコーパス研究ではある種のデフォルトといってよく,KWIC (= Key Word in Context) という名前すらついている.
昨日の記事で取り上げたが,BNCweb で "{love/V}" として検索してみると,14,195行もの concordance lines が得られる.その先頭の10行ほどを KWIC で表示すると,次のようになる.読みやすいし分析しやすい表示法であることがわかるだろう.
このように電子コーパスでは,ある形式の concordance が容易に得られる.もちろん concordance を産出するプログラムが背後で動いてくれているおかげであり,そのようなプログラムやアプリケーションを concordancer と呼んでいる.
先日,大学の授業でコーパスセミナーを開催した.BNCweb, COCA, COHA, EEBO corpus などの代表的な共時的・通時的英語コーパスに初めて触れる学部生に,使用経験者である大学院生が講師としてコーパス利用のいろはを指南するという Zoom によるオンライン企画である.
一見,コーパス利用というのは初心者にはハードルが高いと思われがちが,適切な導入があれば,複雑な検索や応用的な利用法は別にしても,十分にその日から便利に使いこなすことができる.
しかし,意外と落とし穴となり得るのは,コーパス周りの用語 (terminology) かもしれない.例えば「love を動詞で POS 指定して lemma 検索をし,その concordance line を KWIC で表示させ,前後数語のフレームで collocation を取ってから log-likelihood を出しておいてね.必要に応じて noise をマニュアルで除去しておいてよ.」などという指示を,初心者の誰が理解できようか! ということで,コーパス周りの術語(というよりもジャーゴン)を少しずつ解説してきたい.
今回は lemma (レンマ,レマ)について.平たくいえば,辞書を念頭においた上でその「見出し語」だと思えばよい.動詞 love を例に取れば,実際の英文のなかでは,不定詞・現在形・命令形など love という裸の形態で生起することもあれば,3単現の loves として出現することもあるし,過去(分詞)形の loved や現在分詞・動名詞形の loving で現われることもあるだろう(「崩れた」lovin' 等として起こるかもしれない).love のこれらの諸形態は,確かに互いに少しずつ異なっているが,各々が異なる単語というわけではない.あくまで代表的・抽象的な love という動詞の,具体的な変化形にすぎないのである.このような代表的・抽象的な存在を lemma と呼んでいる.I love you. のように love という形態で出てきたとしても,これは love という lemma の,直説法1人称単数現在形の具体的な現われとしての love である.両者はたまたま形態的に一致しているけれども,あくまで前者は抽象的な love,後者は具体的な love として概念上は区別する必要がある.
別の角度からみれば,私たちが英単語学習の際に習得する主たるものは,個々の見出し形ともいえる lemma と,その具体的な諸変化形ということになる.これらのワンセットが内部で適切にヒモづけられ,頭の中で整理されていれば,その単語に関して習得が完了していることになる.このワンセットとそれにつけられた名前こそが lemma なのである.
「コーパスでlove を動詞で lemma 検索してね」というのは「動詞として用いられている love, loves, loved, loving などの例をすべて拾ってきてね」と言い換えられる.例えば BNCweb の場合には,検索式を "{love/V}" のように指定することで上記の lemma 検索が可能である.
先月教えてもらったばかりの「#4169. GloWbE --- Corpus of Global Web-Based English」 ([2020-09-25-1]) を用いて,しかもつい数日前に院生の指摘からインスピレーションを受けた標題の話題について調べてみた.その意味では完全に人頼みの記事です(←ありがとうございます).
標準英語では discuss は他動詞であり,前置詞を伴わずに直後に目的語を要求する.日本語母語話者としては,訳語がたいてい「?について論じる」となるので,about 辺りの前置詞を介在させたくなり,discuss about としてしまうことがあるのだが,これは規範文法的には誤用とされる.しかし,実際には discuss about も耳にしたり目にする機会がある.インド英語などで広く行なわれる表現であるということは聞いたことがあった.
そこで,現代の世界英語変種を比較できるコーパス GloWbE (= Corpus of Global Web-Based English) の出番である.難しいことはない,検索欄に "discuss about" を入力するだけである.この超簡単な検索だけで,超おもしろい結果を味わうことができる.自動的に出力されたチャートは次の通り.
横方向のほぼ中央(ちょっとだけ左寄り)の一群で棒グラフが相対的に高い値を示している.この近辺はインド(亜大陸)系英語の数値である.統計学的な検定をかけるまでもなく,明らかに左右両端の英語変種とは異なる分布を示す.
バングラデシュやインド等の南アジア圏を相手とする21世紀の商談においては,accommodation 理論に従い,われわれ極東アジア人も "Shall we discuss about our business?" と始めたほうがビジネスの成功率は高そうだ.
コーパス利用はとかく苦手意識により敬遠されることが多いのだが,これくらいのところから始めてもよいのでは.
「#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも)」 ([2020-09-22-1]) で触れた World Englishes のコーパス GloWbE (= Corpus of Global Web-Based English) を少し試してみた.(先日の駒場英語史研究会にて本コーパスを導入していただきました菊地翔太先生(明海大学)には,改めて感謝します.)
このコーパスは20カ国からの英語変種を総合した19億語からなる巨大コーパスで,変種間の比較が容易に行なえる仕様となっている.変種間比較についていえば,私はこれまで「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1]),「#1743. ICE Frequency Comparer」 ([2014-02-03-1]) などで取り上げたように ICE (International Corpus of English) しか知らなかったのだが,コーパスの世界は急速に進化しているようだ.GloWbE のインターフェースは,COCA (Corpus of Contemporary American English) や COHA (Corpus of Historical American English) などと共通なので,そちらに慣れたユーザーであれば,とっついやすいはずだ.
きわめて単純な使い方ではあるが,GloWbE の最大の売りである変種間比較を color と colour のスペリングに関して行なってみた.一般に color はアメリカ式,colour はイギリス式のスペリングといわれるが,この2変種間の比較に満足せず,20変種間で比べてみようという試みだ.インターフェースより単純に Chart 出力機能を選択し,各々のスペリングで検索し,返された図表を眺めるだけなのだが,それだけでも十分におもしろい.まずは,アメリカ式 color の図表から.
次に,イギリス式 colour の図表を挙げよう.
横方向の中央辺りに東南アジアの国々が集まっており,歴史的にはイギリス式が多いと予想される地域なわけだが,実はアメリカ式スペリングのほうが優勢のようだ.近年の英語のアメリカ化 (americanisation) の影響が疑われよう.一方,左側には(米国を除く)アングロサクソン系諸国が集まっており,そこでは予想通りにイギリス式が優勢である.右側に集まっているアフリカ諸国では,両スペリングの差はさほど大きくない.
color vs colour の問題を米英間の問題として論じる時代は過ぎ去りつつある.凄いツールが出てきたものである.
一昨日の9月20日(日),2020年度駒場英語史研究会にて,特別企画「電子コーパスやオンライン・リソースを使った英語史研究 ― その実践と可能性」に発表者として参加しました.Zoom でのオンライン大会でしたが,円滑に会が進行しました.(企画のご提案から会の主催までお世話になりました寺澤盾先生(東京大学),発表者の家入葉子先生(京都大学)と菊地翔太先生(明海大学),および参加者すべての方々には,貴重な機会とインスピレーションをいただきました.お礼申し上げます.)
トップバッターの私自身の発表では「LAEME & LALME を用いた英語史研究入門」と題して,中英語を代表する2つの姉妹コーパス LAEME と eLALME を紹介しました.続いて,家入先生の「データベースの利用によるコーパス言語学 --- Early English Books Onlineを中心に」と題する発表では,初期近代英語期を代表するコーパス EEBO corpus が紹介されました.最後に,菊地先生による「Corpus of Global Web-Based English(GloWbE)を用いた World Englishes 研究の可能性」という発表により,21世紀の World Englishes 時代を象徴する GloWbE が導入されました(←私にとって未知だったので驚きの連続でした).
各々の発表はコーパスの紹介とデモにとどまらず,その可能性や「利用上の注意」にまで触れた内容であり,発表後のディスカッションタイムでは,英語史研究においてコーパス利用はどのような意義をもつのかという方法論上の肝心な議論にまで踏み込めたように思います(時間が許せば,もっと議論したいところでした!).
中英語,近代英語,21世紀英語という3つの異なる時代の英語を対象としたコーパスを並べてみたわけですが,研究会が終わってからいろいろと考えが浮かんできました.同じ英語のコーパスとはいえ,対象とする時代が異なるだけで,なぜ検索の仕方も検索の結果もインターフェースもここまで異なるのだろうかということです.その答えは「各々の時代における英語の(社会)言語学的事情が大きく異なっているから,それと連動して(現代の研究者が編纂する)コーパスのあり方も大きく異ならざるを得ない」ということではないかと思い至りました.
逆からみれば,各時代のコーパスがどのように編纂され,どのように使用されているかを観察することにより,その時代の英語の(社会)言語学的事情が浮き彫りになってくるのではないか,ということです.そうして時代ごとの特徴がきれいに浮き彫りになってくるようであれば,それを並べてみれば,ある種の英語史記述となるにちがいない.換言すれば,各時代のコーパス検索に伴うクセや限界みたいなものを指摘していけば,その時代の背後にある言語事情が透けて見えてくるのではないかと.ここから「コーパスのあり方からみる英語史」のような試みが可能となってきそうです.
時代順にみていきます.中英語期は標準形が不在なので,ある単語を検索しようとしても,そもそもどの綴字で検索すればよいのかという出発点からして問題となります (cf. 「#1450. 中英語の綴字の多様性はやはり不便である」 ([2013-04-16-1])).実際,中英語辞書 MED である単語を引くにしても,そこそこ苦労することがあります.LAEME や LALME でも検索インターフェースには様々な工夫はなされていますが,やはり事前の知識や見当づけが必要ですので,検索が簡単であるとは口が裂けても言えません.現実に標準形がないわけですから,致し方がありません.
次に初期近代英語期ですが,EEBO は検索インターフェースが格段にとっつきやすく,一見すると検索そのものに問題があるようには見えません.しかし,英語史的にはあくまで標準化を模索している時代にとどまり,標準化が達成された現代とは事情が異なります.つまり,標準形とおぼしきものを検索欄に入れてクリックしたとしても,実は拾い漏れが多く生じてしまうのです.公式には実装されているとされる lemma 検索も,実際には思うほど精度は高くありません.落とし穴がいっぱいです.
最後に,21世紀英語の諸変種を対象とする GloWbE については,(ポスト)現代英語が相手ですから,当然ながら標準形を入力して検索できます.しかし,BNC や COCA のような「普通の」コーパスと異なるのは,返される検索結果が諸変種に由来する多様な例だということです.
大雑把にまとめると次のようになります.
代表コーパス | 検索法などに反映される「コーパスのあり方」 | (社会)言語学的事情 | |
---|---|---|---|
中英語 | LAEME, LALME | 検索法が難しい | 標準形がない |
初期近代英語 | EEBO | 検索法が一見すると易しい | 標準形が中途半端にしかない |
21世紀英語 | GloWbE | 検索法が易しい | 標準形はあるが,その機能は変種によって多様 |
昨日の記事「#4076. Dictionary of Old English と Dictionary of Old English Corpus」 ([2020-06-24-1]) に引き続き,英語史研究にはなくてはならないツールについて.中英語研究といえば,何をおいても MED を挙げなければならない (Kurath, Hans, Sherman M. Kuhn, John Reidy, and Robert E. Lewis. Middle English Dictionary. Ann Arbor: U of Michigan P, 1952--2001. Available online at http://quod.lib.umich.edu/m/med/) .昨日の DOE と DOEC の関係と同様に,MED にも関連する MEC というコーパスがあり,こちらもたいへん有用である (MEC = McSparran, Frances, ed. Middle English Compendium. Ann Arbor: U of Michigan P, 2006. Available online at http://quod.lib.umich.edu/m/mec/) .
MED は1952年に最初の小冊が出版され,1991年に最後の小冊が出版されて完成した.その後,2000年にオンライン版の Middle English Compendium に組み込まれ,使い勝手が大幅に向上した.細かな検索ができることはもちろん,hyperbibliography の充実振りが嬉しい.56,000件ほどの見出し語を誇る中英語最大の辞書であることはいうにおよばず,中英語研究史上の最大の成果物といえる.2018年にはほぼ20年振りの改訂版が公開され,現在も中英語研究の第一線を走っている.
MED には,使用に当たって知っておくべきいくつかの特徴がある.Durkin (1150--52) に拠って指摘しておこう.まず,MED は,語義に多くの注意を払う辞書だということだ.OED ではある語の語形を大きな基準として記述を仕分けているが,MED のエントリーの最大の構成原理は語義である.ある意味では語形の違いなどは方言差と割り切って,LALME や LAEME に委ねているといった風である.しかし,この語義優先という特徴により,語学的な研究のみならず,文化的,歴史的な研究にも資するツールとなっているという側面がある.
語義の重視と関連して,MED は該当語の固有名詞としての使用にも意を払っている.たいてい最後の語義として言及されるが,これは固有名詞研究や歴史研究に有用である.多言語テキストに記されている英語の地名なども拾い上げられており,他言語文献や言語接触の研究にも資する情報である.
MED で惜しむらく点は,語源記述が少ないことだ.直前の古英語形や借用語であればソース言語での形態などを挙げているにとどまり,深みがない.
最後に指摘しておくべきは,例文に付されている年代について,(1) 写本(証拠)そのものの年代と,(2) テキストが作成されたとおぼしき年代とが,分けて記されている点である(後者はカッコでくくられている).両年代を念頭におけば,例えば異写本間での語形の比較に際して貴重な判断材料となるだろう.この重要な情報は,diplomatic な読みを追求する文献学的な関心に答えてくれる可能性を秘めている.
関連して「#4016. 中英語研究のための基本的なオンライン・リソース」 ([2020-04-25-1]) も参照.
・ Durkin, Philip. "Resources: Lexicographic Resources." Chapter 73 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1149--63.
標題の辞書は,目下進行中の古英語辞書編纂プロジェクトの所産である(cf. 「#3006. 古英語の辞書」 ([2017-07-20-1])).進行中なので未完成ということになるが,現在 The Dictionary of Old English (DOE) のサイト より,Dictionary of Old English: A to I online, ed. Angus Cameron, Ashley Crandell Amos, Antonette diPaolo Healey et al. (Toronto: Dictionary of Old English Project, 2018). の項目をオンラインで閲覧・参照できる(限定利用できる無料版あり).
この DOE と連動する形で古英語コーパス (DOEC) の編纂も同時に進行しており,Dictionary of Old English Web Corpus よりオンラインでアクセスできるようになっている(限定利用できる無料版あり).現存する古英語の文献資料は語数にして約300万語とされ,網羅的な目録を編纂し,網羅的な検索ツールを作ることは可能な範囲である.DOEC は,そのような目的の下,DOE 編纂プロジェクトの一環として,まず高頻度語を収録したマイクロフィッシュ版が1980年と1985年に公開された.その後,1997年にオンライン版が公開される一方,2005年には A--F までの項目を収録した CD-ROM 版も世に出た.その後も現在に至るまで,編纂者たちの地道な努力によって公開項目が増してきている.
DOE の各語のエントリーでは,文証されるスペリング,語義や用例,(翻訳テキストの場合)対応するラテン単語などの情報が得られ,OED への参照を含めた参考資料へのアクセスも提供されている.
この世に完璧なツールはないように,DOE(C) にも使用に際して注意すべき点はある.古英語テキストに複数のバージョンがある場合,文献学的には各々の単語の variants の情報が得られることが望ましいが,DOE(C) ではテキストによってその収録幅に揺れがある.また,語としての variants はおよそ拾い上げられているとしても,統語的,形態的,音韻的な意義をもつ variants にはさほど意が払われていない.さらに,書記上の省略が暗黙のうちに展開されているという点にも注意が必要である.語源情報が与えられていない点も,辞書として残念ではある.
それでも,古英語研究における DOE の重要性と期待の大きさは計りしれない.OED にも古英語単語は収録されているが,あくまで部分的であり,1150年を超えて生き延びた古英語単語に限定されている.編纂プロジェクトのインスピレーション自体は,OED の初版が完成されつつあった100年ほど前の Craigie のアイディアに由来するというから,実に息の長いプロジェクトなのである.応援していきましょう.
DOEC については,CoRD (Corpus Resource Database) よりこちらの情報もどうぞ.
・ Lowe, Kathryn A. "Resources: Early Textual Resources." Chapter 71 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1119--31.
・ Traxel, Oliver M. "Resources: Electronic/Online Resources." Chapter 72 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1131--48.
・ Durkin, Philip. "Resources: Lexicographic Resources." Chapter 73 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1149--63.
標記について,Smith (47--48) の参考文献表よりいくつか抜き出し,整理し,リンクを張ってみた(現時点で生きたリンクであることを確認済み).本ブログでは,その他各種のオンライン・リソースも紹介してきたが,まとめきれないので link を参照.とりわけ Chaucer 関連のリンクは「#290. Chaucer に関する Web resources」 ([2010-02-11-1]) をどうぞ.
標題については,以下の記事を含む様々な機会に取り上げてきた.
・ 「#307. コーパス利用の注意点」 ([2010-02-28-1])
・ 「#367. コーパス利用の注意点 (2)」 ([2010-04-29-1])
・ 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])
・ 「#1280. コーパスの代表性」 ([2012-10-28-1])
・ 「#2584. 歴史英語コーパスの代表性」 ([2016-05-24-1])
・ 「#2779. コーパスは英語史研究に使えるけれども」 ([2016-12-05-1])
コーパスを利用した英語(史)研究はますます盛んになってきており,学界でも当然視されるようになったが,だからこそ利用にあたって注意点を確認しておくことは大事である.主旨はおよそ繰り返しとなるが,今回は英語歴史統語論の概説書を著わした Fischer et al. (14) より,4点を指摘しよう.
(i) there can be tension between what is easily retrieved through corpus searches and what is thought to be linguistically most significant; a historical syntactic case in point involves patterns of co-reference of noun phrases . . . ; these have been largely neglected because they involve information status, which is currently not part of any standard annotation scheme;
(ii) when a data search yields large numbers of hits, there may be a temptation to interpret corpus results merely as numbers, which is a severely reductive approach; in cases of grammaticalization, for example, changes in frequency may act as tell-tale signs . . . , but an exclusive quantitative focus will mean that one is ignoring the changes in meaning and context that form the core of the process;
(iii) the substantial amounts of data that can be collected from a corpus can also blind researchers to the dangers of making generalizations about the language as a whole on the basis of a partial view of it; this is a particularly relevant problem for diachronic research, because we only have very incomplete evidence for the state of the language in any historical period . . . ;
(iv) trying to achieve greater representativness by collecting and comparing data from various corpora can also be tricky: principles guiding text inclusion vary widely, there is little standardization in user interfaces, and they can require a significant time investment to learn to operate.
この4点を私の言葉で超訳すれば,次のようになる.
(i) コーパスで遂行しやすい問題が,言語学的には必ずしも意味のある問題ではないかもしれない点に注意すべし
(ii) 量的な観点を重視する研究には役立ちそうだが,質的な観点が見過ごされてしまう危険性がある
(iii) 巨大なコーパスであったとしても,完全に representative であるわけではない(いわゆる歴史言語学における "bad-data problem")
(iv) コーパス編纂者の前提やインターフェース作成者の意図をつかんだ上で,使用法を心して習熟すべし
・ Fischer, Olga, Hendrik De Smet, and Wim van der Wurff. A Brief History of English Syntax. Cambridge: CUP, 2017.
英語は同じローマン・アルファベットを用いる文字圏のなかでも,句読法 (punctuation) に関しては比較的単純な部類に入る.現代的な句読記号が出そろったのは500年前くらいであり,その数も多くない (cf. 「#575. 現代的な punctuation の歴史は500年ほど」 ([2010-11-23-1])) .また,文字そのものが26文字しかない上に,フランス語やドイツ語などにみられる,文字の周辺に付す特殊な発音区別符(号) (diacritical mark; cf. 「#870. diacritical mark」 ([2011-09-14-1])) も原則として用いられない.さらに,現代の印刷文化では句読記号が控えめに使われるようになってきているとも言われる.一方,net_speak などでは,新たな句読記号の使用法が生み出されていることも確かであり,句読法の発展が止まってしまったわけではないようだ (cf. 「#808. smileys or emoticons」 ([2011-07-14-1])) .
さて,約100万語のアメリカ英語の書き言葉コーパス Brown Corpus を用いた調査によると,英語の主要な句読記号の使用頻度 (%) は次の通りだという (Cook 92) .
Commas | 47 |
Full stops | 45 |
Dashes | 2 |
Parentheses | 2 |
Semi-colons | 2 |
Question marks | 1 |
Colons | 1 |
Exclamation marks | 1 |
以前「#833. 語彙力診断テスト」 ([2011-08-08-1]) を紹介したが,今回は中田(著)『英単語学習の科学』 (12) で取り上げられていた別の語彙診断力テスト Test Your Vocabulary Online With VocabularySize.com を紹介しよう.140問の4択問題をクリックしながら解き進めていくことで,word family ベースでの語彙力が判定できる.母語を日本語に設定して診断する.また,英語での出題のみとなるが,同じ語彙セットを用いた100問からなる語彙診断テストの改訂版もある.
関連して中田 (13) では,英単語の頻度レベルを調べるツールとして,Compleat Lexical Tutor の VocabProfilers が便利だとも紹介されている.BNC や COCA などを利用して,入力した単語(群)の頻度を1000語レベル,2000語レベルなどと千語単位で教えてくれる.ある程度の長さの英文を放り込むと,各単語を語彙レベルごとに色づけしてくれたり,分布の統計を返してくれる優れものだ.ただし,インターフェースがややゴチャゴチャしていて分かりにくい.
日本人の英語学習者にとっては,「標準語彙水準 SVL 12000」などに基づいて英文の語彙レベルを判定してくれる Word Level Checker も便利である.単語ごとにレベルを返してくれるわけではなく,入力した英文内の語彙レベルとその分布を返してくれるというツールである.
英文を入力すると,単語の語注をアルファベット順に自動作成してくれる Apps 4 EFL の Text to Flash というツールも便利だ.さらにこれの応用版で,単語をクリックすると意味がポップアップ表示される英文読解ページを簡単に作れる Pop Translation なるツールもある.世の中,便利になったものだなあ.
・ 中田 達也 『英単語学習の科学』 研究社,2019年.
たいそうな題名の記事ですが,これまでにコーパス利用について書いてきたブログ記事その他へのリンク集にすぎません.
まず英語学でコーパスを利用しようと思ったら,様々な参考図書があるものの,まずは研究社のウェブサイトより「リレー連載 実践で学ぶ コーパス活用術」の連載記事(全37本)に目を通すのがよいと思います.筆者の堀田も影は薄いですが寄稿しています (cf. 「#2186. 研究社Webマガジンの記事「コーパスで探る英語の英米差 ―― 基礎編 ――」」 ([2015-04-22-1]) と「#2216. 研究社Webマガジンの記事「コーパスで探る英語の英米差 ―― 実践編」 ([2015-05-22-1])).
本ブログからは corpus の各記事をご覧いただきたいのですが,その中から特に重要な記事を選んでおきます.
・ 「#568. コーパスの定義と英語コーパス入門」 ([2010-11-16-1])
・ 「#307. コーパス利用の注意点」 ([2010-02-28-1])
・ 「#367. コーパス利用の注意点 (2)」 ([2010-04-29-1])
・ 「#2779. コーパスは英語史研究に使えるけれども」 ([2016-12-05-1])
・ 「#363. 英語コーパス発展の3軸」 ([2010-04-25-1])
・ 「#368. コーパスは研究の可能性を広げた」 ([2010-04-30-1])
・ 「#1165. 英国でコーパス研究が盛んになった背景」 ([2012-07-05-1])
・ 「#1280. コーパスの代表性」 ([2012-10-28-1])
・ 「#2584. 歴史英語コーパスの代表性」 ([2016-05-24-1])
・ 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])
・ 「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1])
・ 「#271. 語彙研究ツールとしての辞書とコーパス」 ([2010-01-23-1])
歴史英語コーパスのハブというべきサイトといえば,「#506. CoRD --- 英語歴史コーパスの情報センター」 ([2010-09-15-1]) を挙げないわけにはいきません.現時点で最も有用な歴史英語の情報集積サイトです.
BNC, COCA, ICE, Brown Family, COHA, HC (= Helsinki Corpus), LAEME, EEBO, CLMET など個別の(歴史)コーパスについては,それぞれのタグをつけた bnc, coca, ice, brown, coha, hc, laeme, eebo, clmet もご参照ください.
その他,リンク集としては「コーパスで探る英語の英米差 ―― 基礎編 ――」」 ([2015-04-22-1]) の記事も参照.
「#2000. 歴史語用論の分類と課題」 ([2014-10-18-1]) に引き続いて.歴史語用論 (historical_pragmatics) は,ここ数年の間に国際的にも国内的にも知名度をあげてきた.国内では私も HiSoPra* (= HIstorical SOciolinguistics and PRAgmatics) 研究会に参加させてもらっているし,周囲の学生や研究者をみてみても確実に関心が広まってきているのを感じる.
歴史語用論の扱う領域は広く,従来の主流派言語学では取りこぼされてきた「雑多な」話題をカバーすることが多い.歴史語用論の研究領域を整理しようとする試みは,前の記事 ([2014-10-18-1]) でも紹介したように,いくつかある.今回は,Arnovick (96) が英語歴史語用論を念頭に置きつつ挙げている3分法を紹介しよう.
Pragmatic forms: discourse markers, terms of address, connectives, and interjections;
Interactional pragmatics: speech acts, politeness, impoliteness;
Discursive domains: scientific and medical discourse, journalism, religious and political discourse, courtroom discourse, literary discourse, public and private correspondence.
Arnovick の同じ論文では,英語歴史語用論とコーパス利用の親和性についても説かれている.導入的な文章となっているので,英語歴史語用論に初めて関心をもったら,ぜひ読んでもらいたい.
・ Arnovick, Leslie K. "Historical Pragmatics in the Teaching of the History of English." Chapter 9 of Approaches to Teaching the History of the English Language: Pedagogy in Practice. Introduction. Ed. Mary Heyes and Allison Burkette. Oxford: OUP, 2017. 93--105.
-o で終わる加算名詞から規則的な複数形を作る場合に,綴字上 -s のみを付す pianos タイプと,-es とする potatoes タイプが区別される.
LGSWE (285) は,LGSWE Corpus によって両タイプの分布を調査した.両語尾の間で揺れを示すものもあるので,80%以上の生起率を基準にして,いずれかのタイプかに割り振ったリストである.別途『徹底例解ロイヤル英文法』から補った類例( * を付した)も含めつつ,以下に列挙しよう.
・ pianos タイプ: *autos, avocados, casinos, commandos, concertos, discos, *dynamos, embryos, Eskimos, *ghettos, jumbos, kilos, memos, pesos, photos, pianos, portfolios, radios, scenarios, shampoos, solos, stereos, studios, taboos, tacos, tattoos, *torsos, trios, twos, videos, weirdos, zeros, zoos
・ potatoes タイプ: buffaloes, cargoes, echoes, heroes, mangoes, mosquitoes, mottoes, negroes, potatoes, tomatoes, tornadoes, torpedoes, vetoes, volcanoes
一般論をいえば,-s のみを付す pianos タイプが原則である.特に,略語に由来する -o 語や最近の新語として加わった -o 語は -s で複数形を作るのがデフォルトである.また,語末が「母音字+ o」となる場合にも,綴字配列の都合と思われるが,-s のみを付けるのが規則である (e.g. bamboos, cameos, cuckoos, curios, folios, radios, studios, trios) .
一方,potatoes タイプはどちらかといえば「例外」の側になるわけだが,このタイプには英語化した度合いの比較的強い,日常語が含まれるので注意を要する.
また,-s と -es の間で揺れを示す名詞も少なくない.『徹底例解ロイヤル英文法』では,例として banjo(e)s, buffalo(e)s, cargo(e)s, fresco(e)s, ghetto(e)s, grotto(e)s, halo(e)s, mango(e)s, manifesto(e)s, mosquito(e)s, motto(e)s, tornado(e)s, volcano(e)s, zero(e)s が挙げられている.先に挙げたリストと重複する単語もあることから,-o 語の複数形をもっと細かく調査すれば,実際にはさらに広範な揺れが観察されるのかもしれない.
なお,この話題と関連して,単数形 potato の綴りを potatoe と誤って覚えていたアメリカ元副大統領 Dan Quayle のスキャンダル,通称「potato 事件」について,Horobin (2--3) あるいはその拙訳 (16--17) を参照.1文字のスペリング・ミス(だけではないが)で,政治生命が断たれることもあるという驚くべき事例である.pianos か potatoes かという問題は決して侮れない.
・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
・ 綿貫 陽(改訂・著);宮川幸久, 須貝猛敏, 高松尚弘(共著) 『徹底例解ロイヤル英文法』 旺文社,2000年.
・ Horobin, Simon. Does Spelling Matter? Oxford: OUP, 2013.
・ サイモン・ホロビン(著),堀田 隆一(訳) 『スペリングの英語史』 早川書房,2017年.
現在取りかかっている研究テーマの調査のために,CoRD ( Corpus Resource Database ) の Parsed Corpus of Early English Correspondence (PCEEC) より情報を得て,The Oxford Text Archive (OTA) 経由で PCEEC を入手した.統語タグ付きコーパスとして提供されているものだが,複雑な統語環境の条件によるサーチは必要ないので,附属のプレーンテキストか品詞タグ付きテキストからなるコーパスで今回は十分に用を足しそうだ.しかし,必要とあらば検索ツール Corpus Search 2 を用いて凝ったサーチもできる.
このコーパスの元となっている Corpus of Early English Correspondence (CEEC) は,1996--98年にヘルシンキ大学にて編纂作業が進められたコーパスで,1410?--1681年の書簡テキストが送り手の情報とともに集積されている.96の書簡集からなり,書き手は778人,書簡は6039通,そして総語数が270万語に及ぶコーパスである.編纂の狙いは,社会言語学的な手法を歴史英語へ適用することにあった.
この CEEC からいくつかの姉妹コーパスが派生しており,その1つが統語タグ付きの PCEEC である.CEEC 自体は一般公開されておらず,一般に入手できるのは PCEEC と Corpus of Early English Correspondence Sampler (CEECS) のみである.PCEEC は,CEEC から著作権の関係で1/4ほどを取り除いたコーパスとなっている.
その他の(未公開)派生コーパスである,Corpus of Early English Correspondence Supplement (CEECSU) と Corpus of Early English Correspondence Extension (CEECE) も合わせて,量的な情報を一覧しておこう.
Corpus | time covered | words | letters | writers | collections | published |
---|---|---|---|---|---|---|
CEEC | 1410?--1681 | 2.7 million | 6039 | 778 | 96 | ---- |
CEECS | 1418--1680 | 0.45 million | 1147 | 194 | 23 | 1998 |
PCEEC | 1410?--1681 | 2.2 million | 4979 | 657 | 84 | 2006 |
CEECE | 1681--1800 | c. 2.2 million | c. 4900 | > 300 | 74 | ---- |
CEECSU | 1402--1663 | c. 0.44 million | c. 900 | > 100 | 20 | ---- |
Period | Date | Word count | Token count |
---|---|---|---|
M3 | 1350--1419 | 19,505 | 684 |
M4 | 1420--1499 | 364,317 | 20,039 |
E1 | 1500--1569 | 309,220 | 11,056 |
E2 | 1570--1639 | 910,675 | 44,067 |
E3 | 1640--1710 | 555,415 | 29,185 |
Is it 'Dreamed' or 'Dreamt'? と題する Merriam-Webster の語法記事を読んだ.dream の過去形(および過去分詞形)が dreamt から dreamed へと規則化してきた近現史に焦点が当てられている.
『メリアム・ウェブスター英英辞典』を含むいくつかの辞書では,dreamed の綴字のもとに /ˈdrɛmt, ˈdriːmd/ の2つの発音が記載されている.これは,動詞 dream の過去形・過去分詞形として dreamt/dreamed の両形態が交替可能であることを反映した併用・混用といえるだろうか.さすがに dreamt と綴って /ˈdriːmd/ と発音する旨の記述はない.(dreamt の発音の短母音については,「#2290. 形容詞屈折と長母音の短化」 ([2015-08-04-1]) を参照.)
上の語法記事には,19世紀前半にはすでに dreamed が優勢となっていたとの記述があったので,これを確かめるべく後期近代英語コーパス CLMET3.0 で例文を集めてみた(検索結果のテキストファイルはこちら).頻度を集計した結果は次の通り.
Period (subcorpus size) | dreamt | dreamed |
---|---|---|
1710--1780 (10,480,431 words) | 55 | 54 |
1780--1850 (11,285,587) | 75 | 137 |
1850--1920 (12,620,207) | 71 | 242 |
英語史・英語文献学に携わる者にとって,標題は本質的な問題,もっといえば死活問題でもある.この問題について,児馬 (31) が古英語資料との関係でポイントを要領よくまとめている.
OE資料を使う際に,校訂の信頼性という問題は避けて通れない.歴史言語学で引用されているデータ(例文)の多くは写本研究,すなわち写本から校訂・編集を経て活字となった版 (edition) か,ないしは,特に最近はその版に基づいた電子コーパスに基づくことが多い.そうした文献学研究の多大な恩恵を受けて,歴史言語学研究が成り立っていることも忘れてはならないが,と同時に,校訂者 (editor) の介入がオリジナル写本を歪めることもありうるのである.一つの作品にいくつか複数の写本があって,異なる写本に基づいた複数の版が刊行されていることもあるので,その点は注意しなければならない.現代と同じように,構成素の切れ目をわかりやすくしたり,大・小文字の区別をする punctuation の明確な慣習はOE写本にはない.行の区切り,文単位の区切りなどが校訂者の判断でなされており,その判断は絶対ではないということを忘れてはならない.ここでは深入りしないが,それらの校訂本に基づいて作成された電子コーパスの信頼性もさらに問題となろう.少なくとも,歴史言語学で使用するデータに関しては,原典(本来は写本ということになるが,せいぜい校訂本)に当たることが不可欠である.
上で述べられていることは,古英語のみならず中英語にも,そしてある程度は近代英語以降の研究にも当てはまる.文献学における「証拠」を巡るメタな議論は非常に重要である.
関連して,「#681. 刊本でなく写本を参照すべき6つの理由」 ([2011-03-09-1]) ,「#682. ファクシミリでなく写本を参照すべき5つの理由」 ([2011-03-10-1]),「#2514. Chaucer と Gawain 詩人に対する現代校訂者のスタンスの違い」 ([2016-03-15-1]),「#1052. 英語史研究の対象となる資料 (2)」 ([2012-03-14-1]),「#2546. テキストの校訂に伴うジレンマ」 ([2016-04-16-1]) .
・ 児馬 修 「第2章 英語史概観」服部 義弘・児馬 修(編)『歴史言語学』朝倉日英対照言語学シリーズ[発展編]3 朝倉書店,2018年.22--46頁.
標題は「#3095. Your Grace, Your Highness, Your Majesty」 ([2017-10-17-1]) で取り上げた話題である.初期近代英語期のトピックなので,EEBO (Early English Books Online) で調査するのにふさわしいと思い,Early English Books Online corpus のインターフェースを用いて検索してみた.
検索欄には "your|his|her majesty|majestie|highness|grace" を入力し,検索結果として出力されたデータについて,所有代名詞の種類や異綴字は一緒くたに扱いつつ,GRACE 系,Highness 系,Majesty 系の3つに整理した.本来であれば実際の指示対象が君主か否かをコンコーダンスラインで逐一確認する必要があるのだが,今回はあくまで傾向を知るための粗い調査なので,あしからず.
1470s | 1480s | 1490s | 1500s | 1510s | 1520s | 1530s | 1540s | 1550s | 1560s | 1570s | 1580s | 1590s | 1600s | 1610s | 1620s | 1630s | 1640s | 1650s | 1660s | 1670s | 1680s | 1690s | Total | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
GRACE | 65 | 133 | 145 | 92 | 69 | 130 | 319 | 622 | 544 | 773 | 1169 | 2124 | 1174 | 1682 | 1664 | 1483 | 1790 | 2088 | 3222 | 2296 | 3200 | 4092 | 3216 | 32092 |
HIGHNESS | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 6 | 0 | 0 | 0 | 7 | 31 | 0 | 38 | 1922 | 1252 | 1328 | 2727 | 1360 | 8671 |
MAJESTY | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 18 | 21 | 88 | 142 | 592 | 1856 | 7919 | 7753 | 6102 | 5463 | 12735 | 9012 | 51701 |
Total | 65 | 133 | 145 | 92 | 69 | 130 | 319 | 622 | 544 | 773 | 1175 | 2142 | 1195 | 1770 | 1813 | 2106 | 3646 | 10045 | 12897 | 9650 | 9991 | 19554 | 13588 | 92464 |
初期近代英語期の膨大なテキストを収録した EEBO (Early English Books Online) について,「#3117. EEBO corpus がリリース」 ([2017-11-08-1]) で BYU 提供の EEBO 検索インターフェース Early English Books Online corpus を紹介した.
それとは別に,Early Modern Print: Text Mining Early Printed English というサイトのプロジェクトで,n-gram や KWIC などの検索インターフェースが提供されていることを知ったので紹介しておきたい.全体的なイントロは,こちらのページをどうぞ.個々の具体的なツールは,次のリンクからアクセスできる.
・ EEBO N-Gram Browser (説明はこちら)
・ EEBO-TCP Key Words in Context (説明はこちら)
・ EEBO-TCP and ESTC Text Counts
・ EEBO-TCP Words Per Year
また,University of Michigan の提供する Early English Books Online の各種サーチや Lancaster University による EEBO on CQPweb (V3) も同様に有用.
各種インターフェースのいずれを用いるか迷うところだ.
Powered by WinChalow1.0rc4 based on chalow