hellog〜英語史ブログ

#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも)[academic_conference][corpus][eebo][glowbe][laeme][lalme][historiography][standardisation]

2020-09-22

 一昨日の9月20日(日),2020年度駒場英語史研究会にて,特別企画「電子コーパスやオンライン・リソースを使った英語史研究 ― その実践と可能性」に発表者として参加しました.Zoom でのオンライン大会でしたが,円滑に会が進行しました.(企画のご提案から会の主催までお世話になりました寺澤盾先生(東京大学),発表者の家入葉子先生(京都大学)と菊地翔太先生(明海大学),および参加者すべての方々には,貴重な機会とインスピレーションをいただきました.お礼申し上げます.)
 トップバッターの私自身の発表では「LAEME & LALME を用いた英語史研究入門」と題して,中英語を代表する2つの姉妹コーパス LAEMEeLALME を紹介しました.続いて,家入先生の「データベースの利用によるコーパス言語学 --- Early English Books Online を中心に」と題する発表では,初期近代英語期を代表するコーパス EEBO corpus が紹介されました.最後に,菊地先生による「Corpus of Global Web-Based English(GloWbE)を用いた World Englishes 研究の可能性」という発表により,21世紀の World Englishes 時代を象徴する GloWbE が導入されました(←私にとって未知だったので驚きの連続でした).
 各々の発表はコーパスの紹介とデモにとどまらず,その可能性や「利用上の注意」にまで触れた内容であり,発表後のディスカッションタイムでは,英語史研究においてコーパス利用はどのような意義をもつのかという方法論上の肝心な議論にまで踏み込めたように思います(時間が許せば,もっと議論したいところでした!).
 中英語,近代英語,21世紀英語という3つの異なる時代の英語を対象としたコーパスを並べてみたわけですが,研究会が終わってからいろいろと考えが浮かんできました.同じ英語のコーパスとはいえ,対象とする時代が異なるだけで,なぜ検索の仕方も検索の結果もインターフェースもここまで異なるのだろうかということです.その答えは「各々の時代における英語の(社会)言語学的事情が大きく異なっているから,それと連動して(現代の研究者が編纂する)コーパスのあり方も大きく異ならざるを得ない」ということではないかと思い至りました.
 逆からみれば,各時代のコーパスがどのように編纂され,どのように使用されているかを観察することにより,その時代の英語の(社会)言語学的事情が浮き彫りになってくるのではないか,ということです.そうして時代ごとの特徴がきれいに浮き彫りになってくるようであれば,それを並べてみれば,ある種の英語史記述となるにちがいない.換言すれば,各時代のコーパス検索に伴うクセや限界みたいなものを指摘していけば,その時代の背後にある言語事情が透けて見えてくるのではないかと.ここから「コーパスのあり方からみる英語史」のような試みが可能となってきそうです.
 時代順にみていきます.中英語期は標準形が不在なので,ある単語を検索しようとしても,そもそもどの綴字で検索すればよいのかという出発点からして問題となります (cf. 「#1450. 中英語の綴字の多様性はやはり不便である」 ([2013-04-16-1])).実際,中英語辞書 MED である単語を引くにしても,そこそこ苦労することがあります.LAEME や LALME でも検索インターフェースには様々な工夫はなされていますが,やはり事前の知識や見当づけが必要ですので,検索が簡単であるとは口が裂けても言えません.現実に標準形がないわけですから,致し方がありません.
 次に初期近代英語期ですが,EEBO は検索インターフェースが格段にとっつきやすく,一見すると検索そのものに問題があるようには見えません.しかし,英語史的にはあくまで標準化を模索している時代にとどまり,標準化が達成された現代とは事情が異なります.つまり,標準形とおぼしきものを検索欄に入れてクリックしたとしても,実は拾い漏れが多く生じてしまうのです.公式には実装されているとされる lemma 検索も,実際には思うほど精度は高くありません.落とし穴がいっぱいです.
 最後に,21世紀英語の諸変種を対象とする GloWbE については,(ポスト)現代英語が相手ですから,当然ながら標準形を入力して検索できます.しかし,BNC や COCA のような「普通の」コーパスと異なるのは,返される検索結果が諸変種に由来する多様な例だということです.
 大雑把にまとめると次のようになります.

 代表コーパス検索法などに反映される「コーパスのあり方」(社会)言語学的事情
中英語LAEME, LALME検索法が難しい標準形がない
初期近代英語EEBO検索法が一見すると易しい標準形が中途半端にしかない
21世紀英語GloWbE検索法が易しい標準形はあるが,その機能は変種によって多様


 異なる時代のコーパスを比べてみると,英語史がみえてくるということがよく分かりました.駒場英語史研究会での発表の機会をいただき,改めて感謝します.

Referrer (Inside): [2021-05-10-1] [2020-09-25-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow