hellog〜英語史ブログ

#2584. 歴史英語コーパスの代表性[representativeness][corpus][methodology][hc][register]

2016-05-24

 コーパスの代表性 (representativeness) や均衡 (balance) の問題については,「#1280. コーパスの代表性」 ([2012-10-28-1]) その他の記事で扱ってきた.古い時代の英語のコーパスを扱う場合には,現代英語コーパスに関する諸問題がそのまま当てはまるのは当然のことながら,それに上乗せしてさらに困難な問題が多く立ちはだかる.
 まず,歴史英語コーパスという話題以前の問題として,コーパスの元をなす母集合のテキスト集合体そのものが,歴史の偶然により現存しているものに限られるという制約がある.碑文,写本,印刷本,音声資料などに記されて現在まで生き残り,保存されてきたものが,すべてである.また,これらの資料は存在することはわかっていても,現実的にアクセスできるかどうかは別問題である.現実的には,印刷あるいは電子形態で出版されているかどうかにかかっているだろう.それらの資料がテキストの母集合となり,運よく編纂者の選定にかかったその一部が,コーパス(主として電子形態)へと編纂されることになる.こうして成立した歴史英語コーパスは,数々の制約をかいくぐって,ようやく世に出るのであり,この時点で理想的な代表性が達成されている見込みは,残念ながら薄い.
 また,歴史英語とひとくくりに言っても,実際には現代英語と同様に様々な lects や registers が区分され,その区分に応じてコーパスが編纂されるケースが多い.確かに,ある意味で汎用コーパスと呼んでもよい Helsinki Corpus のような通時コーパスや,統語情報に特化しているが異なる時代をまたぐ Penn Parsed Corpora of Historical English もあるし,使い方によっては通時コーパスとしても利用できる OED の引用文検索などがある.しかし,通常は,編纂の目的や手間に応じて,より小さな範囲のテキストに絞って編纂されるコーパスが多い.古英語コーパスや中英語コーパスなど時代によって区切ること (chronolects) もあれば ,イギリス英語やアメリカ英語などの方言別 (dialects) の場合もあるし,Chaucer や Shakespeare など特定の作家別 (idiolects) の場合もあろう.社会方言 (sociolects) 別というケースもあり得るし,使用域 (registers) に応じてコーパスを編纂するということもあり得る.使用域といっても,談話の場(ジャンルや主題),媒体(話し言葉か書き言葉か),スタイル(形式性)などに応じて,下位区分することもできる.一方,分類をあまり細かくしてしまうと,上述のように現存するテキストの量が有限であり,たいてい非常に少なかったり分布が偏っているわけだから,代表性や均衡を保つことがなおのこと困難となる.
 時代別 (chronolects) の軸を中心にすえて近年の比較的大規模な歴史英語コーパスの編纂状況を概観してみると,各時代の英語の辞書・文法・方言地図のような参考資料の編纂と関連づけて編纂されたものがいくつかあることがわかる.これらは,各時代の基軸コーパスとして位置づけられるといってよいかもしれない.例えば,Dictionary of Old English Corpus (DOEC), A Linguistic Atlas of Early Middle English (LAEME), Middle English Grammar project (MEG) 等である.近代についてはコーパスというよりはテキスト・データベースというべき EEBO (Early English Books Online) も利用可能となってきているし,アメリカ英語については Corpus of Historical American English (COHA) 等の試みもある.
 上に挙げた代表的で著名なもののほか,様々な切り口からの歴史英語コーパス編纂の企画が続々と現われている.その逐一については,「#506. CoRD --- 英語歴史コーパスの情報センター」 ([2010-09-15-1]) で紹介した,Helsinki 大学の VARIENG ( Research Unit for Variation, Contacts and Change in English ) プロジェクトより CoRD ( Corpus Resource Database ) を参照されたい.
 ハード的にいえば,上述のように,歴史英語コーパスの代表性を巡る問題を根本的に解決するのは困難ではあるが,一方で個別コーパスの編纂は活況を呈しており,諸制約のなかで進歩感はある.今ひとつはソフト的な側面,使用者側のコーパスに対する態度に関する課題もあるように思われる.電子コーパスの時代が到来する以前にも,歴史英語の研究者は,時間を要する手作業ながらも紙媒体による「コーパス」の編纂,使用,分析を常に行なってきたのである.彼らも,私たちが意識しているほどではなかったものの,ある程度はコーパスの代表性や均衡といった問題を考えてきたのであり,解決に至らないとしても,有益な研究を継続し,知見を蓄積してきた.電子コーパス時代となって代表性や均衡の問題が目立って取り上げられるようになったが,確かにその問題自体は大切で,考え続ける必要はあるものの,明らかにしたい言語現象そのものに焦点を当て,コーパスを便利に使いこなしながらその研究を続けてゆくことがより肝要なのではないか.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow