#1262. The ''LAEME'' Corpus の代表性 (1)

2012-10-10

　私の関心の中心は初期中英語期の形態論である．この時代に関心をもつ者にとっては，LAEME （編者によれば，発音は /ˈleɪmiː/ ）とそこから派生した The LAEME Corpus (Text Database) の登場は，同時代に関する研究環境を著しく改善し得るツールとして，最大限に歓迎される．LAEME については，本ブログでも laeme の記事で採りあげてきたし，とりわけツールとしての可能性を探り，拡張すべく「#846. HelMapperUK --- hellog 仕様の英国地図作成 CGI」 ([2011-08-21-1]) ，「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) ，「#942. LAEME Index of Sources の検索ツール」 ([2011-11-25-1]) ，「#1057. LAEME Index of Sources の検索ツール Ver. 2」 ([2012-03-19-1]) を公表してきた．
　大工にとって道具の手入れが大事なように，研究者にとってツールの研究は大事である．具体的に The LAEME Corpus を使っているうちに，全体として俯瞰するとどのようなコーパスなのか，知りたくなってきた．[2010-11-16-1]の記事「#568. コーパスの定義と英語コーパス入門」で示した通り，コーパスの主たる特徴の1つに representativeness （代表性）がある．これは，コーパス評価のための指標の1つでもある．歴史コーパスにおける代表性の確保の難しさについては，「#531. OED の引用データをコーパスとして使えるか」 ([2010-10-10-1]) や「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) でも触れてきたが，この点では The LAEME Corpus も苦戦を強いられている．カバーしている方言分布については「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) で採りあげたが，今回は方言区分に加えて時代区分も含めながら The LAEME Corpus のツール分析を試みたい．
　まずは，収録されているテキストの数を考える．当該コーパスは "scribal text" という単位でテキストが収録されているが，これを方言と時代にしたがって分別すると，散らばり具合がわかる．なお，方言区分と時代区分はそれ自体が方法論上の大問題なのだが，以下では，恣意的な区分（とはいってもある程度の根拠はあるが）として，方言は7つへ，時代は4つへと分けている．すなわち，方言は N (Northern), NEM (North-East Midland), NWM (North-West Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) へ，時代は C12b （12世紀後半），C13a, C13b, C14a へ．中英語の方言区分については「#130. 中英語の方言区分」 ([2009-09-04-1]) も参照．

Table 1: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Texts

	C12b	C13a	C13b	C14a	Total
N	0 (0.00%)	1 (0.86)	0 (0.00)	7 (6.03)	8 (6.90)
NEM	1 (0.86)	0 (0.00)	5 (4.31)	2 (1.72)	8 (6.90)
NWM	0 (0.00)	9 (7.76)	5 (4.31)	0 (0.00)	14 (12.07)
SEM	4 (3.45)	7 (6.03)	14 (12.07)	7 (6.03)	32 (27.59)
SWM	2 (1.72)	13 (11.21)	17 (14.66)	1 (0.86)	33 (28.45)
SW	3 (2.59)	5 (4.31)	7 (6.03)	2 (1.72)	17 (14.66)
SE	0 (0.00)	2 (1.72)	1 (0.86)	1 (0.86)	4 (3.45)
Total	10 (8.62)	37 (31.90)	49 (42.24)	20 (17.24)	116 (100.00)

　上の表を作成するにあたり対象としたのは，The LAEME Corpus に収録されている167個の scribal texts のうち，半世紀という単位で時代の区分がなされている116個のみである．
　表を一瞥すればわかるように，テキスト分布の偏りは大きい．方言でいえば SEM と SWM は層が異常に厚く，全体の3分の2ほどをカバーしているが，一方で N, NEM, SE は層が薄い．時代でみると，C13a と C13b だけで7割を越え，C12b と C14a は層が薄い．方言・時代の組み合わせでは，6スロットまでが "0" を示す．歴史コーパス編纂における representative の確保は絶望的とすら思えてくる．少なくとも，The LAEME Corpus を用いて得られる方言や時代についてのデータやそこから得られる結論は，よくよく注意して解釈しなければならないということがいえるだろう．
　この表は scribal text の数をもとに作成されているが，各 scribal text の長さはまちまちである．そこで，テキスト数ではなく，語数による分布の具合も調べてみる必要がある．語数に基づく代表性の議論は，明日の記事で．

Referrer (Inside): [2020-05-30-1] [2016-06-07-1] [2016-03-22-1] [2013-02-24-1] [2012-10-27-1] [2012-10-12-1] [2012-10-11-1]

[ ツイート | 固定リンク | 印刷用ページ ]

#1262. The LAEME Corpus の代表性 (1)[laeme][corpus][representativeness]