#428. The Brown family of corpora の利用上の注意[corpus][ame_bre]


 [2010-04-25-1]の記事で述べたとおり,近代の英語コーパスの走りとして Brown Corpus の果たしてきた役割は甚大である.Brown Corpus のコーパス・デザインに沿った類似コーパスが続々と誕生し,現在も ICE ( International Corpus of English ) のプロジェクトが進行中である.その中でも特に "the Brown family of corpora" と呼ばれる中核となる4つの関連コーパスがある.1960年代初頭のアメリカ英語(書き言葉)を代表する Brown Corpus,そのイギリス英語版の LOB Corpus,さらに30年時間をおいて1990年代初頭のアメリカ英語(書き言葉)を代表する Frown Corpus,そのイギリス英語版の FLOB Corpus である(各コーパスの概要は ICAME の HP を参照).この4つを駆使すると各時期の英米変種の異同だけでなく,各変種で30年の間に起こった言語変化を調べることができる.二つの観点をクロスさせれば,言語変化の英米差を比較することもできる.Leech and Smith (186) より,the Brown family of corpora の相関図を示す.

The Brown Family of Corpora

 近年は数億語規模の巨大コーパスが林立するなかで,the Brown family のコーパスはそれぞれ約100万語とサイズとしては小型だが "comparable" であるところが最大の売りだろう.テーマによっては今後も十分に有用であり続けるだろうと思われるし,4コーパスを駆使した Leech and Smith の研究などを見ていると,まだまだいろいろな研究ができそうである ( see [2010-06-25-1], [2010-06-26-1] ) .そこで,the Brown family を利用する際の注意事項について,Leech and Smith (186--87) が述べているものを引用して学習しておきたい.以下は「危険な前提」とされているものである.

(a) that the size and composition of the corpora are sufficiently closely matched to validate the basic principle of the comparison: that we are comparing like with like despite different provenances;
(b) that the statistically significant results of the comparisons can be attributed to linguistic differences rather than other factors such as shifts in genre characteristics;
(c) that the grammatical categories are defined and used consistently and in a way that other linguists will find useful;
(d) that the extraction of classified data from the corpus has been acceptably, if not totally, free from error.

 The Brown family of corpora は意図的に "comparable" となるように作られてはいるが "perfectly comparable" ではないし,そこから引き出される統計的な結論も絶対ではない.コーパス言語学で言われる一般的な注意点と同じだが,自分でコーパスを用いた研究をしていると,とかく忘れやすい.危険を伴う物品の「利用上の注意」は繰り返し喚起しておく必要があるだろう.毎回の調査結果の末尾に,呪文のように繰り返すくらいの態度が必要なのかもしれない.
 コーパス利用の可能性とその他の注意点については,それぞれ[2010-04-30-1][2010-02-28-1], [2010-04-29-1]の記事も要参照.

 ・ Leech, Geoffrey and Nicholas Smith. "Recent Grammatical Change in Written English 1961--1992: Some Preliminary Findings of a Comparison of American with British English." The Changing Face of Corpus Linguistics. Ed. Antoinette Renouf and Andrew Kehoe. Amsterdam and New York: Rodopi, 2006. 185--204.

