hellog〜英語史ブログ

#1280. コーパスの代表性[corpus][representativeness][variety][idiolect][methodology]

2012-10-28

 コーパスにとって代表性 (representativeness) が命であることは,コーパスの定義上 ([2010-11-16-1]) あきらかであるし,昨日の記事「#1279. BNC の強みと弱み」 ([2012-10-28-1]) で紹介した Leech もとりわけ主張している点である.McEnery et al. (13) は,代表性について,Leech の定義を参考にしながら "a corpus is thought to be representative of the language variety it is supposed to represent if the findings based on its contents can be generalized to the said language variety" と述べている.
 代表性を具体的に考えてみよう.例えば BNC がターゲットとするような,現代イギリス英語という一般的な変種を収録するコーパス (general corpus) の代表性はどのようにすれば得られるのか,その理論化は難しい.話し言葉と書き言葉の割合の問題を考えると,それぞれを50%ずつに割り振ることは,現代イギリス英語の代表性を約束してくれるだろうか.Leech の表現でいえば "impressionistic" とならざるを得ないが,今この瞬間に行なわれている現代イギリス英語の圧倒的な部分が,話し言葉においてではないか.もしそうだとすれば,話し言葉コーパスの割合を,例えば80%ほどに設定するほうがより代表性を確保できるのではないか.母体となる現代イギリス英語の全体像を直接つかむことができない以上,その代表性の議論は行き詰まってしまう.
 コーパス(特に一般コーパス)の代表性という場合に,これを balance と sampling という2つの概念に分けて考えることがある.McEnery et al. (13) では,"the representativeness of most corpora is to a great extent determined by two factors: the range of genres included in a corpus (i.e. balance . . .) and how the text chunks for each genre are selected (i.e. sampling . . .)" と説明されている.
 balance とは,BNC の用語でいうところの domain や genre という分類の設定に関するものである.例えば,現代イギリス英語のコーパスを標榜しながらも,イギリスの新聞の英語だけを集めたコーパスは,representativeness の点で難がある.現代イギリス英語には書き言葉だけでなく話し言葉もあるし,前者については新聞英語だけでなく文学英語もあれば電子メール英語もあるし,買い物メモ英語もあれば,日記英語もある.これらのあらゆる domain や genre を考慮に入れたいと思うが,果たしていくつの text domain があるのだろうか.新聞英語に限っても,タブロイドもあれば高級紙もある.1つの新聞内でも,社会面,スポーツ面,社説などを区別する必要はないのか,社会面であれば国内記事と国際記事の区別はどうか,等々.理論的にはどこまでも細分化しうる.話し言葉でも同様に細分化を推し進めていけば,個人語 (idiolect) ,さらに個人語における register 別の現われ,などのアトムへと終着してしまう.実際のコーパス作成上は,常識的なレベルで妥協することになるが,「常識的」と "impressionistic" はほぼ同義だろう.
 sampling とは代表性を得るための手法である.母体の言語的特徴が再現されるように,質と量の点において考慮を加えながら,コーパス内に各 domain を案配するための理論と実践である.ここには,sampling unit として何を設定するか(典型的には,本,雑誌,新聞などの製品としての単位),そのような単位をリスト化する作業の範囲 (sampling frame) をどこまでに設定するか(特定の年への限定や,ベストセラー本への限定など),標本収集は完全なランダムにするかある程度の体系化を加えた上でのランダムにするか,著作権の問題をどう乗り越えるかなどの,理論的・実践的な問題が含まれる.
 代表性に関わるもう1つの概念として,closure あるいは saturation と呼ばれるものもある.McEnery et al. (16) によれば,"Closure/saturation for a particular linguistic feature (e.g. size of lexicon) of a variety of language (e.g. computer manuals) means that the feature appears to be finite or is subject to very limited variation beyond a certain point." と説明されている.平たくいえば,これ以上コーパスの規模を大きくしても,語彙構成の割合は変わらないという規模に到達すれば,そのコーパスは saturated であると考えられる.代表性の指標としては,balance よりも saturation のほうがすぐれているという指摘もあるが,saturation は主として語彙が念頭にあり,他の言語項目への応用は試みられていないのが現状である.
 代表性は,定義上コーパスの命であるとはいっても,定義先行というきらいはある.それを確保するための理論もないし,検証法もない.すべてのコーパス編纂者に立ちはだかる頭の痛い問題だろうが,コーパスは次々と編纂されている.理論的な問題は別にして,ひたすら編纂と使用を続けてゆき,ノウハウをため込むべき段階にあるのかもしれない.

 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow