hellog〜英語史ブログ

#773. PPCMBE と COHA の比較[corpus][coha][ppcmbe][lmode][adjective][comparison][inflection][representativeness]

2011-06-09

 本ブログでも何度か取り上げている2つの歴史英語コーパス PPCMBE ( Penn Parsed Corpus of Modern British English; see [2010-03-03-1]. ) と COHA ( Corpus of Historical American English; see [2010-09-19-1]. ) について,塚本氏が『英語コーパス研究』の最新号に研究ノートを発表している.両者とも2010年に公開された近代英語後期のコーパスだが,それぞれ英米変種であること,また編纂目的が異なることから細かな比較の対象には適さない.しかし,代表性をはじめとするコーパスの一般的な特徴を比べることは意味があるだろう.
 PPCMBE は1700--1914年のイギリス英語テキスト約949,000語で構成されており,Parsed Corpora of Historical English の1部をなす.同様に構文解析されたより古い時代の対応するコーパスとの接続を意識した作りである.有料でデータを入手する必要がある.一方,COHA は1810--2009年のアメリカ英語テキスト4億語を収録した巨大コーパスである.こちらは,構文解析はされていない.COHA は無料でオンラインアクセスできるため使いやすいが,インターフェースが固定されているので柔軟なデータ検索ができないという難点がある.
 コーパスの規模とも関係するが,PPCMBE は代表性 (representativeness) の点で難がある.PPCMBE のコーパステキストを18ジャンルへ細かく分類し,テキスト年代を10年刻みでとると,サイズがゼロとなるマス目が多く現われる.これは,区分を細かくしすぎると有意義な分析結果が出ないということであり,使用に際して注意を要する.
 一方,COHA のコーパステキストは Fiction, Popular Magazines, Newspapers, Non-Fiction Books の4ジャンルへ大雑把に区分されている.細かいジャンル分けの研究には利用できないが,10年刻みでも各マス目に適切なサイズのテキストが配されており,代表性はよく確保されている.ただし,Fiction の構成比率がどの時代も約50%を占めており,Fiction の言語の特徴(特に語彙)がコーパス全体の言語の特徴に影響を与えていると考えられ,分析の際にはこの点に注意を要する.
 塚本氏は,両コーパスの以上の特徴を,後期近代英語における形容詞の比較級・最上級の問題によって示している.CONCE (Corpus of Nineteenth-Century English) を用いた Kytö and Romaine の先行研究によれば,19世紀の間,比較級の迂言形に対する屈折形の割合は,30年刻みで世紀初頭の57.1%から世紀末の67.8%へと増加しているという.同様の調査を COHA と PPCMBE で10年刻みに施したところ,前者では1810年の64.7%から1910年の74.3%へ着実に増加していることが確かめられたが,後者では1810年の79.4%から1910年の78.0%まで増減の揺れが激しかったという(塚本,p. 56).しかし,CONCEと同様の30年刻みで分析し直すと,PPCMBE でも有意な変化をほぼ観察できるほどの結果がでるという.
 コーパスはそれぞれ独自の特徴をもっている.よく把握して利用する必要があることを確認した.関連して,[2010-06-04-1]の記事「流れに逆らっている比較級形成の歴史」を参照.

 ・ 塚本 聡 「2つの指摘コーパス---その代表性と類似性」『英語コーパス研究』第18号,英語コーパス学会,2011年,49--59頁.
 ・ Kytö, M. and S. Romaine. "Adjective Comparison in Nineteenth-Century English." Nineteenth-Century English: Stability and Change. Ed. M. Kytö, M. Rydén, and E. Smitterberg. Cambridge: CUP, 2006. 194--214.

Referrer (Inside): [2017-08-15-1] [2015-09-29-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow