Penn Parsed Corpora of Historical English のプロジェクトの成果として,University of Pennsylvania から PPCMBE ( Penn Parsed Corpus of Modern British English ) が出版された.これにより,以下の通り,古英語から現代英語にわたる各時期のイギリス英語の統語タグ付きコーパスが出そろったことになる.
・ YCOE: Taylor, Ann, Anthony Warner, Susan Pintzuk, and Frank Beths. York-Toronto-Helsinki Parsed Corpus of Old English Prose, first edition. Oxford Text Archive, 2003. (1.5 million words)
・ PPCME2: Kroch, Anthony and Ann Taylor. Penn-Helsinki Parsed Corpus of Middle English, second edition. University of Pennsylvania, 2000. (1.3 million words)
・ PPCEME: Kroch, Anthony, Beatrice Santorini, and Ariel Diertani. Penn-Helsinki Parsed Corpus of Early Modern English, first edition. University of Pennsylvania, 2004. (1.8 million words)
・ PPCMBE: Kroch, Anthony, Beatrice Santorini, and Ariel Diertani. Penn-Hensinki Parsed Corpus of Modern British English, first edition. University of Pennsylvania, 2010. (1.0 million words)
いずれも Helsinki Corpus をベースとしたソースに対して同一の annotation scheme による統語的タグが付加されており,互いに連携できるように作られている.視点は異なるが,およそ1410年から1695年までのあいだの書簡集となるコーパス PCEEC も同様の annotation scheme でタグ付けされており,やはり連携が可能である(ただし利用は限定的).
・ PCEEC: Taylor, Ann, Arja Nurmi, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Parsed Corpus of Early English Correspondence, first edition. Oxford Text Archive, 2006. (2.2 million words)
現時点で,あわせて 7.8 million words が通時的かつ統語的な視点からタグ付けされ,一般に利用可能になったことになる.
一昨日と昨日と,東京外国語大学のグローバルCOEプログラム「コーパスに基づく言語学教育研究拠点」 ( Corpus-based Linguistics and Language Education ) 主催で,"Corpus Analysis and Diachronic Linguistics" と題する国際シンポジウムが同大学で開かれ,Anthony Kroch や Merja Kytö など英語史コーパス言語学の著名な学者も講演した(ポスターはこちら).PPCMBE の出版直後ということもあったので,特に Anthony Kroch が何を話すかに興味をもっていた.一連の歴史英語コーパスを使った統語研究の一端でも見せてくれるのかなと期待していたが,驚いたことに,歴史英語コーパスと歴史フランス語コーパスを組み合わせた「英仏対照通時統語コーパス言語学」とでもいうべき研究の可能性を示す発表だった.今や University of Pennsylvania は英語に限らず諸言語のコーパス作成の拠点となっており,あれやこれやと組み合わせるとこんなこともあんなこともできるんだぞというところを見せつけられたとでもいおうか.
ちなみに,取り上げられた話題は英仏の direct object topicalization の歴史で,英語の場合には 1151--1250 年期から 1251--1350 年期にかけて,直接目的語の前置される頻度が一気に減少したという.
Powered by WinChalow1.0rc4 based on chalow