hellog〜英語史ブログ

#1305. 統語タグのついた Google Books Ngram Corpus[corpus][google_books][ame_bre]

2012-11-22

 [2010-12-25-1]の記事「#607. Google Books Ngram Viewer」で紹介した Google 提供のコーパスツールに,統語タグが付けられた.インターフェースである Google Books Ngram Viewer の見かけは変わらないが,検索欄へ統語標識つきの検索式を入力できるようになった.その紹介と利用法は,Syntactic Annotations for the Google Books Ngram Corpus で参照できる.
 現在,Google Books Ngram Corpus は English, Spanish, French, German, Russian, Italian, Chinese, Hebrew の8言語のコーパスを含むが,英語コーパスに関する限り,4,541,627冊分,468,491,999,492 tokens からなる超巨大テキスト・データベースとなっている.データセットはこちらから入手可能.
 実装された統語タグは,具体的にいえば,品詞 (POS) と修飾関係 (head-modifier) である.標識付けは統計学的に自動で行なわれている.品詞は以下の12種類が区別される.

NOUN (nouns), VERB (verbs), ADJ (adjectives), ADV (adverbs), PRON (pronouns), DET (determiners and articles), ADP (prepositions and postpositions), NUM (numerals), CONJ (conjunctions), PRT (particles), '.' (punctuation marks), X (a catch-all for other categories such as abbreviations or foreign words)


 入力式としては,例えば "burnt" のように語形を入れることもできるし,"burnt_VERB" のように品詞を指定して入れることもできる.さらに 3-grams 以内の統語連鎖であれば "_ADJ_" のような一括指定も利用できる.以上のパターンを合わせて,"the _ADJ_ girl_NOUN" なども可能だ.修飾関係の指定では,"hair=>black", "read=>book" などと入力でき,冠詞やその他のノイズとなる要素をはじくことが可能となっている.
 名詞と動詞の用法を共有している語について,品詞別に頻度変化をみたい場合を考えよう.travel は名詞でも動詞でもあるが,英語コーパス全体を対象とした検索によれば,20世紀に入って名詞用法が動詞用法を追い抜いたことがわかる.ただし,対象コーパスをアメリカ英語イギリス英語に切り替えて比較すると,後者で名詞が動詞を頻度の上で追い抜くのは1960年代とずっと遅い.
 ほかに,have a look 及び take a look という表現の拡大を調べようとする場合に,不定冠詞の後に形容詞などが挿入される可能性も考慮し,"have>=look, take>=look" などと検索してみた.アメリカ英語では take を用いた表現が1970年に追い抜いているが,イギリス英語では20世紀中に徐々に拡大こそしているが,いまだ have を用いた表現に追いついていない.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow