「言語研究とデジタルコーパス・辞書・方言地図」

堀田 隆一

「hellog~英語史ブログ」: http://user.keio.ac.jp/~rhotta

* 本スライドは http://user.keio.ac.jp/~rhotta/hellog/etc/slide/digital_humanities_for_hellog.md からアクセスできます

まず,コーパスとは?

hellog #568 より.

“. . . a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.” (McEnery et al.)

1980年代以降の英語史研究

  1. コーパス革命と “DX” (#4219)
  2. 歴史研究に付きものの “bad data problem”
  3. 量が質を変えた
  4. 通時的研究と共時的研究の接近
  5. 理論的研究と実証的研究の歩み寄り

英語コーパス発展の3軸

#363 より.

  1. 大規模化.近代英語コーパスの祖である Brown Corpus (The Standard Corpus of Present-Day Edited American English) の公開されたのが1964年.約100万語からなるコーパスで,後の多くの英語コーパスがそのコーパスデザインにならった.しかし,1990年代以降は約1億語の BNC (The British National Corpus) や5億語を越える巨大規模の The Bank of English などが現れている.
  2. 種類の拡大.コーパスの種類の拡大は,コーパスを用いて研究できる領域や切り口の選択肢が増えてきたことを意味する.Brown Corpus の正式名称が示唆するとおり,最初期のコーパスは「現代の」「書き言葉の」「英米変種の」「標準的な」英語を対象としていた.しかし,その後「歴史的な」「話し言葉も含めた」「英米変種以外の」「非母語話者や学習者の変種も含めた」英語を視野に入れたコーパスが続々と現れた.今後も,英語学・英文学の様々な領域と切り口を反映した種々のコーパスが編纂されてゆくことだろう.
  3. 品詞標識の付与.より一般的には,annotation の種類や方法が増えてきたといえる.初期の平テキストのコーパスから,まずは品詞標識付け (POS-Tagging) が試みられ,続いて統語形態標識,構文解析,意味標識,音調標識なども付与されるようになってきている.これも,コーパス利用が英語学の種々の領域や理論に開かれてきたことと関連する.標識をテキストに埋め込むか,別ファイルとして提供するかという問題や,林立する annotation scheme の存在など,annotation をめぐる混乱はあるが,裏を返せば発展がそれほど著しいということだろう.

主な歴史英語コーパス

詳細な一覧は CoRD を参照.また,各種コーパスを用いた研究の事例は hellog よりこちらの記事群を参照.

主な歴史英語辞書

主な歴史英語方言地図

コーパス研究の功罪

  1. 功 (#368)
    • 散文と韻文などテキストの形式やジャンルをまたいでの比較が可能になった
    • コーパスの巨大化により,低頻度事項でも例数を集められるようになり,研究可能なテーマが広がった
    • 現代英語の研究者に通時的研究の契機を与えることとなり,英語史研究の裾野が広がった
    • コーパスでは校訂やその他の annotation がタグにより明示されるので,研究者間で共通の前提に立った議論が成り立ちやすい
    • 研究テーマについて,コーパス研究で結論の見当をつけ,次に詳細研究に進むという研究手法が可能になった
    • 定説を含めた従来の仮説をコーパスによって検証するという基盤的な研究ジャンルが開かれた
  2. 罪 (##307,367,3967)
    • コーパスは negative evidence を提供してくれない.○○がどれだけ生起するかは教えてくれるが,××が生起しないことは教えてくれない
    • コーパスは事実を提供してくれるが,その事実の説明はしてくれない
    • コーパスは,研究の範囲を限定する
    • コーパス研究で導かれた結論を一般化する際には細心の注意を要する
    • コーパスで都合のよい結果が出ればそれを採用し,都合の悪い結果が出れば見て見ぬふりをする,というアドホックな態度に陥りがちになる
    • コーパスの扱いそのものが目的となってしまう傾向がある
    • コーパス研究はとりあえず数値として明確な結果が出るのでそれで満足してしまい,次の段階へ進まなくなる可能性がある
    • ユーザーフレンドリーなコーパス解析ツールの登場により分析の過程がブラックボックス化されることが多く,行っている作業に無自覚・無責任になる傾向がある

参考文献