人文学の方法論II(デジタル・ヒューマニティーズ)
「言語研究とデジタルコーパス・辞書・方言地図」

堀田 隆一

2023年10月9日

「hellog~英語史ブログ」: http://user.keio.ac.jp/~rhotta

* 本スライドは https://bit.ly/45jGvXP からアクセスできます

人文学の方法論II(デジタル・ヒューマニティーズ)

20世紀後半に誕生したデジタル・ヒューマニティーズとは,文学,考古学,歴史,哲学,思想史,美術史,書誌学,言語学など,さまざまな人文学の領域において,デジタル環境が提供する手法やデータを積極的に活用しておこなわれる研究であり,またそのための先進的デジタル環境を研究・教育のために整備してゆくための研究ととらえられる.我々の日常生活の殆ど全てがデジタルとフィジカルの両面で構成されている今日において,人文学研究も,程度の差こそあれ,デジタル・ヒューマニティーズ的である言っても過言ではないだろう.しかし,デジタル・ヒューマニティーズの実態については,共通認識は未だ存在していないようである.

検索可能な様々なデジタルデータの構築が,既存の研究のための基礎調査をより速やかに,より大きなスケールで遂行することを可能にしたとということならば,それは単に便利なツールがひとつ増えただけにすぎないかもしれない.しかし,一方で,デジタル的思考があらたな研究テーマの発見を導くならば,それは人文学の革新へとつながってゆくとも考えらえる.

このオムニバス形式の授業では,人文学のさまざまな領域の研究者が,それぞれの領域において,デジタル環境が具体的にどのようなかたちで研究に貢献しているかを論じ,そしてその現状をふまえて,デジタルだから可能となること,逆にデジタル依存によって見えにくくなることについて,ディスカッションを交えて考える.

第2回「言語研究とデジタルコーパス・辞書・方言地図」

家入 葉子・堀田 隆一『文献学と英語史研究』 開拓社,2022年.

コーパスとは?

#568 より.

“. . . a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.” (McEnery et al.)

1980年代以降の英語史研究

  1. コーパス革命と “DX” (#4219)
  2. 歴史研究に付きものの “bad data problem”
  3. 量が質を変えた
  4. 通時的研究と共時的研究の接近
  5. 理論的研究と実証的研究の歩み寄り

英語コーパス発展の3軸

#363 より.

  1. 大規模化.近代英語コーパスの祖である Brown Corpus (The Standard Corpus of Present-Day Edited American English) の公開されたのが1964年.約100万語からなるコーパスで,後の多くの英語コーパスがそのコーパスデザインにならった.しかし,1990年代以降は約1億語の BNC (The British National Corpus) や5億語を越える巨大規模の The Bank of English などが現れている.
  2. 種類の拡大.コーパスの種類の拡大は,コーパスを用いて研究できる領域や切り口の選択肢が増えてきたことを意味する.Brown Corpus の正式名称が示唆するとおり,最初期のコーパスは「現代の」「書き言葉の」「英米変種の」「標準的な」英語を対象としていた.しかし,その後「歴史的な」「話し言葉も含めた」「英米変種以外の」「非母語話者や学習者の変種も含めた」英語を視野に入れたコーパスが続々と現れた.今後も,英語学・英文学の様々な領域と切り口を反映した種々のコーパスが編纂されてゆくことだろう.
  3. 品詞標識の付与.より一般的には,annotation の種類や方法が増えてきたといえる.初期の平テキストのコーパスから,まずは品詞標識付け (POS-Tagging) が試みられ,続いて統語形態標識,構文解析,意味標識,音調標識なども付与されるようになってきている.これも,コーパス利用が英語学の種々の領域や理論に開かれてきたことと関連する.標識をテキストに埋め込むか,別ファイルとして提供するかという問題や,林立する annotation scheme の存在など,annotation をめぐる混乱はあるが,裏を返せば発展がそれほど著しいということだろう.

主な歴史英語コーパス

詳細な一覧は CoRD を参照.また,各種コーパスを用いた研究の事例は hellog よりこちらの記事群を参照.

主な歴史英語辞書

主な歴史英語方言地図

コーパス研究の功罪

  1. 功 (#368)
    • 散文と韻文などテキストの形式やジャンルをまたいでの比較が可能になった
    • コーパスの巨大化により,低頻度事項でも例数を集められるようになり,研究可能なテーマが広がった
    • 現代英語の研究者に通時的研究の契機を与えることとなり,英語史研究の裾野が広がった
    • コーパスでは校訂やその他の annotation がタグにより明示されるので,研究者間で共通の前提に立った議論が成り立ちやすい
    • 研究テーマについて,コーパス研究で結論の見当をつけ,次に詳細研究に進むという研究手法が可能になった
    • 定説を含めた従来の仮説をコーパスによって検証するという基盤的な研究ジャンルが開かれた
  2. 罪 (##307,367,3967)
    • コーパスは negative evidence を提供してくれない.○○がどれだけ生起するかは教えてくれるが,××が生起しないことは教えてくれない
    • コーパスは事実を提供してくれるが,その事実の説明はしてくれない
    • コーパスは,研究の範囲を限定する
    • コーパス研究で導かれた結論を一般化する際には細心の注意を要する
    • コーパスで都合のよい結果が出ればそれを採用し,都合の悪い結果が出れば見て見ぬふりをする,というアドホックな態度に陥りがちになる
    • コーパスの扱いそのものが目的となってしまう傾向がある
    • コーパス研究はとりあえず数値として明確な結果が出るのでそれで満足してしまい,次の段階へ進まなくなる可能性がある
    • ユーザーフレンドリーなコーパス解析ツールの登場により分析の過程がブラックボックス化されることが多く,行っている作業に無自覚・無責任になる傾向がある

ディスカッション

こちらのコメント投稿ページ (Slido) に移動し,各自の研究分野におけるデジタル資料(の使用)をめぐる功罪を挙げていきましょう.次のようにツイート風に1投稿1行として,ブレストのつもりで1人何件でも挙げてください.匿名でけっこうです.

多く集まるほうが後の議論も盛り上がります.また,共感できる投稿には「いいね」を押してください.それで上位に上がってくるものを中心に,後で議論しましょう.

課題

K-LMS の「課題」セクションに移動し,課題を確認・提出してください.

授業での議論を踏まえ,堀田の Voicy チャンネルより「#861. コーパス,辞書,方言地図 — 私の研究道具とそのいじり方」を聴いてください(15分程の音声コンテンツです).その上で,各自の研究分野においてデジタル資料を1点取り上げ,各自が考える「使用に際しての注意点」と「ユニークな活用法」に触れつつ,その内容,規模,アクセシビリティ,有用性,歴史などについて,他分野を専攻する者にも分かるように800字程度で概説してください.授業の2日後,10月11日(水)の 23:59 を締切とします.

参考文献