hellog〜英語史ブログ

#1278. BNC を中心とするコーパス研究関連のリンク集[corpus][bnc][link][web_service][lltest]

2012-10-26

 コーパス言語学の勢いが止まらない.分野が分野だけに,関連情報はウェブ上で得られることが多く,便利なようにも思えるが,逆に情報が多すぎて,選択と判断に困る.せめて自分のためだけでも便利なリンク集をまとめておこうと思うのだが,学界のスピードについて行けない.私が最もよく用いる BNC に関連するものを中心に,断片的ではあるが,リンクを張る.リンク集をまとめる労を執るよりは,芋づる式にたどるかキーワード検索のほうが効率的という状況になりつつある・・・.
 
1. BNC インターフェース

  ・ BNCweb要無料登録
  ・ BYU-BNC (要無料登録)
  ・ BNC ( The British National Corpus )

2. BNC のレファレンス・ガイド

  ・ Quick Reference for Simple Query Syntax (PDF)
  ・ Reference Guide for the British National Corpus (XML Edition)
  ・ 上の Reference Guide の目次
    * 6.5 Guidelines to the Wordclass Tagging
    * The BNC Basic (C5) Tagset
    * 9.8 Simplified Wordclass Tags
    * 9.7 Contracted forms and multiwords
    * 1 Design of the Corpus
    * 9.6 Text and genre classification code

3. コーパス関連の総合サイト

  ・ David Lee による Bookmarks for Corpus-based Linguists
    * Corpora, Collections, Data Archives
    * Software, Tools, Frequency Lists, etc.
    * References, Papers, Journals
    * Conferences & Project

4. hellog 内の記事

  ・ 「#568. コーパスの定義と英語コーパス入門」: [2010-11-16-1]
  ・ 「#506. CoRD --- 英語歴史コーパスの情報センター」: [2010-09-15-1]
  ・ 「#308. 現代英語の最頻英単語リスト」: [2010-03-01-1]
  ・ コーパス関連記事: corpus
  ・ BNC 関連記事: bnc
  ・ COCA 関連記事: coca

5. 計算ツール

  ・ Corpus Frequency Wizard
  ・ Paul Rayson's Log-likelihood Calculator
  ・ VassarStats
  ・ hellog の「#711. Log-Likelihood Tester CGI, Ver. 2」: [2011-04-08-1]

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

Referrer (Inside): [2015-04-22-1]

[ | 固定リンク | 印刷用ページ ]

#506. CoRD --- 英語歴史コーパスの情報センター[corpus][link]

2010-09-15

 Helsinki 大学の VARIENG ( Research Unit for Variation, Contacts and Change in English ) プロジェクトに関わる電子サービスの一環として,英語歴史コーパス(と英語変種コーパス)の情報をとりまとめる CoRD ( Corpus Resource Database ) なるサービスがある.すでに51件のコーパス情報が登録されており,今後も増え続けるだろう.種々のコーパスが様々な形態で公開され,そろそろ本格的な整理の必要が感じられるようになってきたので,CoRD のようなハブが出てくると重宝する.今後の登録コーパスの増加に期待したい.

 ・ List of Corpora: まずはこちらの一覧を.
 ・ Corpus Finder: 登録されている全コーパスの情報が表形式のデータベースになっている."Corpus", "Start", "End", "Periods", "Word Count", "Text Samples", "Spoken/Written", "Annotation", "Format", "Availability" の各列でソートやフィルターが可能.(こういうデータベースがあると便利だろうなと思っていた!)

 各コーパスのリンク先には,概要説明から入手情報までの情報がよくまとまっている.特に "Basic structure of the corpus" は図表付きのものが多く有用."Reference lines and copyright" なども,ちょっとしたことなのだが論文を書くときなどにコピーできて便利.覚えておいて損はない HP だろう.
 CoRD の他にも,英語コーパス言語学に関連する重要な HP をいくつか掲載しておきたい.個々のコーパスの関連ページはしばしばリンク切れになっているので,複数のハブを押さえておく必要がある.

 ・ コーパス言語学関係のリンク集: 家入葉子先生のサイトより.
 ・ 英語史関係のコーパス・電子テキスト: 同上.
 ・ 英語史関係のコーパス: 三浦あゆみさんの A Gateway to Studying HEL より.
 ・ JAECS 英語コーパス学会のリンク集: 『英語コーパス言語学:第二版』(東京:研究社, 2005)に掲載されているものをまとめたリンク集.
 ・ コーパス関連サイト: 『実践コーパス言語学』の著者の一人,須賀廣氏のリンク集.
 ・ ICAME Corpus Manuals: ICAME コーパスのマニュアルがまとまっている.


[ | 固定リンク | 印刷用ページ ]

#307. コーパス利用の注意点[corpus][link]

2010-02-28

 英語研究を始め言語研究にコーパスが利用されるようになって,すでに久しい.英語史の分野でも,革新的な The Diachronic Part of the Helsinki Corpus of English Texts の出版以来,様々な種類の歴史・通時コーパスが出ている.
 研究には大いにコーパスを利用したいが,コーパス利用研究の注意点を(コメントつきで)挙げておきたい (McEnery et at. 121).

 (1) コーパスは negative evidence を提供してくれない.○○がどれだけ生起するかは教えてくれるが,××が生起しないことは教えてくれない.(だが,一般的にいって存在しないかもしれないことを研究することは難しいので,これはコーパス言語学に限った問題点ではない.)
 (2) コーパスは事実を提供してくれるが,その事実の説明はしてくれない.(確かに.説明それ自身は研究者の仕事である.)
 (3) コーパスは,研究の範囲を限定する.(コーパスではできない研究もたくさんある.コーパス研究は,問題を適切に設定すればその目的のためには常に有効である.しかし,最初の問題設定の外にも問題が広がっていることは忘れてはいけない.)
 (4) コーパス研究で導かれた結論を一般化する際には細心の注意を要する.(いくら膨大なコーパスでも,あくまで対象とする言語事実の部分集合である.)

 以上4点を書き留めてみてふと立ち止まった.考えてみれば,この4点はコーパス利用ならずとも常に気をつけなければならない点である.英語史を含め歴史言語学の研究は,話者の直感に頼ることができない以上,残された事実(=コーパス)を分析するところから始まらざるをえないのだから,それを電子的に扱うか否かにかかわらず,やっていることはコーパス言語学にほかならない.ただ,電子的な統計に注目する傾向のある近年の(コンピュータ)コーパス言語学では,上記4点について余計に注意すべきだということは言えるだろう.
 (3) に関連して,望遠鏡(コーパス言語学に代表される量的研究)と顕微鏡(文献学や談話分析に代表される質的研究)の比喩が興味深い.コーパスを利用するか否かにかかわらず,研究の目的が最重要ということだろう.

If it is ridiculous to criticize a telescope for not being a microsope, it is equally pointless to criticize the corpus-based approach for not doing what it is not intended to do (McEnery et al. 121)


 英語コーパス研究の入り口として,以下の非常に良質なリンクを参照.

 ・ コーパス言語学の入門: 家入葉子先生のサイトより.英語史研究に有用.
 ・ 英語史関係のコーパス・電子テキスト: 家入葉子先生のサイトより.
 ・ 英語史関係のコーパス: 三浦あゆみさんの A Gateway to Studying HEL より.
 ・ コーパス研究に有用なWebサイト一覧
 ・ JAECS 英語コーパス学会

 (後記 2010/03/21(Sun))
 ・ おすすめコーパスサイト: 『実践コーパス言語学』の著者の一人,須賀廣氏のリンク集.

 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

#367. コーパス利用の注意点 (2)[corpus]

2010-04-29

 [2010-02-28-1]の第二弾.重複することもあるが,改めてコーパス利用研究の注意点や弱点を備忘録として書き留めておきたい.いずれもコーパスやコーパス研究それ自身が悪いわけではなく,コーパス(研究)に依存しすぎると問題が生じると考えられるポイントである.

 ・ コーパスで研究できないことは研究しなくなる
 ・ コーパスで都合のよい結果が出ればそれを採用し,都合の悪い結果が出れば見て見ぬふりをする,というアドホックな態度に陥りがちになる
 ・ コーパスの扱いそのものが目的となってしまう傾向がある
 ・ コーパス研究はとりあえず数値として明確な結果が出るのでそれで満足してしまい,次の段階へ進まなくなる可能性がある
 ・ user-friendly なコーパス解析ツールの登場により分析の過程が black box 化されることが多く,行っている作業に無自覚・無責任になる傾向がある

 最初の点について付言すると,コーパス研究が可能あるいはふさわしいテーマについては,当然,一つの方法論としてコーパス利用が検討されるべきである.頻度を数え上げるタイプの研究課題がコーパス研究に向いているというのは言わずもがなだが,それ以外にどのようなタイプの研究がコーパスに向いているのか,きちんと考えてみる必要があるだろう.例えば,文献学ではほんの一例の存在が意味をもつことが少なくないので,頻度検索ならぬ有無検索にもコーパスは力を発揮しそうだ.

[ | 固定リンク | 印刷用ページ ]