言語研究における corpus 「コーパス」は様々に定義されているが,McEnery et al. の定義が簡潔である.
. . . a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.
(1) と (2) についてはおよそ研究者間にコンセンサスがあるが,(3) と (4) については何をもって "sampled" あるいは "representative" とみなすかについて様々な意見がある.しかし,大筋においてこの定義を受け入れることができるだろう.
手軽に英語コーパスを試すには,オンラインのものが便利である.以下は,(登録の必要なものもあるが)オンラインで簡便に利用できる英語コーパス.
・ British National Corpus (いくつかのインターフェースが提供されている)
* BNC ( The British National Corpus )
* BNCweb (要無料登録)
* BYU-BNC (要無料登録)
・ BYU Corpora ( Brigham Young University, Mark Davies 提供のその他のオンラインコーパス群)
* COCA ( Corpus of Contemporary American English ) (要無料登録)
* COHA ( Corpus of Historical American English ) (要無料登録)
* TIME Magazine Corpus of American English (要無料登録)
・ Cobuild Concordance and Collocations Sampler
その他,本ブログではコーパス関係の記事をいろいろと掲載しているので,参考にされたい.
・ hellog 内のコーパス情報の集約記事: [2010-09-15-1]
・ hellog 内のコーパス関連記事: corpus
・ hellog 内の BNC 関連記事: bnc
・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.
Powered by WinChalow1.0rc4 based on chalow