hellog〜英語史ブログ

#3967. コーパス利用の注意点 (3)[corpus][methodology][representativeness]

2020-03-07

 標題については,以下の記事を含む様々な機会に取り上げてきた.

 ・ 「#307. コーパス利用の注意点」 ([2010-02-28-1])
 ・ 「#367. コーパス利用の注意点 (2)」 ([2010-04-29-1])
 ・ 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])
 ・ 「#1280. コーパスの代表性」 ([2012-10-28-1])
 ・ 「#2584. 歴史英語コーパスの代表性」 ([2016-05-24-1])
 ・ 「#2779. コーパスは英語史研究に使えるけれども」 ([2016-12-05-1])

 コーパスを利用した英語(史)研究はますます盛んになってきており,学界でも当然視されるようになったが,だからこそ利用にあたって注意点を確認しておくことは大事である.主旨はおよそ繰り返しとなるが,今回は英語歴史統語論の概説書を著わした Fischer et al. (14) より,4点を指摘しよう.

(i) there can be tension between what is easily retrieved through corpus searches and what is thought to be linguistically most significant; a historical syntactic case in point involves patterns of co-reference of noun phrases . . . ; these have been largely neglected because they involve information status, which is currently not part of any standard annotation scheme;

(ii) when a data search yields large numbers of hits, there may be a temptation to interpret corpus results merely as numbers, which is a severely reductive approach; in cases of grammaticalization, for example, changes in frequency may act as tell-tale signs . . . , but an exclusive quantitative focus will mean that one is ignoring the changes in meaning and context that form the core of the process;

(iii) the substantial amounts of data that can be collected from a corpus can also blind researchers to the dangers of making generalizations about the language as a whole on the basis of a partial view of it; this is a particularly relevant problem for diachronic research, because we only have very incomplete evidence for the state of the language in any historical period . . . ;

(iv) trying to achieve greater representativness by collecting and comparing data from various corpora can also be tricky: principles guiding text inclusion vary widely, there is little standardization in user interfaces, and they can require a significant time investment to learn to operate.


 この4点を私の言葉で超訳すれば,次のようになる.

 (i) コーパスで遂行しやすい問題が,言語学的には必ずしも意味のある問題ではないかもしれない点に注意すべし
 (ii) 量的な観点を重視する研究には役立ちそうだが,質的な観点が見過ごされてしまう危険性がある
 (iii) 巨大なコーパスであったとしても,完全に representative であるわけではない(いわゆる歴史言語学における "bad-data problem")
 (iv) コーパス編纂者の前提やインターフェース作成者の意図をつかんだ上で,使用法を心して習熟すべし

 ・ Fischer, Olga, Hendrik De Smet, and Wim van der Wurff. A Brief History of English Syntax. Cambridge: CUP, 2017.

Referrer (Inside): [2022-10-12-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow