hellog〜英語史ブログ

#363. 英語コーパス発展の3軸[corpus]

2010-04-25

 『英語コーパスの初歩』によると,英語コーパスの発展は (1) 大規模化,(2) 種類の拡大,(3) 品詞標識の付与,という3軸で進んできたという.以下はその詳細.

 (1) 大規模化.近代英語コーパスの祖である Brown Corpus ( The Standard Corpus of Present-Day Edited American English ) の公開されたのが1964年.約100万語からなるコーパスで,後の多くの英語コーパスがそのコーパスデザインにならった.しかし,1990年代以降は約1億語の BNC ( The British National Corpus ) や5億語を越える巨大規模の The Bank of English などが現れている.
 (2) 種類の拡大.コーパスの種類の拡大は,コーパスを用いて研究できる領域や切り口の選択肢が増えてきたことを意味する.Brown Corpus の正式名称が示唆するとおり,最初期のコーパスは「現代の」「書き言葉の」「英米変種の」「標準的な」英語を対象としていた.しかし,その後「歴史的な」「話し言葉も含めた」「英米変種以外の」「非母語話者や学習者の変種も含めた」英語を視野に入れたコーパスが続々と現れた.今後も,英語学・英文学の様々な領域と切り口を反映した種々のコーパスが編纂されてゆくことだろう.
 (3) 品詞標識の付与.より一般的には,annotation の種類や方法が増えてきたといえる.初期の平テキストのコーパスから,まずは品詞標識付け ( POS-Tagging ) が試みられ,続いて統語形態標識,構文解析,意味標識,音調標識なども付与されるようになってきている.これも,コーパス利用が英語学の種々の領域や理論に開かれてきたことと関連する.標識をテキストに埋め込むか,別ファイルとして提供するかという問題や,林立する annotation scheme の存在など,annotation をめぐる混乱はあるが,裏を返せば発展がそれほど著しいということだろう.

 上記のコーパス発展の3軸すべての前提として,コンピュータ技術の進歩,とりわけテキスト処理技術の進展があることは間違いない.コーパス分析・開発ソフトウェアの開発,そのマニュアルや教材の出版,研究者によるコーパス使用の試行錯誤もコーパス英語学の発展を後押ししている.テキスト処理技術が今後も発展を続けるのと平行して,コーパス英語学もますます勢いを増してゆくものと思われる.このように技術の進歩にともなってコーパス英語学自体が発展してゆくことは,それ自体としてよいことである.しかし,それだけでは物足りない.やはり研究の切り口を新しく開発することで,コーパス研究を発展させてゆくのが理想なのだろうと思う.
 昨日英語コーパス学会の第35回大会に参加しての所感.

 ・ 大門 正幸,柳 朋宏 著 『英語コーパスの初歩』 英潮社,2006年.5--6頁.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow