01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
ウェブ上で用いることのできるコーパスをいくつか紹介したい.
まず,「#1441. JACET 8000 等のベース辞書による語彙レベル分析ツール」 ([2013-04-07-1]) で取り上げた染谷泰正氏は,Business Letter Corpus のオンライン・コンコーダンサーをこちらで公開している.27種のコーパスからの検索が選択可能となっているが,メインは100万語超からなる Business Letter Corpus (BLC2000) とそれにタグ付けした POS-tagged BLC の2つだ.これは1970年代以降の英米その他の出版物から収集したデータである.
Instructions for the First-Time User でまとめられているように,種々のコーパスのなかには,167万語を超える State of the Union Address (1790--2006) などデータをダウンロードできるものもあり,有用である.英作文の学習・教育や,独自データベースのコンコーダンサー作成のために参考になる.
なお,同サイトでは,上述の各種コーパスから N-Gram Search を行なえる Bigram Plus の機能も提供している.N-Gram の検索には,本ブログより「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.
次は,英国のリーズ大学 (University of Leeds) が作成した大規模な Leeds collection of Internet corpora.英語を始め,フランス語,日本語などの様々な言語のコーパスをオンラインで検索できる.
日本語のコーパスの情報については詳しくないが,KOTONOHA 「現代日本語書き言葉均衡コーパス」は充実しているようだ.ほかの日本語コーパスの情報源としては,コーパス日本語学のための情報館 --- コーパス紹介が有用.
2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2024-11-26 08:10
Powered by WinChalow1.0rc4 based on chalow