初期近代英語期の膨大なテキストを収録した EEBO (Early English Books Online) について,「#3117. EEBO corpus がリリース」 ([2017-11-08-1]) で BYU 提供の EEBO 検索インターフェース Early English Books Online corpus を紹介した.
それとは別に,Early Modern Print: Text Mining Early Printed English というサイトのプロジェクトで,n-gram や KWIC などの検索インターフェースが提供されていることを知ったので紹介しておきたい.全体的なイントロは,こちらのページをどうぞ.個々の具体的なツールは,次のリンクからアクセスできる.
・ EEBO N-Gram Browser (説明はこちら)
・ EEBO-TCP Key Words in Context (説明はこちら)
・ EEBO-TCP and ESTC Text Counts
・ EEBO-TCP Words Per Year
また,University of Michigan の提供する Early English Books Online の各種サーチや Lancaster University による EEBO on CQPweb (V3) も同様に有用.
各種インターフェースのいずれを用いるか迷うところだ.
今日は軽くウェブ上のコンコーダンサーを紹介.英語例文検索 EReK は「英語で書かれたウェブページのテキストを巨大な例文集(コーパス)とみなし,それを検索するサイト」.Yohoo! の Web API が利用されている.出力は KWIC ( Key Word in Context ) で,百数十の例文が表示される.各コンコーダンス・ラインから,ワンクリックでソースに飛ぶことができるのも便利.また,キーワード前後の語での並べ替え機能や,検索対象を .edu ドメインや ニュースサイトに限定するオプションも装備されている.「ウェブ上の文書なので正確な表現である保証はありません」と但し書きがあるが,Web上の手軽なコンコーダンサーとして利用価値はありそうだ.
時々刻々と変化するウェブ・リソースを検索対象とするので一種の monitor corpus とも考えられ,時事を反映した出力が期待できる.例えば,2010年4月24日現在,ニュースサイト限定検索 "volcano" とやれば Iceland や Icelandic と共起するコンコーダンス・ラインが大量に得られる.( see [2010-04-20-1]. )
姉妹版で日本語版の JReK もあり,こちらは日本語の文章書きに効果を発揮しそう.
Powered by WinChalow1.0rc4 based on chalow