hellog～英語史ブログ前の日次の日最新 helhub (The HEL Hub) 2015-09 検索ページへランダム表示

hellog～英語史ブログ / 2015-09-07

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2015-09-07 Mon

■ #2324. n-gram [corpus][information_theory][coca][bnc][google_books][statistics][n-gram][collocation][frequency][link]

　情報理論や自然言語処理の分野で用いられる n-gram という分析手法がある．コーパス言語学でもすでにお馴染みの概念であり，共起表現 (collocation) の研究などでは当たり前のように用いられるようになった．種々のコーパスのインターフェースにおいても採用されており，「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) では名前に含まれているほどだし，本ブログでも COCA (Corpus of Contemporary American English) の N-gram データベースを用いて「#956. COCA N-Gram Search」 ([2011-12-09-1]) を実装してきた（その応用は，「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1])，「#954. 脚韻を踏む2項イディオム」 ([2011-12-07-1])，「#955. 完璧な語呂合わせの2項イディオム」 ([2011-12-08-1]) を参照）．BNC では，Explore Words and Phrases from the BNC が利用できる．
　コンピュータを用いた分析手法というと難しそうに聞こえるが，n-gram の考え方は至って単純である．文字レベルの 2-gram (bigram) を考えてみよう．最長の英単語といわれる pneumonoultramicroscopicsilicovolcanoconiosis (「#63. 塵肺症は英語で最も重い病気？」 ([2009-06-30-1])) を例にとる．まず，先頭の2文字1組の pn を取り出す．次に，2文字目に進んで同じように ne を取り出す．3文字目に進んで eu を，4文字目に進んで um を得る．同じように，1文字ずつ右にずらしながら，最後の is まで2文字1組を次々と拾っていく．これで44組の2文字を得たことになる．この組のなかで，ic と co という組み合わせは各々3回起こり，os, si, no, on の組み合わせは各々2回現われ，それ以外の組み合わせはいずれも1度きりである．したがって，この単語において最高頻度の2文字1組は ic と co となる．
　n-gram の単位は，このように文字である必要はなく，音素でもよいし，より大きな単位である形態素や語でもよく，さらに大きな句などのより大きな単位でもよい．英語コーパス言語学では，語という単位で考えるのが普通だろう．Martin Luther King, Jr. の I Have a Dream の演説のテキストで語単位の 4-gram を取ると，最も多い4語の組み合わせは，予想通り "I have a dream" の8回だが，"will be able to" も同じく8回現われる．"Let freedom ring from" も7回とよく現われる，等々の分析が可能となる．ここでは4語という「窓」を設定したので 4-gram と呼ばれるが，隣接するいくつの文字を考慮するかにより 1-gram (unigram), 2-gram (bigram), 3-gram (trigram)，そして 5-gram 以上ももちろん考えることができる（1-gram の場合，得られるリストは，事実上各語の生起頻度表である）．
　巨大コーパスから得られた 2-gram や 3-gram の一覧は，それ自体が共起表現の研究などでは基本データとなるため，ウェブ上でもいろいろと公開されている．日本語では「N-gram コーパス - 日本語ウェブコーパス 2010」があるし，現代英語では COCA の n-gram データベースがある．また，Bigram Plus では，歴史英語コーパスを含めた各種英語コーパスから N-Gram Search を行なえる機能を提供している．ほかにも任意のテキストやコーパスを対象に n-gram を取る各種のツールやソフトも，ウェブ上で入手可能だ．
　n-gram 分析の言語分野への応用範囲は広い．次に来る語（音，文字）は何か，という予測可能性とも関係が深いため，機械による音声認識，統語分析，言語判定，自動翻訳，スペルチェック，剽窃探知，全文検索用インデックスの作成などに活用される．もちろん，共起表現の研究では，基本にして不可欠の手段となっている．一方，n-gram はもっぱら言語として表面化されたテキストを対象とし，深層にある構造にまったく触れることがないため，生成文法のような言語理論の方面からは批判があるようだ．詳しくは，n-gram in Wikipedia を参照．
　n-gram は工夫次第で，まだまだ使い道がありそうだ．歴史英語テキストにも，応用していきたい．

（後記　2015/09/12(Sat)： Sketch Engine より N-grams も参照．）

Referrer (Inside): [2016-09-07-1]

[ 固定リンク | 印刷用ページ ]

最終更新時間: 2025-12-24 09:34