昨日の記事「#1321. BNC Frequency Extractor」 ([2012-12-08-1]) に引き続き,ANC (American National Corpus) に基づく頻度表がANC Second Release Frequency Data のページに公開されていたので,"ANC Frequency Extractor" を作成した.
# 書き言葉テキストで,英米差があるとされる "diarrhoea" vs. "diarrhea" の綴字の生起頻度を確認
select * from written where word like "diarrh%"
# 書き言葉テキストで,英米差があるとされる "judgement" vs. "judgment" の綴字の生起頻度を確認.(その他,[2009-12-27-1]の記事「#244. 綴字の英米差のリスト」の綴字を放り込んでゆくとおもしろい.)
select * from written where word like "judg%ment%"
# -ly で終わらない副詞を探す(flat adverb かもしれない例を探す)
select * from anc where lemma not like "%ly" and pos like "RB%"
# -s で終わる副詞を探す(adverbial genitive の名残かもしれない例を探す)
select * from anc where pos like "RB%" and word like "%s"
# 単数名詞と複数名詞の token 数の比較を written subcorpus と spoken subcorpus で([2011-06-07-1]の記事「#771. 名詞の単数形と複数形の頻度」を参照)
select pos, sum(freq) from written where pos in ("NN", "NNS") group by pos
select pos, sum(freq) from spoken where pos in ("NN", "NNS") group by pos
select pos, sum(freq) from anc where pos in ("NN", "NNS") group by pos
ANC は有料だが,そこから抜粋された OANC (Open American National Corpus) は無料.ANC 及び OANC については,「#708. Frequency Sorter CGI」 ([2011-04-05-1]) や「#509. Dracula に現れる whilst (2)」 ([2010-09-18-1]) を参照.
"BNC Frequency Extractor" と "ANC Frequency Extractor" を組み合わせて使えば,語彙の英米差について頻度の観点から簡単に調査できる.
Powered by WinChalow1.0rc4 based on chalow