anc / hellog～英語史ブログ

最終更新時間: 2026-07-10 19:54

2012-12-09 Sun

■ #1322. ANC Frequency Extractor [cgi][web_service][frequency][corpus][anc]

　昨日の記事「#1321. BNC Frequency Extractor」 ([2012-12-08-1]) に引き続き，ANC (American National Corpus) に基づく頻度表がANC Second Release Frequency Data のページに公開されていたので，"ANC Frequency Extractor" を作成した．

　仕様は，"BNC Frequency Extractor" と少々異なる．データベースは SQLite で，select 文のみ有効というのは同様．テーブルは "anc" （コーパス全体），"written" （書き言葉コーパス），"spoken" （話し言葉コーパス) ，"token" (語形ごとの頻度と生起率）の4種類．フィールドは，"anc", "written", "spoken" の各テーブルについては，"word", "lemma", "pos", "freq" の4つ，"token" のテーブルについては，"word", "freq", "ratio" の3つである．POS-tag については，Penn Treebank Tagset を参照．
　以下に，検索式をいくつか挙げておこう．

# 書き言葉テキストで，英米差があるとされる "diarrhoea" vs. "diarrhea" の綴字の生起頻度を確認
select * from written where word like "diarrh%"

# 書き言葉テキストで，英米差があるとされる "judgement" vs. "judgment" の綴字の生起頻度を確認．（その他，[2009-12-27-1]の記事「#244. 綴字の英米差のリスト」の綴字を放り込んでゆくとおもしろい．）
select * from written where word like "judg%ment%"

# -ly で終わらない副詞を探す（flat adverb かもしれない例を探す）
select * from anc where lemma not like "%ly" and pos like "RB%"

# -s で終わる副詞を探す（adverbial genitive の名残かもしれない例を探す）
select * from anc where pos like "RB%" and word like "%s"

# 単数名詞と複数名詞の token 数の比較を written subcorpus と spoken subcorpus で（[2011-06-07-1]の記事「#771. 名詞の単数形と複数形の頻度」を参照）
select pos, sum(freq) from written where pos in ("NN", "NNS") group by pos
select pos, sum(freq) from spoken where pos in ("NN", "NNS") group by pos
select pos, sum(freq) from anc where pos in ("NN", "NNS") group by pos

　ANC は有料だが，そこから抜粋された OANC (Open American National Corpus) は無料．ANC 及び OANC については，「#708. Frequency Sorter CGI」 ([2011-04-05-1]) や「#509. Dracula に現れる whilst (2)」 ([2010-09-18-1]) を参照．
　"BNC Frequency Extractor" と "ANC Frequency Extractor" を組み合わせて使えば，語彙の英米差について頻度の観点から簡単に調査できる．

Referrer (Inside): [2014-01-21-1]

[ 固定リンク | 印刷用ページ ]

anc - hellog～英語史ブログ

2012-12-09 Sun

■ #1322. ANC Frequency Extractor [cgi][web_service][frequency][corpus][anc]