Adam Kilgarriff が公開している BNC database and word frequency lists から,見出し語化されていない頻度表 (unlemmatised lists) をダウンロードし,検索できるようにデータベースをこしらえた.
# 書き言葉テキストで,英米差があるとされる "diarrhoea" vs. "diarrhea" の綴字の生起頻度を確認
select * from written where word like "diarrh%"
# s で始まる語形を分散の高い順に
select * from variances where word like "s%" order by variance desc limit 100
# 母音変異の複数形を示す語の単数形の頻度(cf. 「#708. Frequency Sorter CGI」([2011-04-05-1]) の例では lemma 検索だった)
select * from bnc where word in ("foot", "goose", "louse", "man", "mouse", "tooth", "woman") and pos = "nn1" order by freq desc
# 母音変異の複数形の頻度
select * from bnc where word in ("feet", "geese", "lice", "men", "mice", "teeth", "women") and pos = "nn2"
# POSでまとめて頻度の高い順に(話し言葉 'demog')
select pos, sum(freq) from demog group by pos order by sum(freq) desc
# 最も広く多く使われる名詞
select * from variances where pos like "n%" order by variance desc limit 100
# 最も広く多く使われる形容詞
select * from variances where pos like "aj%" order by variance desc limit 100
なお,見出し語化されている頻度表 (lemmatised list) については,頻度にして800回以上現われる,上位6318位までの見出し語のみに限定されており,その検索ツールは「#708. Frequency Sorter CGI」 ([2011-04-05-1]) として実装してある.関連して,「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.
Powered by WinChalow1.0rc4 based on chalow