#1323. Helsinki Corpus の COCOA 検索

2012-12-10

　Helsinki Corpus (The Diachronic Part of the Helsinki Corpus of English Texts) は1991年に公開されて以来，英語歴史コーパスの元祖として重用されてきた．HC の役割は現在でも薄れておらず，本ブログでも「#381. oft と often の分布の通時的変化」 ([2010-05-13-1]) を始め，hc の各記事で言及してきた．
　HC を本格的に使いこなすには，こちらのマニュアルを熟読する必要がある．とりわけ時代別サブコーパスの語数は押さえておく必要があるし，COCOA Format による参照コードの理解も重要だ．COCOA Format は，HC のソーステキスト内にそのテキストに関する種々の情報を付与するための形式である．各テキストについて，その年代，方言，著者の性別，韻文か散文かなどの情報が，この形式により付与されている．使用者は，この情報を利用することにより，特定の条件を満たすテキストを選び出すことができるというわけだ．
　HC の COCOA 情報を利用した条件の絞り込みを簡便にするために，まず表形式にまとめ，それをデータベース化 (SQLite) した．

　以下，使用法の説明．SQL対応で，テーブル名は "hccocoa" として固定．select 文のみ有効．フィールドは26項目："ID", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z"．各パラメータの意味は，以下の通り．また，各パラメータの取りうる値の詳細については，マニュアルを参照（あるいは，"select distinct C from hccocoa order by C" などと検索しても調べられる）．

A = "author"
B = "name of text file"
C = "part of corpus"
D = "dialect"
E = "participant relationship"
F = "foreign original"
G = "relationship to foreign original"
H = "social rank of author"
I = "setting"
J = "interaction"
K = "contemporaneity"
M = "date of manuscript"
N = "name of text"
O = "date of original"
P = "page"
Q = "text identifier"
R = "record"
S = "sample"
T = "text type"
U = "audience description"
V = "verse" or "prose"
W = "relationship to spoken language"
X = "sex of author"
Y = "age of author"
Z = "prototypical text category"

　典型的な検索式を例として挙げておく．

# 表全体を再現
select * from hccocoa

# 時代区分別のテキスト数
select C, count(*) from hccocoa group by C

# テキストタイプ別のテキスト数
select T, count(*) from hccocoa group by T

# ME に時代区分されているテキストの各種情報を一覧
select B, C, D, V from hccocoa where C like 'M%' order by C

[ ツイート | 固定リンク | 印刷用ページ ]

#1323. Helsinki Corpus の COCOA 検索[cgi][web_service][hc][corpus]