hellog〜英語史ブログ

#1057. LAEME Index of Sources の検索ツール Ver. 2[laeme][web_service][cgi][dialect]

2012-03-19

 [2011-11-25-1]の記事「#942. LAEME Index of Sources の検索ツール」で SQL による検索用 CGI を公開した.最近,研究で LAEME を本格的に使う機会があり,検索用のデータベースに少しく情報を追加した.そこで,上位互換となる Ver. 2 を作ったので,公開する.
 追加した情報は,PERIOD, COUNTY, DIALECT の3フィールド.PERIOD は,もともとの IOS で与えられていたテキストの DATE をもとに,半世紀区切りで大雑把に区分しなおしたもの.C13b2--C14a1 など区分のまたがる場合には,早いほうをとって C13b と読み替えた."ca. 1300" なども同様に,早いほうへ倒して C13b とした.DATE において C13, C14 など半世紀で区切れない年代が与えられている場合には,C13, C14 のようにそのまま残した.
 COUNTY は,LOC に与えられていた情報をもとに,3文字の略字表記で示した.DIALECT は,所属する州 (county) をもとに大雑把に N (Northern), NWM (North-West Midland), NEM (North-East Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) の7方言に区分したものである.方言線は州境と一致しているわけではないし,方言線そのものの選定も,「#130. 中英語の方言区分」 ([2009-09-04-1]) や「#1030. England の現代英語方言区分 (2)」 ([2012-02-21-1]) で見たように,難しい.したがって,今回の DIALECT の付与も,[2009-09-04-1]の中英語方言地図に大雑把に照らしての仮のものである.参考までに,COUNTY と DIALECT の対応表はこちら

    


 使用法は[2011-11-25-1]の旧版と同じで,テーブル名は "ios" (for "Index of Sources") で固定.フィールドは,全部で23フィールド (ID, MS, TEXT_ID, FILE, DATE, PERIOD, TEXT, GRID, LOC, COUNTY, DIALECT, COMMENT, SAMPLING, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES, WORDS, SCRIPT, OTHER, STATUS, BIBLIO, CROSS_REF, URL) .select 文のみ有効.以下,典型的な検索式を挙げておく.

# 各 PERIOD に振り分けられたテキストの数
select distinct PERIOD, count(*) from ios group by PERIOD;

# 各 COUNTY に振り分けられたテキストの数
select distinct COUNTY, count(*) from ios group by COUNTY;

# 各 DIALECT に振り分けられたテキストの数
select distinct DIALECT, count(*) from ios group by DIALECT;

# DIALECT/PERIOD ごとに,所属するテキストの多い順にリストアップ
select distinct DIALECT, PERIOD, count(*) from ios group by DIALECT, PERIOD order by count(*) desc;

# Worcestershire のテキストを取り出し,PERIOD 順に諸情報を羅列
select TEXT_ID, FILE, MS, COUNTY, PERIOD, TAGGED_WORDS from ios where COUNTY = 'WOR' order by PERIOD;

  *  

Referrer (Inside): [2012-12-17-1] [2012-10-10-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow