hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 次ページ / page 5 (10)

corpus - hellog〜英語史ブログ

最終更新時間: 2020-06-05 08:55

2012-12-12 Wed

#1325. 会話で否定形が多い理由 [corpus][negative][frequency]

 Cheshire (115) を読んでいて,現代英語に関する記述として,会話において否定形が多く使われるという言及に遭遇した.直感的には確かにそのように思われるが,客観的な裏付けはあるのだろうかと,LGSWE に当たってみた.すると,関連する記述が pp. 159--60 に見つかった.
 否定形にも様々な種類があるが,4つの使用域のそれぞれについて,コーパスを用いて "Distribution of not/n't v. other negative forms" を調査した結果が示されていた.100万語当たりの生起数を,グラフと表で示そう.

Distribution of <em>not</em>/<em>n't</em> v. Other Negative Forms

not/n'tother negative forms
CONV195002500
FICT95004000
NEWS45002000
ACAD35001500


 会話で否定形が頻出する理由として,LGSWE は以下を挙げている.

 (1) 会話では他のレジスターよりも動詞が多い.否定は動詞と最も強く結びつくので,会話で否定が多いのは当然予想される.
 (2) 会話では他のレジスターよりも節が短く,多い.その分,否定の節も多くなることは当然予想される.
 (3) 会話では表現の反復が多い.否定形の反復もそれに含まれる.
 (4) 多重否定や付加疑問など,話しことばに典型的な否定構文というものがある.
 (5) not と強く共起する動詞があり,それらはとりわけ会話において頻度が高い.例えば,forget, know, mind, remember, think, want, worry などの心理動詞など.
 (6) 会話には相手がおり,意見の一致や不一致に関わる表現が多くなる.会話では,not のみならず no や他の否定辞も頻出する.

 CONV の次に FICT に否定形が多いのは,おそらくフィクションにおける対話部分が貢献しているからだろう.また,(1) については,会話には全体として動詞が多く生起するという事情も関与しているだろう.

 ・ Cheshire, Jenny. "Double Negatives are Illogical." Language Myths. Ed. Laurie Bauer and Peter Trudgill. London: Penguin, 1998. 113--22.
 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

[ | 固定リンク | 印刷用ページ ]

2012-12-10 Mon

#1323. Helsinki Corpus の COCOA 検索 [cgi][web_service][hc][corpus]

 Helsinki Corpus (The Diachronic Part of the Helsinki Corpus of English Texts) は1991年に公開されて以来,英語歴史コーパスの元祖として重用されてきた.HC の役割は現在でも薄れておらず,本ブログでも「#381. oftoften の分布の通時的変化」 ([2010-05-13-1]) を始め,hc の各記事で言及してきた.
 HC を本格的に使いこなすには,こちらのマニュアルを熟読する必要がある.とりわけ時代別サブコーパスの語数は押さえておく必要があるし,COCOA Format による参照コードの理解も重要だ.COCOA Format は,HC のソーステキスト内にそのテキストに関する種々の情報を付与するための形式である.各テキストについて,その年代,方言,著者の性別,韻文か散文かなどの情報が,この形式により付与されている.使用者は,この情報を利用することにより,特定の条件を満たすテキストを選び出すことができるというわけだ.
 HC の COCOA 情報を利用した条件の絞り込みを簡便にするために,まず表形式にまとめ,それをデータベース化 (SQLite) した.

    


 以下,使用法の説明.SQL対応で,テーブル名は "hccocoa" として固定.select 文のみ有効.フィールドは26項目:"ID", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z".各パラメータの意味は,以下の通り.また,各パラメータの取りうる値の詳細については,マニュアルを参照(あるいは,"select distinct C from hccocoa order by C" などと検索しても調べられる).

A = "author"
B = "name of text file"
C = "part of corpus"
D = "dialect"
E = "participant relationship"
F = "foreign original"
G = "relationship to foreign original"
H = "social rank of author"
I = "setting"
J = "interaction"
K = "contemporaneity"
M = "date of manuscript"
N = "name of text"
O = "date of original"
P = "page"
Q = "text identifier"
R = "record"
S = "sample"
T = "text type"
U = "audience description"
V = "verse" or "prose"
W = "relationship to spoken language"
X = "sex of author"
Y = "age of author"
Z = "prototypical text category"


 典型的な検索式を例として挙げておく.

# 表全体を再現
select * from hccocoa

# 時代区分別のテキスト数
select C, count(*) from hccocoa group by C

# テキストタイプ別のテキスト数
select T, count(*) from hccocoa group by T

# ME に時代区分されているテキストの各種情報を一覧
select B, C, D, V from hccocoa where C like 'M%' order by C

[ | 固定リンク | 印刷用ページ ]

2012-12-09 Sun

#1322. ANC Frequency Extractor [cgi][web_service][frequency][corpus][anc]

 昨日の記事「#1321. BNC Frequency Extractor」 ([2012-12-08-1]) に引き続き,ANC (American National Corpus) に基づく頻度表がANC Second Release Frequency Data のページに公開されていたので,"ANC Frequency Extractor" を作成した.

    


 仕様は,"BNC Frequency Extractor" と少々異なる.データベースは SQLite で,select 文のみ有効というのは同様.テーブルは "anc" (コーパス全体),"written" (書き言葉コーパス),"spoken" (話し言葉コーパス) ,"token" (語形ごとの頻度と生起率)の4種類.フィールドは,"anc", "written", "spoken" の各テーブルについては,"word", "lemma", "pos", "freq" の4つ,"token" のテーブルについては,"word", "freq", "ratio" の3つである.POS-tag については,Penn Treebank Tagset を参照.
 以下に,検索式をいくつか挙げておこう.

# 書き言葉テキストで,英米差があるとされる "diarrhoea" vs. "diarrhea" の綴字の生起頻度を確認
select * from written where word like "diarrh%"

# 書き言葉テキストで,英米差があるとされる "judgement" vs. "judgment" の綴字の生起頻度を確認.(その他,[2009-12-27-1]の記事「#244. 綴字の英米差のリスト」の綴字を放り込んでゆくとおもしろい.)
select * from written where word like "judg%ment%"

# -ly で終わらない副詞を探す(flat adverb かもしれない例を探す)
select * from anc where lemma not like "%ly" and pos like "RB%"

# -s で終わる副詞を探す(adverbial genitive の名残かもしれない例を探す)
select * from anc where pos like "RB%" and word like "%s"

# 単数名詞と複数名詞の token 数の比較を written subcorpus と spoken subcorpus で([2011-06-07-1]の記事「#771. 名詞の単数形と複数形の頻度」を参照)
select pos, sum(freq) from written where pos in ("NN", "NNS") group by pos
select pos, sum(freq) from spoken where pos in ("NN", "NNS") group by pos
select pos, sum(freq) from anc where pos in ("NN", "NNS") group by pos


 ANC は有料だが,そこから抜粋された OANC (Open American National Corpus) は無料.ANC 及び OANC については,「#708. Frequency Sorter CGI」 ([2011-04-05-1]) や「#509. Dracula に現れる whilst (2)」 ([2010-09-18-1]) を参照.
 "BNC Frequency Extractor" と "ANC Frequency Extractor" を組み合わせて使えば,語彙の英米差について頻度の観点から簡単に調査できる.

Referrer (Inside): [2014-01-21-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-08 Sat

#1321. BNC Frequency Extractor [cgi][web_service][frequency][corpus][bnc]

 Adam Kilgarriff が公開している BNC database and word frequency lists から,見出し語化されていない頻度表 (unlemmatised lists) をダウンロードし,検索できるようにデータベースをこしらえた.

    


 仕様の説明.データベースには SQLite を用いており,SQL対応.select 文のみ有効.テーブルは "bnc" (コーパス全体),"written" (書き言葉コーパス),"demog" ('demographic' spoken material) ,"cg" ('context-governed' spoken material) ,"variances" (計算された分散その他の値を含む)の5種類.variances を除く4テーブルについては,フィールドは "freq" (頻度), "word" (語形), "pos" (品詞;BNC CLAWS POS-tags の一覧を参照), "files" (その語形が生起しているテキスト数)の4つ.variances のテーブルについては,上記4フィールドに加えて,"mean" (= freq / files) ,"variance" (分散),"variance_to_mean" (= variance / mean) の3つが設定されている.variances の計算基準となっているサブコーパスは,5000語以上を含む書き言葉テキストということで,全体としては約1千万語(BNC全体の約1割)である.具体的には,"select * from bnc limit 10" や "select * from variances limit 10" などとすれば,データの格納のされ方を確かめることができる.
 以下に,典型的な検索式を挙げておこう.

# 書き言葉テキストで,英米差があるとされる "diarrhoea" vs. "diarrhea" の綴字の生起頻度を確認
select * from written where word like "diarrh%"

# s で始まる語形を分散の高い順に
select * from variances where word like "s%" order by variance desc limit 100

# 母音変異の複数形を示す語の単数形の頻度(cf. 「#708. Frequency Sorter CGI」([2011-04-05-1]) の例では lemma 検索だった)
select * from bnc where word in ("foot", "goose", "louse", "man", "mouse", "tooth", "woman") and pos = "nn1" order by freq desc

# 母音変異の複数形の頻度
select * from bnc where word in ("feet", "geese", "lice", "men", "mice", "teeth", "women") and pos = "nn2"

# POSでまとめて頻度の高い順に(話し言葉 'demog')
select pos, sum(freq) from demog group by pos order by sum(freq) desc

# 最も広く多く使われる名詞
select * from variances where pos like "n%" order by variance desc limit 100

# 最も広く多く使われる形容詞
select * from variances where pos like "aj%" order by variance desc limit 100


 なお,見出し語化されている頻度表 (lemmatised list) については,頻度にして800回以上現われる,上位6318位までの見出し語のみに限定されており,その検索ツールは「#708. Frequency Sorter CGI」 ([2011-04-05-1]) として実装してある.関連して,「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.

Referrer (Inside): [2014-01-21-1] [2012-12-09-1]

[ | 固定リンク | 印刷用ページ ]

2012-11-24 Sat

#1307. mostmest [analogy][superlative][vowel][me_dialect][corpus][hc][ppcme2][comparison]

 中英語には,最上級 mostmest という前舌母音字を伴って現われることが少なくない.近代英語以降,後者は廃れていったが,両形の起源と分岐はどこにあるのだろうか.
 most は Proto-Germanic *maistaz に遡ることができ,ゲルマン諸語では Du. meest, G meist, ON mestr, Goth. maists などで文証される.音韻規則に従えば,古英語形は māst となるはずであり,実際にこの形態は Northumbrian 方言で確認されるものの,南部方言では確認されない.南部では,前舌母音を伴う West-Saxon mǣst や Kentish mēst が用いられた.OED によれば,前舌母音形は,lǣst "least" との類推とされる.この前舌母音の系統が,主として mest(e) という形態で中英語の南部方言へも継承され,そこでは15世紀まで使われた.
 一方,北部方言に起源をもつ形態は,中英語では後舌母音の系統を発達させ,主として most(e) という形態が多用された.じきに中部,南部でも一般化したが,北部方言形の南下というこの時期の一般的な趨勢に加え,比較級 mo, more の母音との類推も一役買ったのではないかと想像される.
 結果的に,近代英語以降にはゲルマン祖語からの規則的な発達形 most が標準的となってゆき,古英語から中英語にかけて用いられた mest は標準からは失われていった.「一番先の」を意味する中英語 formest (cf. 比較級 former) が,15世紀に foremost として再分析された背景には,上述の most による mest の置換が関与しているかもしれない.もっとも,古英語より,最上級語尾の -est 自体が -ost とよく混同されたのであり,最上級に関わる形態論において,両母音の交替は常にあり得たことなのかもしれない.
 なお,PPCME2 でざっと後舌母音系統 (ex. most) と前舌母音系統 (ex. mest) の分布を調べてみると,前者が354例,後者が168例ヒットした.Helsinki Corpus でも簡単に調査したが,中英語でも現代標準英語と同様に most 系統が主流だったことは間違いないようだ.

[ | 固定リンク | 印刷用ページ ]

2012-11-22 Thu

#1305. 統語タグのついた Google Books Ngram Corpus [corpus][google_books][ame_bre]

 [2010-12-25-1]の記事「#607. Google Books Ngram Viewer」で紹介した Google 提供のコーパスツールに,統語タグが付けられた.インターフェースである Google Books Ngram Viewer の見かけは変わらないが,検索欄へ統語標識つきの検索式を入力できるようになった.その紹介と利用法は,Syntactic Annotations for the Google Books Ngram Corpus で参照できる.
 現在,Google Books Ngram Corpus は English, Spanish, French, German, Russian, Italian, Chinese, Hebrew の8言語のコーパスを含むが,英語コーパスに関する限り,4,541,627冊分,468,491,999,492 tokens からなる超巨大テキスト・データベースとなっている.データセットはこちらから入手可能.
 実装された統語タグは,具体的にいえば,品詞 (POS) と修飾関係 (head-modifier) である.標識付けは統計学的に自動で行なわれている.品詞は以下の12種類が区別される.

NOUN (nouns), VERB (verbs), ADJ (adjectives), ADV (adverbs), PRON (pronouns), DET (determiners and articles), ADP (prepositions and postpositions), NUM (numerals), CONJ (conjunctions), PRT (particles), '.' (punctuation marks), X (a catch-all for other categories such as abbreviations or foreign words)


 入力式としては,例えば "burnt" のように語形を入れることもできるし,"burnt_VERB" のように品詞を指定して入れることもできる.さらに 3-grams 以内の統語連鎖であれば "_ADJ_" のような一括指定も利用できる.以上のパターンを合わせて,"the _ADJ_ girl_NOUN" なども可能だ.修飾関係の指定では,"hair=>black", "read=>book" などと入力でき,冠詞やその他のノイズとなる要素をはじくことが可能となっている.
 名詞と動詞の用法を共有している語について,品詞別に頻度変化をみたい場合を考えよう.travel は名詞でも動詞でもあるが,英語コーパス全体を対象とした検索によれば,20世紀に入って名詞用法が動詞用法を追い抜いたことがわかる.ただし,対象コーパスをアメリカ英語イギリス英語に切り替えて比較すると,後者で名詞が動詞を頻度の上で追い抜くのは1960年代とずっと遅い.
 ほかに,have a look 及び take a look という表現の拡大を調べようとする場合に,不定冠詞の後に形容詞などが挿入される可能性も考慮し,"have>=look, take>=look" などと検索してみた.アメリカ英語では take を用いた表現が1970年に追い抜いているが,イギリス英語では20世紀中に徐々に拡大こそしているが,いまだ have を用いた表現に追いついていない.

[ | 固定リンク | 印刷用ページ ]

2012-10-31 Wed

#1283. 共起性の計算法 [corpus][statistics][bnc][collocation][lltest]

 [2010-03-04-1]の記事「#311. girl とよく collocate する形容詞は何か」で,語と語の共起 (collocation) を測る計算法 (association measure) にはいくつかの種類があることを見た.コーパス言語学では,Log-Likelihood Test という検定にかかわる計算法が比較的よく使われているが,それぞれの計算法には特徴があるので,なるべく複数の方法を試すのがよい.今回は[2010-03-04-1]の内容と重複する部分もあるが,BNCweb で実装されている7種類の計算法の各々について Hoffmann et al. (149--58) を参照しながら,特徴および利用のヒントを示したい.
 各種の計算法は,(a) 共起頻度 (frequency of co-occurrence),(b) 共起有意性 (significance of co-occurrence),(c) エフェクト・サイズ (effect-size) の1つ,あるいは複数の組み合わせに基づいている.(b) は,共起が統計的に有意であるとの確信度を表わす指標であり,共起の強さを表わすものではないことに注意する必要がある.(c) は,観察頻度と期待頻度との比を計算の基本とする指標である.

 (1) Rank by frequency
  観察される共起頻度そのものを用いる,最も単純で直感的な尺度.他の計算法のような複雑な統計処理はほどこされておらず,指標としては最も粗い.機能語や句読記号などが上位に来ることが多い.通常の共起分析には用いられない.

 (2) Log-likelihood
  共起有意性を用いる.BNCweb のデフォルトの計算法で,コーパス研究で広く用いられている.機能語や句読記号などの極めて高頻度の語との共起や,逆に極めて低頻度の語(1, 2回など)との共起をはじく傾向がある.しかし,共起頻度の高い組み合わせに高得点を与えるという特徴があり,解釈には注意を要する.

 (3) Mutual information (MI)
  エフェクト・サイズを用いる.非常によく用いられている計算法だが,利用に当たっては多くの注意を要する.機能語や句読記号などとのありふれた共起を効果的に排除してくれる点はよいが,反面,低頻度の共起表現への偏りが激しい.この偏りの影響を減じるために,BNCweb では "Freq(node, collocate) at least" を10以上に設定することが推奨される.これにより,"conspicuous and intuitively appealing collocations involving words of intermediate frequency" (Hoffmann et al. 154) が浮き彫りとなる.

 (4) T-score
  共起頻度と共起有意性を考慮する計算法.期待頻度が1以下程度の稀な共起表現については Rank by frequency と似たような振る舞いをし,頻度の高い共起表現については共起有意性を反映した振る舞いをする.また,観察頻度が期待頻度よりも必ず高くなる.Log-likelihood と類似した結果となることが多いが,高頻度へのバイアスは一層強くなる.ノードそのものが1000回を大きく下回る場合に,効果を発揮することがある.

 (5) Z-score
  共起有意性とエフェクト・サイズを考慮する計算法.高頻度の共起表現にはエフェクト・サイズをより重視するが,低頻度の共起表現にはそこまでエフェクト・サイズに寄りかからない.Log-likelihood と MI の両特徴を兼ね備えたような,バランスの取れた指標である.ただし,MI と同様に,低頻度の共起表現へのバイアスがみられるので,"Freq(node, collocate) at least" を5程度に設定するのがよいとされる.

 (6) MI3
  共起頻度とエフェクト・サイズを考慮する計算法.MI のもつ低頻度表現への偏重を取り除くべく改善されている.低頻度共起表現にはエフェクト・サイズが,高頻度共起表現には共起頻度が,比較的よく反映される.POS による限定とともに用いると効果的.複数語からなる用語などの取り出しに威力を発揮する.しかし,全体としては高頻度共起表現へのバイアスが強く,一般的な共起分析には向かない.

 (7) Dice coefficient
  MI3 と同様に,共起頻度とエフェクト・サイズを考慮する計算法.しかし,MI3と異なり,低頻度共起表現には共起頻度が,高頻度共起表現にはエフェクト・サイズがよく反映され,両者の切り替えが急なのが特徴的である.切り替えは,ノードそのものの頻度が共起表現の頻度の10倍ほどの点で起こるとされる.経験的に,Z-score と似たような結果が得られるが,Z-score ほど頻度に基づくバイアスが見られない.

 以上のように多種類あって目移りするが,Hoffmann et al. の見解によれば,単一基準の計算法としては Log-likelihood と MI がお勧めで,混合基準の計算法としては Z-score と Dice がお勧めとのことである.
 共起性の様々な計算法については,Association measures を参照.

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

Referrer (Inside): [2019-07-10-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-28 Sun

#1280. コーパスの代表性 [corpus][representativeness][variety][idiolect][methodology]

 コーパスにとって代表性 (representativeness) が命であることは,コーパスの定義上 ([2010-11-16-1]) あきらかであるし,昨日の記事「#1279. BNC の強みと弱み」 ([2012-10-28-1]) で紹介した Leech もとりわけ主張している点である.McEnery et al. (13) は,代表性について,Leech の定義を参考にしながら "a corpus is thought to be representative of the language variety it is supposed to represent if the findings based on its contents can be generalized to the said language variety" と述べている.
 代表性を具体的に考えてみよう.例えば BNC がターゲットとするような,現代イギリス英語という一般的な変種を収録するコーパス (general corpus) の代表性はどのようにすれば得られるのか,その理論化は難しい.話し言葉と書き言葉の割合の問題を考えると,それぞれを50%ずつに割り振ることは,現代イギリス英語の代表性を約束してくれるだろうか.Leech の表現でいえば "impressionistic" とならざるを得ないが,今この瞬間に行なわれている現代イギリス英語の圧倒的な部分が,話し言葉においてではないか.もしそうだとすれば,話し言葉コーパスの割合を,例えば80%ほどに設定するほうがより代表性を確保できるのではないか.母体となる現代イギリス英語の全体像を直接つかむことができない以上,その代表性の議論は行き詰まってしまう.
 コーパス(特に一般コーパス)の代表性という場合に,これを balance と sampling という2つの概念に分けて考えることがある.McEnery et al. (13) では,"the representativeness of most corpora is to a great extent determined by two factors: the range of genres included in a corpus (i.e. balance . . .) and how the text chunks for each genre are selected (i.e. sampling . . .)" と説明されている.
 balance とは,BNC の用語でいうところの domain や genre という分類の設定に関するものである.例えば,現代イギリス英語のコーパスを標榜しながらも,イギリスの新聞の英語だけを集めたコーパスは,representativeness の点で難がある.現代イギリス英語には書き言葉だけでなく話し言葉もあるし,前者については新聞英語だけでなく文学英語もあれば電子メール英語もあるし,買い物メモ英語もあれば,日記英語もある.これらのあらゆる domain や genre を考慮に入れたいと思うが,果たしていくつの text domain があるのだろうか.新聞英語に限っても,タブロイドもあれば高級紙もある.1つの新聞内でも,社会面,スポーツ面,社説などを区別する必要はないのか,社会面であれば国内記事と国際記事の区別はどうか,等々.理論的にはどこまでも細分化しうる.話し言葉でも同様に細分化を推し進めていけば,個人語 (idiolect) ,さらに個人語における register 別の現われ,などのアトムへと終着してしまう.実際のコーパス作成上は,常識的なレベルで妥協することになるが,「常識的」と "impressionistic" はほぼ同義だろう.
 sampling とは代表性を得るための手法である.母体の言語的特徴が再現されるように,質と量の点において考慮を加えながら,コーパス内に各 domain を案配するための理論と実践である.ここには,sampling unit として何を設定するか(典型的には,本,雑誌,新聞などの製品としての単位),そのような単位をリスト化する作業の範囲 (sampling frame) をどこまでに設定するか(特定の年への限定や,ベストセラー本への限定など),標本収集は完全なランダムにするかある程度の体系化を加えた上でのランダムにするか,著作権の問題をどう乗り越えるかなどの,理論的・実践的な問題が含まれる.
 代表性に関わるもう1つの概念として,closure あるいは saturation と呼ばれるものもある.McEnery et al. (16) によれば,"Closure/saturation for a particular linguistic feature (e.g. size of lexicon) of a variety of language (e.g. computer manuals) means that the feature appears to be finite or is subject to very limited variation beyond a certain point." と説明されている.平たくいえば,これ以上コーパスの規模を大きくしても,語彙構成の割合は変わらないという規模に到達すれば,そのコーパスは saturated であると考えられる.代表性の指標としては,balance よりも saturation のほうがすぐれているという指摘もあるが,saturation は主として語彙が念頭にあり,他の言語項目への応用は試みられていないのが現状である.
 代表性は,定義上コーパスの命であるとはいっても,定義先行というきらいはある.それを確保するための理論もないし,検証法もない.すべてのコーパス編纂者に立ちはだかる頭の痛い問題だろうが,コーパスは次々と編纂されている.理論的な問題は別にして,ひたすら編纂と使用を続けてゆき,ノウハウをため込むべき段階にあるのかもしれない.

 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

2012-10-27 Sat

#1279. BNC の強みと弱み [bnc][corpus][representativeness]

 10月8--11日の4日間にわたり,立教大学英語教育研究所による主催で,Lancaster 大学名誉教授 Geoffrey Leech の公開講演会が開かれた.私は,2日目の "The British National Corpus: Both a Triumph and a Failure" と題する講演のみの参加だったが,聴きに行った.BNC 編者じきじきの作成秘話など,おもしろい話しが何点かあった.
 題名にある "triumph" と "failure" について,Leech はそれぞれ次のような項目を列挙していた.

A triumph:
 ・ It has been claimed that the BNC is the most widely used corpus in the world.
 ・ It was the first text corpus of its size to be made widely available.
 ・ It is available from a wide range of different sources.
 ・ It is widely regarded as a 'standard reference corpus' for the English language.
 ・ It has been licensed to over 1300 institutions throughout the world, over 1800 users have signed on for access to it through the BNCweb online interface, etc.

A failure:
 ・ It never reached 100 million words! (98,300,000)
 ・ The design criteria were never totally achieved.
 ・ It hardly ever contains complete texts.
 ・ The spoken materials are poorly transcribed.
 ・ The metadata are incomplete and can be erroneous.
 ・ The part-of-speech tagging contains many errors.
 ・ It is out of date! (dating from the late 20th century)


 Leech の言葉の端々には,triumph の各点に示されているように,実績に裏付けされた自信がみなぎっていた.一方,自らのコーパス編集について,こうすればよかった,ああすればよかったという類の後悔ともいえる反省点を多く挙げていたのが印象的である.BNC のタグ付けに用いられたプログラム CLAWS4 の精度が97%ほどある(Hoffmann et al. 43 によると,98--99%)というのは,私は驚くべきことだと思っていたが,コーパス規模が大きいので数パーセントのエラーとはいっても約300万件にのぼるという事実は見落としていた.話しことばコーパスについては,コーパス全体の1割ほどしか含められなかったこと,音声データの transcription の質が悪かったこと,当初採用したデータフォーマット TEI が,話しことばのタグ付けには必ずしも適切でなかったこと,などを挙げていた.
 なかでも,企画段階から現在に至るまで一貫してこだわり続けている代表性 (representativeness) について,BNC では完全に目的を果たせなかったことに,後悔をにじませていた.企画段階から,設定する Text Domain のバランスやサイズに関する議論が重ねられてきたことはよく知られている.1ユーザーとしては,限られたリソースのなかで,あれだけの代表性を確保したことは偉業だと評価しているが,Leech にとっては,できる限りのことはやったという自負の反面として,理想が果たせなかったという思いも強いようだ.同時に,穏やかな口調ではあったが,BNC と比較される他のすべての大規模コーパスが,代表性をさほど重視していない点を批判していた.ただし,彼自身が述べているように,コーパスの代表性について独自の理論はもっているが,最終的には "impressionistic" な判断の問題だと考えているようであり,この問題の難しさをにじませていた.いずれにせよ,Leech の代表性への執念の強さに,高度なプロフェッショナリズムを感じた.
 なお,[2012-07-05-1]の記事「#1165. 英国でコーパス研究が盛んになった背景」で触れた通り,残念ながらBNCの続編はないだろうということを,Leech は明言していた.
 扱う時代は大きく異なるが,初期中英語コーパス The LAEME Corpus の代表性の問題について,[2012-10-10-1], [2012-10-11-1]の記事で考察したので,ご参照を.

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

[ | 固定リンク | 印刷用ページ ]

2012-10-26 Fri

#1278. BNC を中心とするコーパス研究関連のリンク集 [corpus][bnc][link][web_service][lltest]

 コーパス言語学の勢いが止まらない.分野が分野だけに,関連情報はウェブ上で得られることが多く,便利なようにも思えるが,逆に情報が多すぎて,選択と判断に困る.せめて自分のためだけでも便利なリンク集をまとめておこうと思うのだが,学界のスピードについて行けない.私が最もよく用いる BNC に関連するものを中心に,断片的ではあるが,リンクを張る.リンク集をまとめる労を執るよりは,芋づる式にたどるかキーワード検索のほうが効率的という状況になりつつある・・・.
 
1. BNC インターフェース

  ・ BNCweb要無料登録
  ・ BYU-BNC (要無料登録)
  ・ BNC ( The British National Corpus )

2. BNC のレファレンス・ガイド

  ・ Quick Reference for Simple Query Syntax (PDF)
  ・ Reference Guide for the British National Corpus (XML Edition)
  ・ 上の Reference Guide の目次
    * 6.5 Guidelines to the Wordclass Tagging
    * The BNC Basic (C5) Tagset
    * 9.8 Simplified Wordclass Tags
    * 9.7 Contracted forms and multiwords
    * 1 Design of the Corpus
    * 9.6 Text and genre classification code

3. コーパス関連の総合サイト

  ・ David Lee による Bookmarks for Corpus-based Linguists
    * Corpora, Collections, Data Archives
    * Software, Tools, Frequency Lists, etc.
    * References, Papers, Journals
    * Conferences & Project

4. hellog 内の記事

  ・ 「#568. コーパスの定義と英語コーパス入門」: [2010-11-16-1]
  ・ 「#506. CoRD --- 英語歴史コーパスの情報センター」: [2010-09-15-1]
  ・ 「#308. 現代英語の最頻英単語リスト」: [2010-03-01-1]
  ・ コーパス関連記事: corpus
  ・ BNC 関連記事: bnc
  ・ COCA 関連記事: coca

5. 計算ツール

  ・ Corpus Frequency Wizard
  ・ Paul Rayson's Log-likelihood Calculator
  ・ VassarStats
  ・ hellog の「#711. Log-Likelihood Tester CGI, Ver. 2」: [2011-04-08-1]

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

Referrer (Inside): [2015-04-22-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-24 Wed

#1276. hereby, hereof, thereto, therewith, etc. [compounding][synthesis_to_analysis][adverb][register][corpus][bnc][hc]

 標題のような herethere を第1要素とし,前置詞を第2要素とする複合副詞は多数ある.これらは,herethis と,thereitthat と読み替えて,それを前置詞の後ろに回した句と意味的に等しく,標題の語はそれぞれ by this, of this, to that, with that ほどを意味する.現代では非常に形式張った響きがあるが,古英語から初期近代英語にかけてはよく使用され,その種類や頻度はむしろ増えていたほどである.だが,17世紀以降は急激に減ってゆき,現代のような限られた使用域 (register) へと追い込まれた.衰退の理由としては,英語の構造として典型的でないという点,つまり総合から分析への英語の自然な流れに反するという点が指摘されている (Rissanen 127) .文法化した語として,現代まで固定された状態で受け継がれた語は,therefore のみといってよいだろう.
 現代英語で確認される使用域の偏りは,すでに中英語にも萌芽が見られる.here-, there- 複合語は,後期中英語ではいまだ普通に使われているが,ジャンルでみると法律文書での使用が際だっている.以下は,Rissanen (127) の Helsinki Corpus による調査結果である(数字は頻度,カッコ内の数字は1万語当たりの頻度を表わす).


StatutesOther texts
ME4 (1420--1500)68 (60)621 (31)
EModE1 (1500--70)77 (65)503 (28)
EModE2 (1570--1640)84 (71)461 (26)
EModE3 (1640--1710)126 (96)191 (12)


 初期近代英語のあいだ,一般には問題の複合語の頻度は落ちているが,法律文書においては token 頻度が(そして,Rissanen, p. 128 によれば type 頻度も)増加していることに注意されたい.後の時代でも,法律文書における使用は続き,現代に至る.
 現代の分布については,独自に BNCweb で調べてみた.therefore を除く,hereabout, hereabouts, hereafter, hereby, herein, hereinafter, hereof, hereto, heretofore, hereupon, herewith, thereabout, thereabouts, thereafter, thereby, therefrom, therein, thereinafter, thereof, thereon, thereto, theretofore, thereunder, thereupon, therewith の25語について,Written Corpus に絞った上で,CQP syntax にて 「"(hereabout|hereabouts|hereafter|hereby|herein|hereinafter|hereof|hereto|heretofore|hereupon|herewith|thereabout|thereabouts|thereafter|thereby|therefrom|therein|thereinafter|thereof|thereon|thereto|theretofore|thereunder|thereupon|therewith)" %c」と検索した.出現頻度は 68.93 wpm で,散らばり具合は3140テキスト中の1522テキストである.
 次に,法律関係の文書を最も多く含んでいると想定されるジャンルとして「W:ac:polit_law_edu」に絞り,同じ検索式で結果を見ると,231.33 wpm で,186テキスト中の153テキストに出現する.なお,「W:admin」に絞ると,コーパスサイズはずっと小さくなるが,頻度は439.85 wpm となり,最頻出ジャンルであることがわかる.いずれにせよ,この種のジャンルで here-, there- 複合語が今なお頻繁に用いられていることは確かめられた.

 ・ Rissanen, Matti. "Standardisation and the Language of Early Statutes." The Development of Standard English, 1300--1800. Ed. Laura Wright. Cambridge: CUP, 2000. 117--30.

[ | 固定リンク | 印刷用ページ ]

2012-10-12 Fri

#1264. 歴史言語学の限界と,その克服への道 [methodology][uniformitarian_principle][writing][history][sociolinguistics][laeme][corpus][representativeness]

 [2012-10-10-1], [2012-10-11-1]の記事で,The LAEME Corpus の代表性について取りあげた.私の評価としては,カバーしている方言と時代という観点からみて代表性は著しく損なわれているものの,現在利用できる初期中英語コーパスとしては体系的に編まれた最大規模のコーパスであり,十分な注意を払ったうえで言語研究に活用すべきツールである.The LAEME Corpus の改善すべき点はもちろんあるし,他のコーパスによる補完も目指されるべきだとは考えるが,言語を歴史的に研究する際に必然的につきまとう限界も考慮した上で評価しないとアンフェアである.
 歴史言語学は,言語の過去の状態を観察し,復元するという課題を自らに課している.過去を扱う作業には,現在を扱う作業には見られないある限界がつきまとう.Milroy (45) の指摘する歴史言語学研究の2つの限界 (limitations of historical inquiry) を示そう.

[P]ast states of language are attested in writing, rather than in speech . . . [W]ritten language tends to be message-oriented and is deprived of the social and situational contexts in which speech events occur.

[H]istorical data have been accidentally preserved and are therefore not equally representative of all aspects of the language of past states . . . . Some styles and varieties may therefore be over-represented in the data, while others are under-represented . . . . For some periods of time there may be a great deal of surviving information: for other periods there may be very little or none at all.


 乗り越えがたい限界ではあるが,克服の努力あるいは克服にできるだけ近づく努力は,いろいろな方法でなされている.そのなかでも,Smith はその著書の随所で (1) 書き言葉と話し言葉の関係の理解を深めること、(2) 言語の内面史と外面史の対応に注目すること,(3) 現在の知見の過去への応用の可能性を探ること,の重要性を指摘している.
 とりわけ (3) については,近年,社会言語学による言語変化の理解が急速に進み,その原理の過去への応用が盛んになされるようになってきた.Labov の論文の標題 "On the Use of the Present to Explain the Past" が,この方法論を直截に物語っている.
 これと関連する方法論である uniformitarian_principle (斉一論の原則)を前面に押し出した歴史英語の論文集が,Denison et al. 編集のもとに,今年出版されたことも付け加えておこう.

 ・ Milroy, James. Linguistic Variation and Change: On the Historical Sociolinguistics of English. Oxford: Blackwell, 1992.
 ・ Smith, Jeremy J. An Historical Study of English: Function, Form and Change. London: Routledge, 1996.
 ・ Labov, William. "On the Use of the Present to Explain the Past." Readings in Historical Phonology: Chapters in the Theory of Sound Change. Ed. Philip Baldi and Ronald N. Werth. Philadelphia: U of Pennsylvania P, 1978. 275--312.
 ・ Denison, David, Ricardo Bermúdez-Otero, Chris McCully, and Emma Moore, eds. Analysing Older English. Cambridge: CUP, 2012.

Referrer (Inside): [2018-07-21-1] [2015-02-10-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-11 Thu

#1263. The LAEME Corpus の代表性 (2) [laeme][corpus][representativeness]

 昨日の記事[2012-10-10-1]に引き続き,The LAEME Corpus の代表性の話題.今回は,語数,より正確には同コーパスで文法情報が付与されている語 (tagged words) の数により,方言・時代ごとの代表性を考える.まず,表を掲げよう.

Table 2: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Tagged Words

 C12bC13aC13bC14aTotal
N0 (0.000%)362 (0.062)0 (0.000)52,883 (9.083)53,245 (9.146)
NEM11,342 (1.948)0 (0.000)3,980 (0.684)2,344 (0.403)17,666 (3.034)
NWM0 (0.000)58,332 (10.019)16,173 (2.778)0 (0.000)74,505 (12.797)
SEM40,082 (6.885)26,722 (4.590)21,921 (3.765)31,408 (5.395)120,133 (20.634)
SWM1,030 (0.177)90,400 (15.527)106,981 (18.375)108 (0.019)198,519 (34.098)
SW1,168 (0.201)2,610 (0.448)46,032 (7.907)30,517 (5.242)80,327 (13.797)
SE0 (0.000)4,043 (0.694)3,199 (0.549)30,561 (5.249)37,803 (6.493)
Total53,622 (9.210)182,469 (31.341)198,286 (34.058)147,821 (25.390)582,198 (100.000)


 直感的に理解できるように,この分布をモザイクプロットで表現したのが下図である(印刷用にはこちらのPDFをどうぞ).

Dialect/Period Distribution of Tagged Words

 分布の偏りは一目瞭然である.しかし,方言・時代の各スロットを構成するテキストの種類などをより細かく調べると,さらに重要な問題が見えてくる.いくつかのスロットでは,総語数の大部分がほんの一握りのテキストによって占められているのである.例えば,N C14a というスロットは,全体のなかで4番目に収録語数の多いスロットだが,その語数の95.61%は Cursor Mundi という1作品(正確には,それを表わす3種類の異なる書写言語を反映した 3 scribal texts [##296, 297, 298])で占められている.同様に,NEM C13b では #182 のみで80.93%の語数がカバーされている.NWM C13b では #272 のみで93.11%だ.SEM C12b では異なる2人の写字生の手による Trinity Homilies (##1200, 1300) が総語数の84.06%を占め,SEM C13a でも異なる2人の写字生の手による Vices and Virtues (##64, 65) が総語数の93.83%を占める.SW C13b の #1600 は,それだけで69.71%を占める,等々.
 これらの例が示唆することは,問題の方言・時代スロットは必ずしもその方言・時代の言語変種を代表しているわけではなく,むしろ特定のテキストに現われる言語変種を代表しているということかもしれなということだ.The LAEME Corpus の使用の際には,なお一層の注意が必要である.

[ | 固定リンク | 印刷用ページ ]

2012-10-10 Wed

#1262. The LAEME Corpus の代表性 (1) [laeme][corpus][representativeness]

 私の関心の中心は初期中英語期の形態論である.この時代に関心をもつ者にとっては,LAEME (編者によれば,発音は /ˈleɪmiː/ )とそこから派生した The LAEME Corpus (Text Database) の登場は,同時代に関する研究環境を著しく改善し得るツールとして,最大限に歓迎される.LAEME については,本ブログでも laeme の記事で採りあげてきたし,とりわけツールとしての可能性を探り,拡張すべく「#846. HelMapperUK --- hellog 仕様の英国地図作成 CGI」 ([2011-08-21-1]) ,「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) ,「#942. LAEME Index of Sources の検索ツール」 ([2011-11-25-1]) ,「#1057. LAEME Index of Sources の検索ツール Ver. 2」 ([2012-03-19-1]) を公表してきた.
 大工にとって道具の手入れが大事なように,研究者にとってツールの研究は大事である.具体的に The LAEME Corpus を使っているうちに,全体として俯瞰するとどのようなコーパスなのか,知りたくなってきた.[2010-11-16-1]の記事「#568. コーパスの定義と英語コーパス入門」で示した通り,コーパスの主たる特徴の1つに representativeness (代表性)がある.これは,コーパス評価のための指標の1つでもある.歴史コーパスにおける代表性の確保の難しさについては,「#531. OED の引用データをコーパスとして使えるか」 ([2010-10-10-1]) や「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) でも触れてきたが,この点では The LAEME Corpus も苦戦を強いられている.カバーしている方言分布については「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) で採りあげたが,今回は方言区分に加えて時代区分も含めながら The LAEME Corpus のツール分析を試みたい.
 まずは,収録されているテキストの数を考える.当該コーパスは "scribal text" という単位でテキストが収録されているが,これを方言と時代にしたがって分別すると,散らばり具合がわかる.なお,方言区分と時代区分はそれ自体が方法論上の大問題なのだが,以下では,恣意的な区分(とはいってもある程度の根拠はあるが)として,方言は7つへ,時代は4つへと分けている.すなわち,方言は N (Northern), NEM (North-East Midland), NWM (North-West Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) へ,時代は C12b (12世紀後半),C13a, C13b, C14a へ.中英語の方言区分については「#130. 中英語の方言区分」 ([2009-09-04-1]) も参照.

Table 1: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Texts

 C12bC13aC13bC14aTotal
N0 (0.00%)1 (0.86)0 (0.00)7 (6.03)8 (6.90)
NEM1 (0.86)0 (0.00)5 (4.31)2 (1.72)8 (6.90)
NWM0 (0.00)9 (7.76)5 (4.31)0 (0.00)14 (12.07)
SEM4 (3.45)7 (6.03)14 (12.07)7 (6.03)32 (27.59)
SWM2 (1.72)13 (11.21)17 (14.66)1 (0.86)33 (28.45)
SW3 (2.59)5 (4.31)7 (6.03)2 (1.72)17 (14.66)
SE0 (0.00)2 (1.72)1 (0.86)1 (0.86)4 (3.45)
Total10 (8.62)37 (31.90)49 (42.24)20 (17.24)116 (100.00)


 上の表を作成するにあたり対象としたのは,The LAEME Corpus に収録されている167個の scribal texts のうち,半世紀という単位で時代の区分がなされている116個のみである.
 表を一瞥すればわかるように,テキスト分布の偏りは大きい.方言でいえば SEM と SWM は層が異常に厚く,全体の3分の2ほどをカバーしているが,一方で N, NEM, SE は層が薄い.時代でみると,C13a と C13b だけで7割を越え,C12b と C14a は層が薄い.方言・時代の組み合わせでは,6スロットまでが "0" を示す.歴史コーパス編纂における representative の確保は絶望的とすら思えてくる.少なくとも,The LAEME Corpus を用いて得られる方言や時代についてのデータやそこから得られる結論は,よくよく注意して解釈しなければならないということがいえるだろう.
 この表は scribal text の数をもとに作成されているが,各 scribal text の長さはまちまちである.そこで,テキスト数ではなく,語数による分布の具合も調べてみる必要がある.語数に基づく代表性の議論は,明日の記事で.

[ | 固定リンク | 印刷用ページ ]

2012-09-21 Fri

#1243. 語の頻度を考慮する通時的研究のために [frequency][corpus][representativeness]

 昨日の記事「#1242. -ate 動詞の強勢移行」 ([2012-09-20-1]) や「#1239. Frequency Actuation Hypothesis」 ([2012-09-17-1]) で取り上げた Phillips の研究のように,語の頻度を考慮する言語変化の研究には多大な関心を寄せているが,方法論上の素朴な疑問として,ある語の頻度それ自体が通時的に変わるという事実をどのように考えればよいのかという問題がある.ある特定の語ではなく,語彙の全体あるいは部分集合を考える場合には,1--2世代の時差は大きな問題ではないだろうと直感される.だが,1世紀の時差ではどうか,2世紀ではどうか,と考えると,どこまで直感に頼れるものか,はなはだ心許ない.Phillips (225--26) は,この問題について次のように楽観している.

The words' frequencies are based on present-day English, but the general pattern of relative frequencies probably holds for the English in our data base (1755--1993) as well. For example, I would be very surprised if the 3-syllable verbs with CELEX frequencies over 100 --- concentrate, demonstrate, illustrate, contemplate, compensate, designate, and alternate --- were not also much more common in 1755 than those with frequencies of 0 --- altercate, auscultate, condensate, defalcate, eructate, exculpate, expuergate, extirpate, fecundate, etc.


 2世紀余の時差を相手にしていながら,頻度が100回以上の語と0回の語を比べるというのは大雑把にすぎるように思われる.確かに,Phillips は実際の頻度分析でも101回以上,10--100回,1--10回という荒い区分を用いており,大雑把な頻度情報を大雑把なままに用いる慎重さは示している.しかし,もし特に10--100回辺りの中頻度レベルの語をより詳細に調べようとするのであれば,2世紀の間にそれなりに頻度が変化している可能性はある.Phillips ならずとも,頻度を利用した通時的研究に関心をもつ誰もが突き当たるはずの問題だ.
 すぐに思いつく単純な解決案は,各時代を代表するできるだけ大きなコーパスを利用して頻度表を作成することである.案としては単純だが,実際に遂行するのは一手間も二手間もかかる.綴字がある程度固定した近代英語であれば,コーパスを用意して頻度表の自動作成ができそうだが,中英語以前では綴字や語形の variation ゆえに lemmatise されていない限りは見出し語単位での頻度表作成は難航しそうだ.また,時代が古くなればなるほど,コーパスに含まれるテキストの representativeness の問題は深刻になる.ただし,荒っぽい頻度表でも,ないよりはあるほうがよい.いずれ作成してみたいと思っている.あるいは,時代によってはすでにあるだろうか?
 なお,引用にある CELEX という単語データベースは,現代英語の語や形態に関する量的な研究でよく使われているものである.詳細は,CELEX2 を参照.また,頻度と通時態の関係については,[2012-05-03-1]の記事「#1102. Zipf's law と語の新陳代謝」を参照.

 ・ Phillips, Betty S. "Word Frequency and Lexical Diffusion in English Stress Shifts." Germanic Linguistics. Ed. Richard Hogg and Linda van Bergen. Amsterdam: John Benjamins, 1998. 223--32.

[ | 固定リンク | 印刷用ページ ]

2012-08-27 Mon

#1218. 話し言葉にみられる whom の衰退 [pde_language_change][interrogative][relative_pronoun][corpus][ame][preposition_stranding]

 現代英語における whom の衰退については,多くの研究がある.現代英語でもよく知られた言語変化であり,本ブログでも ##622,624,860,301,737 の各記事で触れてきた.かつての卒論学生にもこの話題を扱ったものがある ([2010-12-26-1]) .
 最近の研究としては,Iyeiri and Yaguchi がある.これは,Michael Barlow が編纂し,Athelstan より有償で提供されている The Corpus of Spoken Professional American English (CSPAE) に基づいた研究である.CSPAE は,1990年代の専門アメリカ英語の話し言葉コーパスで,(1) White House での記者会見,(2) The University of North Carolina の教授会,(3) 数学テスト委員会の国家会議,(4) 読解テスト委員会の国家会議の,4つの状況が区分されており,全体として200万語から成る.また,CLAWS7 でタグ付けされている.研究の狙いは,whom は形式張った文体,特に書き言葉において使用されるといわれるが,では,形式張った話し言葉という環境でどの程度使われるのだろうかという問いに答えることである.
 調査結果に従えば,spoken professional American English においては,whom の衰退は否定できないものの,いまだある程度の頻度では見られる.whom が生起する環境にも明らかな傾向があり,前置詞の直後においては最もよく保たれている(ただし,この環境ですら who の使用例は皆無ではない).一方,前置詞懸垂 (preposition_stranding) にはおいては who が通例である.また,who(m) が前置詞の目的語ではなく動詞の目的語として機能している場合には,より大きな揺れが見られる.
 疑問詞としての whom と関係詞としての whom を比べると,前者のほうが衰退が激しい.これを説明するのに,筆者らは Rohdenburg による "Complexity Principle (transparency principle)" を援用している.これは,"[i]n the case of more or less explicit grammatical options the more explicit one(s) will tend to be favored in cognitively more complex environments" (cited in Iyeiri and Yaguchi, p. 185) という原理で,whom の議論に当てはめると,関係詞を含む構文は認知上より複雑であり,より明示的な格標示を要求する,ということになる.
 上述のとおり,whom の衰退は現代英語の言語変化として取り上げられることが多い.このような話題について,references に参考資料がまとめられているのはありがたい.また,話し言葉コーパスの使用にも関心がわいた.関連して,The Michigan Corpus of Academic Spoken English というコーパスも参照.

 ・ Iyeiri, Yoko and Michiko Yaguchi. "Relative and Interrogative Who/Whom in Contemporary Professional American English." Germanic Languages and Linguistic Universals. Ed. John Ole Askedal, Ian Roberts, Tomonori Matsushita, and Hiroshi Hasegawa. Tokyo: Senshu University, 2009. 177--91.

[ | 固定リンク | 印刷用ページ ]

2012-07-05 Thu

#1165. 英国でコーパス研究が盛んになった背景 [corpus][history_of_linguistics][methodology]

 『英語コーパス研究』第19号に掲載の論文で,1960年代に誕生して以来,コーパス言語学がとりわけ英国で発展してきた経緯が話題とされていた.そこでは,the University of Birmingham, Lancaster University, the University of Nottingham の3大学がコーパス言語学の発展に果たしてきた役割が強調されており,英国におけるコーパス研究の現状と展望までもが要領よく概観され,非常に参考になった.
 その論文によると,英国でコーパス研究が盛んになった背景には,次の5点があった (68--69) .

 (1) 研究者に,大規模な研究プロジェクトに参加する時間的な余裕があった(ある).
 (2) 生成文法以外の言語理論に対して寛容な土壌があった.
 (3) 出版社が,コーパス研究の実用的な応用(特に辞書編纂)に関心を寄せた.
 (4) 1990年代には,the Bank of English, the British National Corpus, the London-Lund Corpus を含む,多くの巨大で良質なコーパスにアクセスできた.
 (5) 技術者との連係により,コーパスを分析するツールが手に入った(ex. Micro-Concord, WordSmith, AntConc, BNCweb).

 現状について.Birmingham では,John Sinclair の強力な指導力のもとに培われた伝統が継続している.collocation, meaning unit, semantic preference, semantic prosody, discourse analysis, pattern grammar, expressions of evaluation, modal-like expressions などをキーワードとするコーパス研究が盛んに進められている.
 Lancaster では,Geoffrey Leech, Tony McEnery, Andrew Wilson などによるコーパスの開発と研究が進められてきた.The Brown Family of Corpora の作成に関わったほか,タグ付けプログラム CLAWSBNCweb の開発,UCREL (University Centre for Computer Corpus Research in Language) の設立など,技術的,運営的な側面でも一日の長がある.現在では,量的な研究を主体としながら,英語以外の言語へと関心を広げつつある.一方で,資金難により BNC のような巨大プロジェクトの続編は期待できないようだ.
 Nottingham では,Ronald Carter, Michael McCarthy が話し言葉への関心から,1990年代初頭に CUP と共同して,CANCODE (the Cambridge and Nottingham Corpus of Discourse in English) を編纂した.その後も,続々と様々なコーパスをリリースしてきた.Nottingham におけるコーパス研究の特徴としては,話し言葉と書き言葉における語彙文法の差異,multimodal corpus 編纂などの技術的な革新,言語教育への応用が挙げられる.
 1960年代に産声を上げた近代コーパス言語学が,1970--1980年代の発展の結果,1990年代に主流をなす分野として確立し,21世紀に入り「黄金時代」に至っている.

 ・ Anthony, Laurence, Yasunori Nishina, Kaoru Takahashi, and Michael Handford. "Current Trends in Corpus Linguistics: Voices from Britain." 『英語コーパス研究』第19号,英語コーパス学会,2012年,67--92頁.

[ | 固定リンク | 印刷用ページ ]

2012-07-01 Sun

#1161. 英語と日本語における語彙の音節数別割合 [lexicology][statistics][syllable][corpus][japanese]

 昨日の記事「#1160. MRC Psychological Database より各種統計を視覚化」 ([2012-06-30-1]) の (3) で,英語語彙を音節数により分別して,それぞれの頻度を出した.それによると,対象となった92767語の語彙全体における1音節語,2音節語,3音節語,4音節語の占める割合は,それぞれ13.46%,35.40%,29.91%,15.26%であり,合わせて94.03%に達する.とりわけ2音節語と3音節語を合わせて65.31%である.9万余という大規模な語彙で調査する限り,英語語彙の3分の2近くは2--3音節語であるということになる.
 一方,##348,349,355 の記事では,BNC や COLT のコーパスを用いて,最も頻度の高い数百語から数千語を対象に音節数調査を行なった.調査対象となる語彙の規模は格段に小さく,それに従って音節数別の割合も変わる.1音節語と2音節語が優勢であり,最大の6000語規模の調査でもこの2種類だけで68.7%を占める(「#349. BNC Word Frequency List による音節数の分布調査 (2)」 ([2010-04-11-1]) のグラフを参照).対象とする語彙規模により,優勢な占有率を示す音節数が変動することがわかるが,全般的に,英語語彙においては1--3音節語が主要であることは間違いないだろう.
 では,日本語の語彙について,音節数別の割合はどうだろうか.加藤ほか (80) では,林大氏による『日本語アクセント辞典』の見出し語形に基づく拍数の分布の調査結果が要約されている.辞典の見出し語形であるから対称語彙は数万語の規模と思われる.以下のような結果が出た.

1拍2拍3拍4拍5拍6拍7拍8拍9拍10拍
0.34.822.738.817.711.03.31.20.20.1100


 割合のピークは4拍語にあり,その前後の3拍語と5拍語を合わせて79.2%,6拍語を加えれば90.2%になる.英語の語彙の主たる構成要素が1--3音節語とすれば,日本語の語彙の主たる構成要素は3--5拍語となる.音節数でみる限り,英単語は相対的に短く,日本語単語は相対的に長いことがよくわかる.
 両言語間の際だった差異は,音韻数の差と音節構造の差に起因するといってよいだろう.音韻数については,[2012-02-12-1]の記事「#1021. 英語と日本語の音素の種類と数」で見たとおり,著しい差がある.また,音節構造については,日本語の音節がほぼ「子音+母音」の1形式だけであるのに対して,英語の音節は,[2012-02-14-1]の記事「#1023. 日本語の拍の種類と数」で示唆したとおり,数万形式がある.
 日本語の語彙は,2拍語を基本としていると考えられる.和語でも漢語でも2±1拍語が多く,語彙の膨張に従って,その結合が増え,結果として4±1拍語が主流となってきた経緯がある.洋語についても,優勢な4拍語に合わせて「マスコミュニケーション」→「マスコミ」,「ハンガーストライキ」→「ハンスト」,「エンジンストップ」→「エンスト」と省略されることが多い.2拍語を基本とした日本語語彙の成立と,その後の発展については,小松 (48--62) が詳しい.

 ・ 加藤 彰彦,佐治 圭三,森田 良行 編 『日本語概説』 おうふう,1989年.
 ・ 小松 秀雄 『日本語の歴史 青信号はなぜアオなのか』 笠間書院,2001年.

[ | 固定リンク | 印刷用ページ ]

2012-06-30 Sat

#1160. MRC Psychological Database より各種統計を視覚化 [lexicology][statistics][syllable][corpus]

 [2012-06-28-1], [2012-06-29-1]と連日紹介してきた MRC Psycholinguistic Database に基づいて,4つの英語語彙統計を図示したい.原データファイルの仕様に示されている統計表をもとにグラフを作成しただけだが,別のコーパスに基づいて類似した調査を行なってきたものもあるので,比較に値するだろう.数値データは,HTMLソースを参照.

(1) 文字数による頻度
Word Frequency by Number of Letters in MRC Psychological Database

(2) 音素数による頻度
Word Frequency by Number of Phonemes in MRC Psychological Database

 (参考)
 ・ [2012-02-13-1]: 「#1022. 英語の各音素の生起頻度」

(3) 音節数による頻度
Word Frequency by Number of Syllables in MRC Psychological Database

 (参考)
 ・ [2010-04-09-1]: 「#347. 英単語の平均音節数はどのくらいか?」
 ・ [2010-04-10-1]: 「#348. BNC Word Frequency List による音節数の分布調査」
 ・ [2010-04-11-1]: 「#349. BNC Word Frequency List による音節数の分布調査 (2)」
 ・ [2010-04-17-1]: 「#355. COLT Word Frequency List による音節数の分布調査」

(4) 品詞による頻度
Word Frequency by Syntactic Category in MRC Psychological Database

 (参考)
 ・ [2012-06-02-1]: 「#1132. 英単語の品詞別の割合」
 ・ [2011-02-23-1]: 「#667. COCA 最頻50万語で品詞別の割合は?」
 ・ [2011-02-22-1]: 「#666. COCA 最頻5000語で品詞別の割合は?」
 ・ [2011-02-16-1]: 「#660. 中英語のフランス借用語の形容詞比率」

 その他,語彙の頻度や,語種別の割合については以下の記事も参照.

 ・ [2010-03-01-1]: 「#308. 現代英語の最頻英単語リスト」
 ・ [2011-08-20-1]: 「#845. 現代英語の語彙の起源と割合」
 ・ [2012-01-07-1]: 「#985. 中英語の語彙の起源と割合」

Referrer (Inside): [2015-08-21-1] [2012-07-01-1]

[ | 固定リンク | 印刷用ページ ]

2012-06-02 Sat

#1132. 英単語の品詞別の割合 [lexicology][corpus][statistics]

 昨日の記事で,MRC Psycholinguistic Database (全150837語を含む)を利用した Amano の研究を参照した.Amano では,名詞と動詞の stress typicality の調査の副産物として,同データベースに基づいた語の品詞別割合の表が示されていたので,今回はそれをメモしておきたい.
 Amano (86) は,データベースより計10894個の2音節語を抜き出した.複数の品詞の機能をあわせもつ語については,それぞれの品詞のもとで1個として加えた(その他,詳しい作業手順は p. 86 に明記されている).結果として得られた品詞別の個数と割合は以下の通りである.

POSFREQ%
noun732657.04%
verb250119.47%
adjective242018.84%
adverb2912.27%
preposition680.53%
conjunction210.16%
pronoun150.12%
interjection370.29%
past participle570.44%
others1080.84%


 品詞別の割合の算出は,用いるデータベースやコーパスの性質や規模,word form で数えるか lemma で数えるかなどの「語」の定義の問題に左右されるが,複数の調査結果を比較すれば,ある程度は信頼できる値が得られるだろう.本ブログ内でこれまでに紹介した品詞別の割合については,以下を参照.

 ・ [2011-02-23-1]: 「#667. COCA 最頻50万語で品詞別の割合は?」
 ・ [2011-02-22-1]: 「#666. COCA 最頻5000語で品詞別の割合は?」
 ・ [2011-02-16-1]: 「#660. 中英語のフランス借用語の形容詞比率」

 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow