hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 次ページ / page 7 (10)

corpus - hellog〜英語史ブログ

最終更新時間: 2020-06-05 08:55

2011-08-20 Sat

#845. 現代英語の語彙の起源と割合 [lexicology][loan_word][statistics][bnc][corpus]

 現代英語の語彙における本来語と借用語の比率については,本ブログでも何度か取り上げてきた.いくつかリンクを張っておこう.

 ・ [2010-12-31-1]: #613. Academic Word List に含まれる本来語の割合
 ・ [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-05-16-1]: #384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する
 ・ [2010-03-02-1]: #309. 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: #201. 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: #110. 現代英語の借用語の起源と割合

 語種の数量的な調査には,数え挙げる際のソースを何にするか,type-count か token-count か,どのくらいの語彙規模を扱うか,語源にまつわる不正確さをどのように処理するか,などの考慮すべき事項が様々あり,研究者によって結果がまちまちとなることがある.しかし,複数の調査を比べれば,およその平均値や全体像が見えてくるのも確かである.
 先日参加してきた ICOME7 (The Seventh International Conference on Middle English) で,8月4日,OED3 の主幹語源学者 Philip Durkin 氏が "Some neglected aspects of Middle English lexical borrowing from (Anglo-)French" と題する講演で関連する話題について触れていたので,要点をメモしておく.
 Durkin 氏は BNC から最頻1000語のリストを取り出し,語源分析した.その結果,英語本来語が489語,フランス・ラテン語が489語,ノルド語が32語,それ以外の言語が10語という数値が得られた.大規模コーパスの頻度リスト (see [2010-03-01-1]) を利用した語源調査はいつか自分でやろうと思っていたが,Durkin 氏のおかげでその労力を省くことができた(ありがとうございます!).
 これにより,上記のリンクで示した諸調査と合わせて,type-count に基づく最頻100語,600語,1000語,2000語,3000語,4000語,5000語,6000語,7000語,8000語,9000語,10000語という12段階の語彙規模での語種別比率が得られたことになる.母体となる現代英語語彙の情報ソース,数え方,語種区分はそれぞれ異なっているのかもしれないが,一応の目安として以下で全体像を示したい.語種区分は English, French and/or Latin, Scandinavian, Other として4種類に統一した.

LevelEnglishFrench/LatinScandinavianOther
100 (GSL)92%3%5%0%
600 (LDOCE3)474544
1000 (BNC)46.948.93.21.0
1000 (Williams)831322
2000 (Williams)345727
3000 (Williams)2960110
4000 (Williams)2762110
5000 (Williams)276418
6000 (Williams)2761210
7000 (Williams)2362213
8000 (Williams)2659213
9000 (Williams)2558215
10000 (Williams)2560114
Etymological Breakdown of the Most Frequent Words


 上から3つ目と4つ目の棒グラフは,同じ最頻1000語レベルでの比較だが,3つ目は上述の Durkin の BNC 調査によるもの,4つ目は[2010-06-30-1]の記事で示した Williams のものである.著しい差異が生じたが,これも調査方法が異なるがゆえだろうか.注意して解釈する必要があるが,この点を除けば全体としてなだらかに推移し,最終的には本来語25%,ラテン・フランス語60%,それ以外が15%という数値におよそ落ち着くようだ.

[ | 固定リンク | 印刷用ページ ]

2011-07-05 Tue

#799. 海賊複数の <z> [plural][netspeak][suffix][corpus][z][alphabet]

 複数形ウォッチャーとして,気になる複数接尾辞がある.発音は -s の場合と同様だが,綴字が <z> となる「z 複数」である.Crystal (137) が以下のように指摘していた.

New spelling conventions have emerged, such as the replacement of plural -s by -z to refer to pirated versions of software, as in warez, tunez, gamez, serialz, pornz, downloadz, and filez. (137)


 それぞれ発音の差異を伴わない完全に綴字上の異形態だが,いかがわしい効果は抜群である.このいかがわしさが何に由来するのかといえば,<z> の文字自体のもつ異様さだろう.[2010-07-17-1]の記事「しぶとく生き残ってきた <z>」で取りあげたように,<z> はきわめて影の薄い文字だが,<s> の明らかに期待されるところで <z> が前景化されるとやけに目立つ.
 しかし,「海賊複数」 ( plural of piracy ) とでも呼びたくなるこの <z> 接尾辞(字)の使用は,現在では NetSpeak での隠語としての使用に限定されているようだ.COCA ( Corpus of Contemporary American English ) の検索によると,warez で4例がヒットした( warez 以外の上掲の語はヒットなし).以下はそのうちの1例で,2004年の Houston Chronicle からの記事である.

CW Shredder - www.spyware info.com/merijn/ Developed by the same author as Hijack This!, CW Shredder removes a very common piece of spyware known as the Coolwebsearch Trojan. It takes advantage of a flaw in a key component of Windows - Microsoft's version of the Java Virtual Machine - to install itself via pop-ups often found on porn and illegal software (a.k.a. "warez") sites.


 他に BNCweb で "*z_NN2" として検索してみると,BOYZ が多数ヒットした.ただし,これはアメリカの人気グループ Boyz II Men やアメリカ英語 Boyz n the Hood への言及によるもので,海賊複数とは趣が異なる.とはいえ,固有名や商品名(の宣伝)に非標準的な綴字を用いることは商業広告では広く見られる現象であり(例えば Heinz 社の "Heinz Buildz Kidz" ),目立たせる効果を狙っている点では共通性が感じられる.
 ちなみに,Kirg(h)iz 「キルギス人」がヒットしたが,これはロシア語の綴字に準じたもので単複同形であるにすぎない(異形として Kirg(h)izes もあり).

 ・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.

[ | 固定リンク | 印刷用ページ ]

2011-06-09 Thu

#773. PPCMBE と COHA の比較 [corpus][coha][ppcmbe][lmode][adjective][comparison][inflection][representativeness]

 本ブログでも何度か取り上げている2つの歴史英語コーパス PPCMBE ( Penn Parsed Corpus of Modern British English; see [2010-03-03-1]. ) と COHA ( Corpus of Historical American English; see [2010-09-19-1]. ) について,塚本氏が『英語コーパス研究』の最新号に研究ノートを発表している.両者とも2010年に公開された近代英語後期のコーパスだが,それぞれ英米変種であること,また編纂目的が異なることから細かな比較の対象には適さない.しかし,代表性をはじめとするコーパスの一般的な特徴を比べることは意味があるだろう.
 PPCMBE は1700--1914年のイギリス英語テキスト約949,000語で構成されており,Parsed Corpora of Historical English の1部をなす.同様に構文解析されたより古い時代の対応するコーパスとの接続を意識した作りである.有料でデータを入手する必要がある.一方,COHA は1810--2009年のアメリカ英語テキスト4億語を収録した巨大コーパスである.こちらは,構文解析はされていない.COHA は無料でオンラインアクセスできるため使いやすいが,インターフェースが固定されているので柔軟なデータ検索ができないという難点がある.
 コーパスの規模とも関係するが,PPCMBE は代表性 (representativeness) の点で難がある.PPCMBE のコーパステキストを18ジャンルへ細かく分類し,テキスト年代を10年刻みでとると,サイズがゼロとなるマス目が多く現われる.これは,区分を細かくしすぎると有意義な分析結果が出ないということであり,使用に際して注意を要する.
 一方,COHA のコーパステキストは Fiction, Popular Magazines, Newspapers, Non-Fiction Books の4ジャンルへ大雑把に区分されている.細かいジャンル分けの研究には利用できないが,10年刻みでも各マス目に適切なサイズのテキストが配されており,代表性はよく確保されている.ただし,Fiction の構成比率がどの時代も約50%を占めており,Fiction の言語の特徴(特に語彙)がコーパス全体の言語の特徴に影響を与えていると考えられ,分析の際にはこの点に注意を要する.
 塚本氏は,両コーパスの以上の特徴を,後期近代英語における形容詞の比較級・最上級の問題によって示している.CONCE (Corpus of Nineteenth-Century English) を用いた Kytö and Romaine の先行研究によれば,19世紀の間,比較級の迂言形に対する屈折形の割合は,30年刻みで世紀初頭の57.1%から世紀末の67.8%へと増加しているという.同様の調査を COHA と PPCMBE で10年刻みに施したところ,前者では1810年の64.7%から1910年の74.3%へ着実に増加していることが確かめられたが,後者では1810年の79.4%から1910年の78.0%まで増減の揺れが激しかったという(塚本,p. 56).しかし,CONCEと同様の30年刻みで分析し直すと,PPCMBE でも有意な変化をほぼ観察できるほどの結果がでるという.
 コーパスはそれぞれ独自の特徴をもっている.よく把握して利用する必要があることを確認した.関連して,[2010-06-04-1]の記事「流れに逆らっている比較級形成の歴史」を参照.

 ・ 塚本 聡 「2つの指摘コーパス---その代表性と類似性」『英語コーパス研究』第18号,英語コーパス学会,2011年,49--59頁.
 ・ Kytö, M. and S. Romaine. "Adjective Comparison in Nineteenth-Century English." Nineteenth-Century English: Stability and Change. Ed. M. Kytö, M. Rydén, and E. Smitterberg. Cambridge: CUP, 2006. 194--214.

Referrer (Inside): [2017-08-15-1] [2015-09-29-1]

[ | 固定リンク | 印刷用ページ ]

2011-06-07 Tue

#771. 名詞の単数形と複数形の頻度 [corpus][statistics][plural]

 Biber et al. (Section 4.5.6 [pp. 291--22]) に,一般名詞の単数形と複数形の頻度に関する記述がある.現代英語における大雑把な分布ではあるが,LSWE Corpus の500万語サブコーパスを用いた信頼できる数値なので参考までにメモしておく.まず,各サブコーパスで100万語当たりの生起数に換算してのグラフの再現から(数値データは与えられていなかったのでグラフから概数を読み取っての再現).

Distribution of Plural v. Singular Common Nouns Across Registers by LGSWE


 (1) conversation transcription (CONV), fiction text (FICT), newspaper text (NEWS), academic text (ACAD) の4サブコーパス間の差が激しい.
  - 原則として複数形をとらない不可算名詞も含めているとはいえ,すべてのサブコーパスで単数形が複数形よりも頻度が高い.
  - 会話では単数形の頻度が比較的高い.
  - 書き言葉では話し言葉よりも複数形の頻度が3--4倍も高い.
 (2) 個々の名詞でみると,多くの名詞が単数形あるいは複数形のいずれかへの強い偏りを示す.
 (3) 例えば,次の名詞は75%以上の割合で単数形をとる.ex. car, god, government, grandmother, head, house, theory.
 (4) 例えば,次の名詞は75%以上の割合で複数形をとる.ex. grandchildren, parents, socks, circumstances, eyebrows, onlookers, employees, perks.

 (1) に関して,単数形が圧倒的に多いこと自体はまったく不思議ではない.上述のように不可算名詞は原則として単数形しかあり得ない.また,ほとんどの可算名詞では単数形が lemma そのものであるし無標の形態でもある.ほかには,数の概念が中立化される場合,例えば hand in hand, from time to time などの慣用表現においては,単数形が用いられるのが普通である.
 (2)--(4) に関して,名詞によって単数形か複数形への偏りを示すというのも驚くに当たらない.それぞれの語群を眺めれば,そこに "the communicative needs of the language user" (291) が反映されていることがはっきりと分かるだろう.名詞全体をならせば,「コミュニケーション上の必要性」が単数形に偏りそうだということも直感される.
 では,会話で単数形の使用が多いというのは,どういうわけだろうか.Biber et al. (291--92) は次のように述べている.

In general, the high frequency of singular nouns in conversation probably follows from the concern of speakers with individuals: a person, a thing, an event. Writers of academic prose, on the other hand, are more preoccupied with generalizations that are valid more widely (for people, things, events, etc.). This same tendency applies not only to nouns, but also to determiners and pronouns (4.4.3.1, 4.12.1, 4.14.1, 4.15.2.1).


 コーパス全体としては,複数形は一般名詞の2割程度しか占めないことになる.複数形の研究を専門とする(つまり複数形の例をなるべく多く集めなければならない)私にとっては,なかなか厳しい数値だなあ・・・.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

Referrer (Inside): [2012-12-09-1]

[ | 固定リンク | 印刷用ページ ]

2011-05-24 Tue

#757. decline + 動名詞 [syntax][gerund][bnc][corpus]

 1796年9月19日,アメリカ合衆国の初代大統領 George Washington (1732--99) が大統領職を去るに当たって farewell address 「お別れのスピーチ」を読んだ.渡辺昇一先生の『英文法を知ってますか』 (252--53) によると,その語り出しの部分が英語精読力の試金石になるというので,院生と精読する機会をもった.以下の英文である.

FRIENDS AND FELLOW-CITIZENS. The period for a new election of a citizen, to administer the executive government of the United States, being not far distant, and the time actually arrived, when your thoughts must be employed in designating the person who is to be clothed with that important trust, it appears to me proper, especially as it may conduce to a more distinct expression of the public voice, that I should now apprise you of the resolution I have formed, to decline being considered among the number of those out of whom a choice is to be made.


 確かに読み応えのある英文である.注を付すべき英文法のポイントはたくさんあるが,最後のほうに decline に不定詞でなく動名詞が後続する点を指摘してくれた学生がいた.私は見逃していたので余計に関心をもったのだが,decline の用法を学習者用英英辞書で調べると,動名詞が後続する構文は触れられていない.しかし,大きな英和辞書では,一般的ではないとしながらも,動名詞が後続し得ると記述されている.また,OED で調べると decline, v. の語義 13b に挙げられている17世紀末以降からの数例で,動名詞の後続する構文が確認される.したがって,Washington がここで動名詞を使用しているのは歴史的にあり得ない構文ではなかったということになる.
 しかし,Washington があえて稀な構文を用いたのはなぜか.style や formality の問題なのか,あるいは decline の取り得る構文の種類の相対頻度が当時から現在までの期間に通時的に変化してきたということなのか.精読を目指すからには,この点が気になった.本格的には通時コーパスなどで調べる必要があるが,まずは BNCweb でどのくらいヒットするか調べてみた.
 不定詞が後続する構文を取り出すのに,"{decline/V} (_{ADV})* _TO0" で検索すると,769例がヒット.一方,動名詞が後続する構文は "{decline/V} (_{ADV})* _VVG" で取り出し,ヒットした9例のうち実際には3例のみ該当する例であることが判明した.コンコーダンスラインを示す.

- FTT 821: . . . but with proper delicacy to this subject they decline making application at Present and till it is ascertained how cattle markets may go in June next . . .
- FTT 839: The Presses of this meeting, as being part owner of the Steam Boat, declines allowing the assessment for the Steam Boat to be charged for this year.
- HW8 831: Dosh and Freddie didn't take much persuading but Chase thankfully declined saying that parties didn't like him.


 FTT なる典拠(An Islay Notebook という non-academic prose and biography)から2例が例証されるというのは,書き手の癖の問題なのだろうか.Washington の動名詞の使用例については判断を下せないままだが,現在までに古風あるいは格式張った使い方に限定されてきた可能性,通時的に頻度が減ってきた可能性はありそうだ.

 ・ 渡辺 昇一 『英文法を知ってますか』 文藝春秋〈文春新書〉,2003年.

[ | 固定リンク | 印刷用ページ ]

2011-05-05 Thu

#738. inclusive superlative [superlative][contamination][syntax][corpus][ppceme]

 昨日の記事「構文の contamination」 ([2011-05-04-1]) で最後に取り上げた "inclusive superlative" について,BNCweb でどのくらいヒットするか試してみた."(most _AJ0 | _AJS) (_{N})* of (any)? other" で検索すると,以下の7例を取り出すことができた(赤字は引用者).

 - Chang's speed was the best of any other player.
 - Perhaps the most notable of other attempts to describe parents in this fashion was undertaken by Earl S. Schaefer.
 - This percentage is the largest of any other constituency in England.
 - But centuries of migration, conquest, occupation, intermarriage, trade and cultural exchange - not to mention the tendency of artists to copy or reinterpret the most successful facets of other artists' work - have eroded much of this exclusivity.
 - Commander Keen has the largest fan club of any other shareware game available.
 - 'In proportion to the kiwi's size the egg is the largest of any other bird.
 - I say in particular our union because everyone here knows we probably have the largest and best training programme of any other union in Britain today.


 初期近代英語にも見られたということなので,The Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) でざっと調べてみると,John Fryer (b. c1650, d. 1733) なる人物の東洋旅行記に次の1例があった.

They yet retain a Warlike Disposition, being still accounted the best Gunners here of any other places in Persia;


 この妙な構文の起源と歴史を探るには,混交のもととなっている2つの構文 comparative + than any other と superlative + of all の頻度や文脈をまず洗い出す必要があるだろう.

[ | 固定リンク | 印刷用ページ ]

2011-05-04 Wed

#737. 構文の contamination [blend][contamination][syntax][superlative][bnc][corpus]

 [2011-01-17-1]blend混成語」を話題にした際に少々触れたが,類似した過程に contamination混交」がある.両者は意識的か否かという観点か区別されることがあるが,特に区別せず同様に用いられることもある.通常は語形成上の過程として捉えられるが,[2011-01-17-1]の記事で触れたように構文のレベルででも起こりうる.例えば,前の記事では,"Why did you do that for?" や "different than" を挙げた.
 Graddol を講読中に構文の contamination に出会った(赤字は引用者).

English is remarkable for its diversity, its propensity to change and be changed. This has resulted in both a variety of forms of English, but also a diversity of cultural contexts within which English is used in daily life. (5)


 ここでは,both . . . and . . .not only . . . but also . . . の構文が混交している.BNCweb より検索キーワード "both +** but also" で類例を探してみると,6例ほどが見つかった(赤字は引用者).

 - Ion Pacepa, Ceausescu's chief intelligence officer who defected in 1978, takes particular pleasure in his memoirs in exposing Stefan Andrei as both corrupt but also as well aware of the absurdity of the Ceausescus' pretensions, especially Elena's academic titles.
 - Their economy and population were both suffering, but also they were becoming wary of the Dzhungars' increasing strength.
 - In fitting statistical models to study relationships, it is important to take account of such hierarchies, both for technical reasons but also because influential factors can be present at any or all levels of aggregation.
 - The changes that have been introduced into South Africa [pause] forced upon the white minority government by both international pressure but also by the magnificent work at the A N C in Cosatu [pause] must be supported as well but we cannot treat South Africa as anything but a pariah [pause] a, a, a national pariah [pause] until we see one person one vote, and a black majority government in South Africa.
 - 'Committees' means both actual committees but also individuals or organisers listed as committees.
 - I mean that can be both pleasurable, but also make somebody feel uncomfortable.


 contamination は,共時的には話者の発話時に生じる2つの関連構文の混交として解釈されるが,これが共同体に広がってある程度の認知度を得ると,新しい構文として独立し定着することがある.そのような場合には,contamination は通時的な観点からアプローチすることができるだろう.以下は現代英語に見られる構文の contamination の例だが,これらがいつ頃に現われ,現在までにどの程度の認知度を得てきたかという問題は,英語史の問題である.

 (1) these kinds of things: these thingsthis kind of things の混交.
 (2) different than: different fromother than の混交.
 (3) different to: different fromopposed to の混交.similar to との類推とも考えられる.
 (4) cannot help but do: cannot help doingcannot but do の混交.
 (5) It is no good for us complaining about it.: It is no good for us to complain about it.It is no good we complaining about it. の混交.
 (6) no sooner . . . when: no sooner . . . thanscarcely . . . when の混交.
 (7) I am friends with him.: I am friendly with him.He and I are friends. の混交.
 (8) a man whom she thought was a murderer: a man who she thought was a murderera man whom she thought to be a murderer の混交.
 (9) the cleverest of all the other boys: cleverer than the other boysthe cleverest of all the boys の混交.

 調べてみるといろいろとあるようだが,(9) のような例は少なくないようで,石橋 (127) は次のようにコメントしている.研究材料としておもしろそうだ.

Sunday's action was the most brilliant and fruitful of any fought up to that date by the fighters of the Royal Air Force. [the most . . . of (all) + (more . . . than) any]---W. Churchill / This is the greatest error of all the rest. [the greatest . . . of (all) + (a greater . . . than) all the rest]---Sh., Mids. N. D. v. i. 250. 最後の例のように,最上級に修飾される名詞を,意味上はそれを含まないはずの「その他」の中に包括させた混交表現を,とくに包括最上級 (Inclusive superlative) と呼ぶことがある.その例は近代初期の英語にときどき見いだされる.


 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm
 ・ 石橋 幸太郎 編 『現代英語学辞典』 成美堂,1973年.

[ | 固定リンク | 印刷用ページ ]

2011-04-28 Thu

#731. 接尾辞 -dom をもつ名詞の通時的分布 [suffix][oed][corpus][productivity]

 [2009-05-18-1]の記事「接尾辞-dom をもつ名詞」では現代英語で使われる -dom 語をいくつか挙げたが,今回は通時的な観点からこの接尾辞を眺めてみたい.Bauer (220) によると,-dom は一度は瀕死の接尾辞とみなされるほどに衰退していたが,現代英語では一定の生産性を取り戻してきているという.

-dom    This suffix forms abstract, uncountable nouns from concrete, countable ones. For a long time it was thought that the suffix was moribund or totally non-productive, but Wentworth (1941) showed that it had never completely died out, and it is still productive in contemporary English, though not very much so. Recent examples include Dollardom, fagdom, gangsterdom, girldom (all OEDS). (220)


 -dom は原則として名詞の基体に付加して抽象名詞を作るが,freedom のように形容詞の基体に付加する例もある.
 OED で通時的分布を調べてみた.[2011-01-05-1]で紹介した「OED の検索結果から語彙を初出世紀ごとに分類する CGI」を利用して世紀ごとに -dom 語を数え上げ,以下のように視覚化した.Sodom などの雑音も多少は混じっており,ざっと見て気付いたものは削除したが,大雑把な数え上げとして理解されたい.数値データはこのページのHTMLソースを参照.

Diachronic Distribution of -dom Words by OED

 中英語から近代英語にかけてのじわじわとした復活,そして19世紀の爆発は印象的である.20世紀の下火は,現実を反映しているのか,あるいは OED の語彙収集上の事情によるものだろうか.いずれにしても19世紀以降の新 -dom 語彙はすべてが低頻度語で,nonce-word も多い.Frequency Sorter によると,ANC (American National Corpus) で10回以上用いられているものは,fandom, boredom, stardom, fiefdom くらいだ.
 接辞の生産性 (productivity) は理論的に計算するのが難しいとされる (Baayen and Lieber) .-dom の19世紀の爆発は20世紀そして21世紀にどの程度続いているのか,直感的に捉えられる接辞の生産性とは客観的にどのように記述されるのか,生産性の問題にコーパスがどのように活用できるのか.-dom に注目するだけでも,様々な問題が持ち上がってくる.

 ・Bauer, Laurie. English Word-Formation. Cambridge: CUP, 1983.
 ・Baayen, Harald and Rochelle Lieber. "Productivity and English Derivation: A Corpus-Based Study." Linguistics 29 (1991): 801--43.

[ | 固定リンク | 印刷用ページ ]

2011-04-08 Fri

#711. Log-Likelihood Tester CGI, Ver. 2 [corpus][bnc][statistics][web_service][cgi][lltest]

 以下に,汎用の Log-Likelihood Tester, Ver. 2 を公開.(後に説明するように,入力データのフォーマットに不備がある場合や,モードが適切に選択されていない場合にはサーバーでエラーが生じる可能性があるので注意.)

each-line mode lump mode


 [2011-03-25-1]の記事で,コーパス研究でよく用いられる対数尤度検定 ( Log-Likelihood Test ) の計算機 Log-Likelihood Tester, Ver. 1 を公開した.Ver. 1 は,コーパスサイズを加味しながら2つのコーパスでのキーワード(群)の出現頻度を比べ,コーパス間の差が有意であるかどうかを検定するものだった.
 Log-Likelihood Test は上述の目的で用いることが多いと思い,Ver. 1 ではあえて機能を特化させたのだが,より一般的に複数行,複数列の分割表で与えられるデータに対応する対数尤度検定を行ないたい場合もある.例えば,昨日の記事[2011-04-07-1]で,現代英語における thoughalthough の出現傾向について BNC に基づいた調査を紹介したが,Text Domain ごとの頻度比率は,両語の間で統計的にどの程度一致している,あるいは一致していないとみなすことができるのだろうか.昨日のグラフから,although は学術散文に多く,though は創作散文に多いという傾向が一目瞭然だが,この直感的な「一目瞭然」は統計的にはどのように表現されるのだろうか.
 このような場合には,次のような頻度表(値は100万語当たりの出現頻度に標準化済み)を準備し,これをコピーして入力ボックスに貼り付ける."lump mode" にチェックを入れ替え,"Go!" する.(デフォルトは "each-line mode" で,これは Ver. 1 と同等のモード.)

    thoughalthough
Natural and pure sciences56.380.13
Applied science37.3668.31
World affairs45.8168.2
Social science48.9863.38
Commerce and finance46.1857.21
Arts74.0752.93
Leisure45.8549.46
Belief and thought70.7846.75
Imaginative prose80.226.37


 結果は,1行だけの表として出力される.thoughalthough を表わす2列の数値の並びが,統計的にどのくらい近似しているかを計算している.結論としては,両語の Text Domain ごとの頻度の並びの差は p < 0.0001 という非常に高いレベルで有意であり,両語の出現傾向は Text Domain によってほぼ確実に異なるといえる.
 入力ボックスに入れるデータの書式は,タブ区切りの分割表.表頭と表側はいずれも省略可.サンプルのように表頭と表側の両方を含める場合には,左上のセルは空白にしておく必要あり.
 "each-line mode" の機能は Ver. 1 と互換なので,入力形式もそちらの説明を参照.今回の Ver. 2 の "each-line mode" では,出力結果をシンプルにおさえてある(逆に,詳しい内部計算値を得たい場合には Ver. 1 のほうが有用).
 Log-Likelihood Test の概要については,[2011-03-24-1]の記事を参照.

Referrer (Inside): [2012-10-26-1]

[ | 固定リンク | 印刷用ページ ]

2011-04-07 Thu

#710. thoughalthough の語法の差 (2) [bnc][corpus][lltest][conjunction][statistics]

 昨日の記事[2011-04-06-1]で,thoughalthough の語法の差に触れた.今日も同じ話題で.
 4000万語超からなる The Longman Spoken and Written English Corpus (the LSWE Corpus) を駆使した現代英語の文法書,Biber et al. (845--46) では次のようにある.

Both of these subordinators [though and although] occur in all four registers [conversation, fiction, news, and academic prose], although the registers show different preferences of use. Conversation and fiction show a slightly greater use of though (concessive clauses are, however, uncommon in conversation generally). News shows no particular preference. In academic prose, although is about three times as frequent as though. Although seems to have a slightly more formal tone to it, fitting the style of academic prose . . . . The greater use of although by writers of academic prose may also result from an attempt to distinguish this subordinator from the common use of though as a linking adverbial in conversation . . . .


 また,同書の p. 842 の表からは,相対的に though が fiction で多く,although は academic prose で多いことが確認される.ジャンルによる差が現われているとの結果だ.
 このような先行研究を受けて,今回は BNC ( The British National Corpus ) によりこれを確かめてみる.BNCweb で,{although/CONJ}, {though/CONJ} をそれぞれ検索し,Written/Spoken, Text Domain, Sex of Author/Speaker, Perceived Level of Difficulty など様々なパラメータで出現分布を分析した.主立った結果を以下に示そう(数値データはこのページのHTMLソースを参照).
 まず,Written/Spoken の差については,予想されるとおり,両語とも Written への偏りが激しい(差異係数は though で 0.66344 ,although で 0.49770 で,明らかに書き言葉に偏る).Log-Likelihood Test では,p < 0.0001 のレベルで書き言葉と話し言葉の有意差が明確に示された.
 書き手,話し手の性による差も興味深い.書き言葉と話し言葉の両方で,although は有意差をもって男性の使用に偏っている.though については,性差は although ほど顕著ではない(ただし書き言葉では p < 0.05 で有意差あり).
 次に,Text Domain 別に頻度をみる.9種類の Text Domain を区別した ( Natural and pure sciences, Applied science, World affairs, Social science, Commerce and finance, Arts, Leisure, Belief and thought, Imaginative prose ) .100万語当たりの出現回数に標準化した値で,両語の Text Domain 別頻度をグラフ化したのが以下の図だ.



 Text Domain によって両語の出現頻度に対照的な傾向が見られることがわかる.相対的に sciences ( = academic prose ) に although が目立ち,Imag(inative) Prose ( = fiction ) に though が多い.Log-Likelihood Test では,Text Domain による出現傾向の差は p < 0.0001 で有意である.
 直感的にも先行研究の結果からも予想され得たことではあるが,although は男性の書き手により学術散文で顕著に用いられるという図式が現われた.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

Referrer (Inside): [2011-04-10-1] [2011-04-08-1]

[ | 固定リンク | 印刷用ページ ]

2011-04-05 Tue

#708. Frequency Sorter CGI [corpus][bnc][statistics][web_service][cgi][lexicology][plural]

 何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
 改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.

foot, goose, louse, man, mouse, tooth, woman


     sort by rank?


 まず,BNC lemma-pos list による出力だが,この頻度表は約1億語の BNC 全体から,頻度にして800回以上現われる,上位6318位までの見出し語 ( lemma ) を収録している.したがって,それよりも頻度の下回る goose, louse については空欄となっている.頻度と不規則性の相関関係を考える際に参考になるだろう.
 次に,ANC word-tagset list による出力が続くが,この頻度表は BNC のものよりも規模が大きく,かつきめ細かい.合計22,164,985語を有する ANC (American National Corpus) から,Penn Treebank Tagset によってクラス付与された単位で語形が列挙されたリストである.タグセットが細かいので読みにくいし,自動タグ付与に起因するエラーも少なからず含まれているが,BNC のものよりも低頻度の語(形)を収録しているので,gooselouse の頻度情報も現われる.こちらの頻度表では WORD FORM ごとの頻度も確認できるため,直接 geeselice の頻度も確かめられる.
 当初 Frequency Sorter の用途として想定していたのは,上記の不規則複数形を示す語群などの頻度と順位の一括調査だったが,他にも用途はあるかもしれない.以下に,思いつきをメモ.

 ・ 1単語から使えるので,like のような多品詞語を入力して,品詞(あるいはタグ付与されたクラス)ごとの頻度を取り出せる.
 ・ ヒット数だけを確認したい場合には,いちいちコーパスを立ち上げる必要がない.
 ・ 論文やプレゼンで,ある目的で集めた数百語の単語リストの中から典型的な例,分かりやすい例を10個ほど示したいときなど,頻度の高い10個を選べばよい.例えば,[2011-03-29-1]で列挙した sur- を接頭辞にもつ単語リストのうち,例示に最もふさわしい10個を選ぶなどの目的に.頻度に基づいた順番のほうが,ランダム順やアルファベット順よりも親切なことが多いだろう(今後,本ブログ執筆に活用する予定).
 ・ 英米それぞれの代表的なコーパスに基づく頻度表を利用しているので,綴字や形態などの頻度の英米差を確認するのに使える.
 ・ (実際には lemmatisation が必要だが)適当な英文を放り込んでみて,妙に頻度の低い語が含まれていないかを調べる.頻度のツールなので,その他,教育・学習目的にいろいろと使えるかもしれない.

[ | 固定リンク | 印刷用ページ ]

2011-04-01 Fri

#704. brethren and sister(e)n [plural][analogy][ame][i-mutation][relationship_noun][corpus][coca][coha]

 昨日の記事[2011-03-31-1]で,古英語の親族名詞の屈折表を見た.brethren の起源についても言及したが,これと関連して親族名詞お得意の類推 ( analogy ) の例をもう一つ挙げよう.brethren との類推で sister(e)n という複数形がある.MED の記述にあるように,中英語では -(e)n 形はごく普通であり,-s 形が一般化するのは brother の場合と同じく近代期以降である.この辺りの話題は私の専門領域なので,詳細なデータをもっている.初期中英語でもイングランドの北部や東部では -s が優勢だが,南部や西部ではこの時期の sister の複数形は原則として -n あるいは母音の語尾が圧倒していることは間違いない ( Hotta, p. 256 ) .
 さて,sister(e)n は現代英語に生き残っているが,brethren と異なり,通常辞書には記載されていない.BNC ( The British National Corpus ) でもヒットしなかった.しかし,COCA ( Corpus of Contemporary American English ), COHA ( Corpus of Historical American English ) ではそれぞれ4例,15例(19世紀後半以降の例)がヒットし,もっぱらアメリカ英語で聞かれることが分かる.COCA からの例を1つ挙げる.政治討論会番組 "CNN Crossfire" からの用例である(赤字は引用者).

Well, you know, I hate to correct you, but you made the same mistake many of your liberal brethren and sisteren, have said in analyzing this dissent by Judge Stevens.


 COCA, COHA 両コーパスからの計19例のうち16例までが brethren and sister(e)n として現われ,主にフィクションで用いられ,dearmy が先行する呼びかけの使い方が多い.brethren と同様に宗教的,組合的な文脈で現われているようだが,限定された語義としてのほか,文体的な効果もあるのかもしれない.関連して,OEDsister の語義5を引用しておこう."In the vocative, as a mode of address, chiefly in transferred senses. Also colloq. as a mode of address to an unrelated woman, esp. one whose name is not known."
 もっぱらアメリカ英語で用いられることについては,Mencken (502) が触れている.

Sisteren or sistern, now confined to the Christians, white and black, of the Get-Right-with-God country, was common in Middle English and is just as respectable, etymologically speaking, as brethren.


 sister(e)n という複数形に関する歴史的な問題は,近現代アメリカ英語での使用を,中英語期以来の継続としてとらえるべきか,あるいはアメリカ英語で改めてもたらされた刷新としてとらえるべきか,である.OED によると,sister(e)n は一般的な文章語としては16世紀半ばに廃れたとある.初期近代英語期の例やイギリス英語を含めた諸方言の例を調査しないと分からないが,(1) brethren との類推は時代を問わずありそうであること,(2) brethren と脚韻を踏むので呼びかけなど口語で特に好まれそうであること,この2点からアメリカ英語での再形成と考えるのが妥当ではないだろうか.中英語で非語源的な sister(e)n が作り出されたくらいだから,近代英語で改めて作られたとしても不思議はない.
 sister(e)n は通常の辞書には載っていないくらいのレアな複数形だが,brethren, children, oxen (but see [2010-08-22-1]) と同じ,現代に残る少数派 -en 複数の仲間に入れてあげたい気がする.

 ・ Hotta, Ryuichi. The Development of the Nominal Plural Forms in Early Middle English. Hituzi Linguistics in English 10. Tokyo: Hituzi Syobo, 2009.
 ・ Mencken, H. L. The American Language. Abridged ed. New York: Knopf, 1963.

Referrer (Inside): [2011-04-05-1]

[ | 固定リンク | 印刷用ページ ]

2011-03-25 Fri

#697. Log-Likelihood Tester CGI [corpus][bnc][statistics][web_service][cgi][lltest][sociolinguistics]

 昨日の記事[2011-03-24-1]で Log-Likelihood Test を話題にした.計算には Rayson 氏の Log-likelihood calculator を利用すればよいと述べたが,実際の検定の際に作業をもう少し自動化したいと思ったので CGI を自作してみた.細かい不備はあると思うが,とりあえず公開.



 上のテキストボックスに入力すべきデータは,タブ区切りの表の形式.1行目(省略可)はコーパス名,2行目以降はキーワードと観察頻度数(ヒット数),最終行は各コーパスのサイズ(語数)."#" で始まる行はコメント行として無視される.1列目のキーワード列は省略可.
 以下のテキストが入力サンプル.[2010-09-11-1]の記事で取り上げたテレビ広告で頻用される形容詞(比較級と最上級を含む)トップ20の頻度を,BNCweb の話し言葉サブコーパスから話者の性別に整理した表である.このままコピーして入力ボックスに貼り付けると,出力結果が確認できる.

    BNC_Male_SpeakersBNC_Female_Speakers
new14991
good408310
free17375
fresh84118
delicious1234
full210107
sure532328
clean197223
wonderful270258
special17782
crisp1016
fine347215
big470415
great20396
real16380
easy326157
bright113110
extra347203
safe18292
rich12045
#--------
corpus_size49499383290569


 男女間で有意差の特に大きいのは,対応行が赤で塗りつぶされた fresh, delicious, clean, wonderful, big で,いずれも期待度数に基づいて計算された Diff_Co ( "Difference Coefficient" 「差異係数」 ) がマイナスであることから,女性に特徴的な形容詞ということになる.big は意外な気がしたが,おもしろい結果である.一方,男性に偏って有意差を示すのは黄色で示した easyrich である.この結果はいろいろと読み込むことができそうだし,より詳細に調べることもできる.広告の形容詞という観点からは,話者ではなく聞き手の性別,年齢,社会階級などを軸に調査してもおもしろそうだ.いろいろと応用できる.

Referrer (Inside): [2011-04-08-1]

[ | 固定リンク | 印刷用ページ ]

2011-03-24 Thu

#696. Log-Likelihood Test [corpus][bnc][statistics][lltest]

 [2010-03-04-1]の記事で触れたが,コーパス言語学では各種の統計手法が用いられる.いくつかある手法のなかでも,ある表現のコーパス間の頻度を比較したり,collocation の度合いを測るのに広く用いられているのが Log-Likelihood Test ( LL Test, G Test, G2 Test などとも)呼ばれる検定である.コーパスサイズを考慮に入れた検定なのでサイズの異なるコーパス間での比較が可能であり,同じ目的で以前によく用いられていたカイ2乗検定 ( Chi-Squared Test ) よりもいくつかの点ですぐれた手法と評価されており,最近のコーパス研究では広く用いられている.(例えば,カイ2乗検定は期待頻度が5回より少ないとき,高頻度語を扱うとき,コーパスサイズが大きいものと小さいものを比較するときに信頼性が低くなるが,Log-Likelihood Test はこれらの影響を受けにくい [ Rayson and Garside 2 ] .)
 Log-Likelihood Test の基本的な考え方は,コーパスサイズをもとにある表現の期待される出現頻度(期待頻度)を割り出し,その値と実際に出現する頻度(観察頻度)の差が単純な誤差と考えられるほどに近似しているかどうかを判定するというものである.例として,次のようなケース・スタディを試す.BNC ( The British National Corpus ) から話し言葉サブコーパスと書き言葉サブコーパスを区別し,両サブコーパス間で f*ck という four-letter word の頻度を比較する.BNCweb よりこのキーワードを検索すると,次のような結果が得られた.

CategoryNo. of wordsNo. of hitsDispersion (over files)Frequency per million words
Spoken10,409,85857963/90855.62
Written87,903,571743172/3,1408.45
total98,313,4291,322235/4,04813.45


 統計処理をほどこすまでもなく最右列 "Frequency per million words" を見れば,f*ck が圧倒的に話し言葉で多く用いられることが分かるが,今回はこれを統計的に裏付ける.まず,帰無仮説として「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内であり,この語に関して両者に意味のある差はない」を設定する.その対立仮説は「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内でなく,この語に関して両者の差は意味がある」となる.帰無仮説が支持されるかどうかを決めるのが,検定の目的である.

 Corpus 1Corpus 2Total
Frequency of wordaba+b
Frequency of other wordsc-ad-bc+d-a-b
Totalcdc+d


 Log-Likelihood Test に用いる Log-Likelihood ratio 「対数尤度比」は,上の表の要領で各サブコーパスの総語数 ( c, d ) と,各サブコーパスでの f*ck の頻度数 ( a, b ) を分割表にまとめた上で,それぞれの期待頻度 E1 と E2 を下の (1) の式で求め,その値を (2) の式に代入して求める.

 (1) E1 = c*(a+b)/(c+d); E2 = d*(a+b)/(c+d)
 (2) LL = 2*((a*log(a/E1))+(b*log(b/E2)))

 f*ck の数値で計算すると,以下のようになる.

 E1 = 10409858*(579+743)/(10409858+87903571) = 139.979170861796
 E2 = 87903571*(579+743)/(10409858+87903571) = 1182.0208291382
 LL = 2*((579*log(579/139.979170861796))+(743*log(743/1182.0208291382))) = 954.2115

 Log-likelihood ratio として 954.2115 という値が算出される.次にこの値を,適切な有意水準(通常は 5%, 1%, 0.1%)に対応するカイ二乗値と比較する.2 * 2 の分割表に対する計算では自由度1のカイ二乗値を用いることになっており,その値は有意水準 5%, 1%, 0.1% の順にそれぞれ 3.84, 6.63, 10.83 である.954.2115 の Log-Likelihood ratio は有意水準 0.1% に対応する 10.83 よりもずっと高いので,0.1% の有意水準で帰無仮説は棄却される.言い換えれば,統計的には帰無仮説が真である確率は 0.1% にも満たず,まず偽と考えてよいということである.このようにして対立仮説「話し言葉サブコーパスと書き言葉サブコーパスの間での f*ck の頻度差は誤差の範囲内でなく,この語に関して両者の差は意味がある」が採択されることになる.
 Log-Likelihood Test は以上のように進められるが,この検定を行なうにあたっての前提条件を知っておく必要がある.一般には,計算される期待頻度が 5 を下回るセルが1つでもある場合には,検定の精度は落ちるとされる.これは the Cochran rule と呼ばれているが,よりきめ細かなルールを提起した Rayson, Berridge, and Francis (8) によれば,期待頻度が満たすべき最低値は有意水準 5% で13 回,1% で 11 回,0.1% で 8 回だという.有意水準を 0.01% に設定すれば期待頻度 1 回にも耐える精度を得られるので,Rayson et al. はコーパス言語学で慣習的に用いられている3つの水準に加えて,0.01% の水準(対応するカイ二乗値は 15.13 )までの検定を推奨している.
 統計には詳しくないが,ある表現の 2(サブ)コーパス間での頻度比較というシーンで簡単に用いることができる検定として,Log-Likelihood Test の応用範囲は広そうだ.計算自体は Rayson 氏の Log-likelihood calculator などに任せればよい(本記事はこのページの記述とリンク先の論文を参考にした).
 BNC を用いた f*ck 関連語の分布の研究は,McEnery et al. (264--86) のケース・スタディに詳しい.
 関連して,検定は行なわなかったが,かつて本ブログで扱った gorgeous の調査 ([2010-08-16-1], [2010-08-17-1],[2010-12-25-1]) なども参照.

 ・ Rayson, P., D. Berridge , and B. Francis. "Extending the Cochran Rule for the Comparison of Word Frequencies between Corpora." Le poids des mots: Proceedings of the 7th International Conference on Statistical Analysis of Textual Data (JADT 2004), Louvain-la-Neuve, Belgium, March 10-12, 2004. Ed. Purnelle G., Fairon C., and Dister A. Louvain: Presses universitaires de Louvain, 2004. 926--36. Available online at http://www.comp.lancs.ac.uk/computing/users/paul/publications/rbf04_jadt.pdf .
 ・ Rayson, P. and R. Garside. "Comparing Corpora Using Frequency Profiling". Proceedings of the Workshop on Comparing Corpora, Held in Conjunction with the 38th Annual Meeting of the Association for Computational Linguistics (ACL 2000), 1-8 October 2000, Hong Kong. 2000. 1--6. Available online at http://www.comp.lancs.ac.uk/computing/users/paul/phd/phd2003.pdf .
 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

2011-03-12 Sat

#684. semantic prosody と文法カテゴリー [semantic_prosody][grammar][corpus][intensifier]

 昨日起こった東北地方太平洋沖地震につきまして,被災者の方々に心よりお見舞い申し上げます.
 [2011-03-03-1]の記事で,semantic prosody と文法カテゴリーとの間に関連があるという可能性に言及した.これは,happen の類義語,utterly を含む強意語の semantic prosody をコーパスによって調査した Partington の論文で指摘されていることである.
 Partington は happen, set in, occur, come about, take place を調査し,この語群には程度の差はあれ,確かに unfavourable な semantic prosody が付随しているという証拠を挙げた(最も unfavourable なのは set in だという)(144) .同様に,utterly, absolutely, perfectly, totally, completely, entirely, thoroughly を調査し,それぞれの semantic prosody あるいは semantic preference を抽出した (148) .そして,いくつかの語句に付随している音色には,favourable vs. unfavourable という単純な価値基準の対立ではなく,一般には文法カテゴリーとして言及されるような特徴の対立が関与しているということがわかった.
 具体的に言えば,happen は non-factuality を示す傾向が強い.法,疑問,条件といった文法カテゴリーとの関与が認められ,it is unclear whyto see what などの表現とともに用いられることが多い (140--41) .一方で,take place はむしろ factuality を示す傾向が強く,生じると予定されていることが実際に生じるという含意で用いられることが多い (143) .
 強意語では,utterly は unfavourable semantic prosody を示すだけでなく,特徴の不在や状態変化を表わす語を修飾する傾向がある ( ex. utterly helpless / unable /forgotten / changed / different / destroyed ) .同じ傾向は,totally, completely, entirely にも見られる.entirely には (in)dependency というカテゴリーも関与しており,entirely dependent / self-sufficient / isolated などと用いられることが多い.absolutely は superlative を含意する語を修飾する ( ex. absolutely delighted / splendid / appalling ) .
 factuality, absence, change, dependence, superlative というキーワードは,通常,文法カテゴリーに関連して言及されるラベルだが,語の意味,特に semantic prosody や semantic preference として言及される意味と深く関わっていることがわかる.
 考えてみれば,語彙と文法の結びつきという視点は,新しくもなければ珍しくもない.例えば,ある動詞は受け身でしか用いられないとか,否定で用いられることが多いなどという事実は当たり前のように指摘されてきたし,学習者用辞書に広く反映されている.ある種の意味領域を表わす語が,後続する that 節内の動詞に subjunctive を要求するという文法項目も長い間論じられてきた ([2010-04-07-1]) .語彙と文法の関係は英語学ではよく知られていた事実だが,コーパス言語学という新しい角度からも同じ事実にたどり着いたということだろう.ただし,コーパス言語学の貢献は,factuality や absence などのカテゴリーを 0 か 1 かの binary な問題としてではなく,probabilistic な問題として取り扱うことができる点にあるように思われる.
 英語史あるいは通時言語学の観点からは,ある語が文法カテゴリーと結びつきが認められる場合に,いつ,どのようにその結びつきが生じたのかに興味がある.例えば happen は英語史のいつ頃から unfavourable で non-factual な含蓄を得たのか.もしある時期にそのような含蓄を帯び始めたのであれば,その意味の場 ( semantic field ) を構成する他の類義語との関係も合わせて考える必要がある.そして,類義語との関係ということになれば,occur など借用語の圧力も考慮に入れなければならない.借用語による意味の場の再編成 → semantic prosody の滲出 → 文法カテゴリーへの結びつき,という流れがあるとすれば,おもしろい.speculation にすぎないが,例えば[2009-08-17-1]の記事で触れた語種と仮定法現在との関係にこの流れが見られないだろうか.

 ・ Partington, A. "'Utterly content in each other's company': Semantic Prosody and Semantic Preference." International Journal of Corpus Linguistics 9.1 (2004): 131--56.

[ | 固定リンク | 印刷用ページ ]

2011-03-05 Sat

#677. 現代英語における法助動詞の衰退 [auxiliary_verb][corpus][brown]

 現代英語の法助動詞 ( modal auxiliary ) の体系が複雑なことについては,[2010-07-22-1], [2010-01-20-1], [2009-07-01-1], [2009-06-25-1]の記事で触れた.法助動詞は一般動詞と比較して統語形態上の振る舞いが特異であり,意味も多様化してきたので英語史を通じて不安定な語類であった.現代英語でも体系的な安定は得られておらず,再編成が進行中と考えられるが,再編成の様相それ自体が複雑である.現代英語の法助動詞の研究は数多いが,体系の変化の傾向を記述した研究として,The Brown family of corpora ([2010-06-29-1]) を利用した Leech et al. (Chapters 3--5) の研究がある.特に4章 (pp. 71--90) では,主要な11の法助動詞の頻度の変化が詳述されている.以下は,1961年の米英書き言葉を代表する Brown と LOB,そして1991/92年の米英書き言葉を代表する Frown と F-LOB により,約30年間にわたる法助動詞の頻度の通時変化を表わしたグラフである(Leech et al., p. 283 の数値表をもとに作成).数値データはこのページのHTMLソースを参照.will には 'llwon't などの省略形・否定形も含む.need は肯定形と否定形を両方含む.

Frequencies of Modals in the Brown Family Corpora


 全体として30年の間に法助動詞の頻度が下がっていることが分かる.頻度の減少は,would, will, may, should, must, shall, ought (to) で p < 0.001 の非常に強い有意差を示し,might, need(n't) で p < 0.01 の強い有意差を示す.これは英米両変種をひっくるめた結果だが,変種で分けて調査すると,AmE のほうが BrE よりも減少の度合いが強く,BrE がその傾向を遅れて追いかけているかのような分布を示す (73) .
 興味深いのは,もともと頻度の低い法助動詞ほど減少率も大きい "bottom-weighting" (73) の傾向が観察されることだ.減少率の全体平均は18.9%だが,上位4助動詞でみると4.7%,下位7助動詞でみると22.7%である.特に,shall の43.5%,ought (to) の37.5%,need(n't) の31.6%という減少率は著しい.
 bottom-weighting の背景には,"paradigmatic atrophy" 「体系的な退化」(80--81) があるのではないかと指摘されている.上述のように,法助動詞は一般動詞と比べて多くの点で不完全であり変則的である.人称や数による屈折を欠いており,不定形が存在せず,時制変化もきわめて不規則である.shall は2人称代名詞を主語として現われることはほとんどなく,mayn't という否定形はきわめてまれである.法助動詞が全体的に "defective" な語類であることを考えれば,とりわけ頻度の低い法助動詞がいっそう機能不全に陥り,ますます低頻度になってゆくということは不思議ではない.法助動詞の再編成はグラフに見られるほど単純な現象ではないが,コーパスを用いた量的調査によって大きな潮流が明らかにされたと言えるだろう.

 ・ Leech, Geoffrey, Marianne Hundt, Christian Mair, and Nicholas Smith. Change in Contemporary English: A Grammatical Study. Cambridge: CUP, 2009.

Referrer (Inside): [2015-04-22-1] [2014-12-02-1]

[ | 固定リンク | 印刷用ページ ]

2011-03-04 Fri

#676. コーパス研究の知見はどこまで解釈に役立つか? [semantics][corpus][semantic_prosody][passive]

 [2011-03-02-1], [2011-03-03-1]の記事で semantic prosody を取りあげた.ある共起表現が(主に否定的な)評価を帯びる現象である.semantic prosody は単なる語句のレベルにとどまらず,統語的なレベルにも見られる.例えば,Stubbs (163--68) では be-passive に対する get-passive の意味特性に関するコーパス利用研究が紹介されており,get を用いた受動態は主語が不利益を被るという文脈(さらに場合によっては主語がその不利益に自ら責任があるという文脈)で頻繁に見られるという結果が報告されている.
 get-passive が否定的な semantic prosody を帯びやすいということは,従来から文法書等で指摘されてきたことだが,コーパス研究の長所は具体的な数字を提供してくれる点にある.Stubbs の調査では,be-passive の約25%が "unpleasant" な結果を含意し,"pleasant" を含意するものも多いという.一方,get-passive では60%以上が "unpleasant" な結果を含意し,"pleasant" を含意するものはほんのわずかである.別のコーパスを用いた別の研究者による調査では,get-passage の "unpleasant" 含意率が話し言葉コーパスで約9割に達したという報告もあり,get-passive が否定的な semantic prosody をもっていることは明らかである.このような客観的な数値による裏付けが,corpus semantics の重要な特長であり役割である.
 しかし,コーパス研究によって得られた get-passive に関するこの知見は,get-passive を含む具体的な文の解釈にどのくらい役立つのだろうか.コーパスから得られたという次の文を考えよう.

I got praised for having a clean plate.


 一見したところ特に "unpleasant" を含意する語句は含まれていない.しかし,get-passive が用いられているということは,ここでは "unpleasant" を含意する解釈,おそらくは皮肉的な読みが要求されているということなのだろうか.コーパスによる知見から言えることは,「否定的な semantic prosody を伴っている get-passive が用いられている以上,高い確率で "unpleasant" の読みがふさわしいだろうが,"pleasant or neutral" な例も皆無ではなかったのだからここでは例外的に "pleasant or neutral" な読みかもしれない」ほどだろうか.しかし,これでは常識的に知っていることと差がない.コーパスの知見がほとんど活かされていない.コーパス研究のジレンマは,大量の用例から傾向を探り出すことは得意だが,個々の用例の解釈を保証してはくれないということである.英文解釈のためにコーパスで注目表現の有無や頻度を調べるということは日常的に行なっているが,そこでいつも思うのが,その表現があったから,高頻度だったからといって,それが必ずしも正しい英文解釈へ導いてくれるとは限らないということである.「参考までに」で止まってしまうことが多く,じれったい.「参考までに」では参考にならないことが多いのだ.
 この問題を semantic prosody の観点からとらえなおすと,ある共起表現において semantic prosody の含意する否定性がどの程度の強度,安定感,感染力をもっていれば,一見したところ中立的,肯定的な文脈が皮肉などの否定的な音色を帯びると考えられるのだろうか.それは probability の値として算出できるものなのだろうか.
 個々の文脈で判断すべしと言ってしまえばそれまでだが,コーパス研究の成果が英文解釈という現実的な問題に貢献し得ないとなると,その価値は大幅に制限されてしまうのではないか.Stubbs の論文は,コーパス研究と解釈の関係について上記の問題を提起しているが,解決策については無言である.

 ・ Stubbs, M. "Texts, Corpora, and Problems of Interpretation: A Response to Widdowson." Applied Linguistics 22.2 (2001): 149--72.

Referrer (Inside): [2011-03-20-1] [2011-03-11-1]

[ | 固定リンク | 印刷用ページ ]

2011-03-03 Thu

#675. collocation, colligation, semantic preference, semantic prosody [semantics][corpus][collocation][semantic_prosody]

 昨日の記事[2011-03-02-1]で取りあげた semantic prosody に関連する話題.語と語の共起関係には4つの種類が区別される.以下,McEnery et al. (84--85, 149--52) を参照して,抽象度の低いものから高いものへと並べ,それぞれの概要を記す.
 
(1) collocation: 語彙項目と語彙項目との関係
(2) colligation: 語彙項目と文法カテゴリーとの関係.
(3) semantic preference: 語彙項目と,意味的に関連する語群との関係
(4) semantic prosody: 感情的意味を生み出す語彙項目の共起関係

 (1) collocation は単純に語と語が共起するという関係を指し,基本的には統計的な概念と考えられている.しかし,どの程度の頻度をもって共起すれば "collocate" していると見なすことができるのかに関して,論者のあいだで統計的な基準は異なる( see [2010-03-23-1], [2010-03-04-1] ) .通常は,常識的に「高頻度」であれば collocation と呼んでいるようだ.
 (2) 名詞 house と最も高頻度で共起する語に thea などの冠詞があるが,これは collocation を研究する上であまり有意味でない.名詞であれば冠詞と共起するのは自明であり,house に限定された話しではないからだ.collocation を有意味な術語として保つためには,house と冠詞のような,語と文法カテゴリーの関係を表わす術語が必要となる.これが colligation である.
 (3) semantic preference は,ある意味的特性を共有する,高頻度で共起する語の集合に関わる関係である.例えば,large は数量・規模を表わす語群 ( ex. number(s), scale, part, quantities, amount(s) ) と共起し,utterly は特徴の欠如や状態の変化を表わす語群 ( ex. helpless, useless, unable, forgotten; changed, different ) と共起する.largeutterly は共起する語句の意味範囲を選んでいる.
 (4) semantic prosody の定義は昨日の記事[2011-03-02-1]で記した通りで,態度や評価といった感情的な意味を生み出す共起関係を指す.母語話者の意識に上らない,隠された含意であることが多い.semantic preference の特殊な現われと見ることもでき,その境目は必ずしも明確ではない.
 いずれの種類の共起であれ,共起に関する詳細な研究は電子コーパスで一度に多数の例文を集められるようになったことにより発展してきた.semantic prosody の研究は,意味論の発展に貢献することはいうまでもないが,類義語間の区別を明らかにするのに役立つことが見込まれるので語学教育や辞書学の分野にも貢献することになるだろう.また,この種の研究は語彙論や意味論と強く結びつけられる研究ではあるが,先に utterly との関連で示した「特徴の欠如や状態の変化」という意味特性の関与を考えると,polarity や modality といった文法カテゴリーとの関連も示唆され,統語論との接点も見いだせそうだ.そして,繰り返し共起することにより特定の意味が定着してゆくという過程に焦点を当てれば,当然,通時的な研究対象にもなり得る.
 semantic prosody は,このように広範な応用が期待できそうな話題である.McEnery et al. (84) に最近の研究の書誌があるので,参考までに以下に整理しておく.

 ・ Hunston, S. Corpora in Applied Linguistics. Cambridge: Cambridge UP, 2002.
 ・ Louw, B. "Irony in the Text or Insincerity in the Writer? The Diagnostic Potential of Semantic Prosodies." Text and Technology: In Honour of John Sinclair. Eds. M. Baker, G. Francis and E. Tognini-Bonelli. Amsterdam: John Benjamins, 1993. 157--76.
 ・ Louw, B. 2000. "Contextual Prosodic Theory: Bringing Semantic Prosodies to Life." Words in Context: A Tribute to John Sinclair on his Retirement. Eds. C. Heffer, H. Sauntson and G. Fox. Birmingham: U of Birmingham, 2000.
 ・ Partington, A. Patterns and Meanings. Amsterdam: John Benjamins, 1998.
 ・ Partington, A. "'Utterly content in each other's company': Semantic Prosody and Semantic Preference." International Journal of Corpus Linguistics 9.1 (2004): 131--56.
 ・ Schmitt, N. and R. Carter "Formulaic Sequences in Action: An Introduction." Formulaic Sequences. Ed. N. Schmitt. Amsterdam: John Benjamins, 2004. 1--22.
 ・ Stubbs, M. "Collocations and Semantic Profiles: On the Cause of the Trouble with Quantitative Methods." Function of Language 2.1 (1995): 1--33.
 ・ Stubbs, M. "Texts, Corpora, and Problems of Interpretation: A Response to Widdowson." Applied Linguistics 22.2 (2001): 149--72.


 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

2011-03-02 Wed

#674. semantic prosody [semantics][corpus][collocation][semantic_prosody][terminology]

 semantic prosody は,近年のコーパス言語学の興隆によって生み出された概念であり,研究課題としても注目されるようになってきた.同じくコーパス言語学によって注目を集めるようになった collocation とも深く関連している.Louw (57) によれば,semantic prosody の定義は "a form of meaning which is established through the proximity of a consistent series of collocates" である.もう少し分かりやすい定義として Crystal からも引用しよう.

A term sometimes used in corpus-based lexicology to describe a word which typically co-occurs with other words that belong to a particular semantic set. For example, utterly co-occurs regularly with words of negative evaluation (e.g. utterly appalling). (428)


 例として utterly appalling が挙げられているように,utterly という強意の副詞は常に,否定的な性質を表わす語を強調する.他に,happenset in という(句)動詞も不快な出来事を表わす名詞と共起することが多い.semantic prosody とは,共起によって強く顕現するこのような「意味上の音色」のことを指し,その主たる機能は話者の態度や評価を表わすことである.多くは否定的な評価に関するものであり,肯定的な評価の例は少ない(後者の例としては,否定的な強意副詞 utterly に対して肯定的な強意副詞 perfectly が挙げられよう).semantic prosody が collocation と強く結びつていることは,McEnery et al. (83) の挙げている personal price の例から明らかである.personalprice も単独ではその評価は中立的だが,共起すると通常否定的な意味上の音色を伴う.
 特定の共起によって特定の semantic prosody が生じ,それが十分に定着してくると,その共起を故意に逸脱させることによって皮肉,偽善,ユーモアなどの特殊な効果を表わすことができるようにもなる.例えば,Cobuild written corpus に次のような例文がある.

Their relationship in fact was so complete that they were utterly content in each other's company.


 semantic prosody に関して避けることのできない議論は,語と語の共起によってなぜ特定の音色(主に否定的な音色)が顕現するのか,あるいは歴史的に獲得されてきたのか,という問題である.utterly はなぜ否定的な音色を帯びるのか.この問いに対して,否定的な語と共起することが多かったから utterly 自体も否定の音色を帯びるようになったという答えがあるかもしれない.しかし,そもそも否定的な語と共起することが多かったのはなぜなのか.それは utterly 自体が本来的に否定的な音色を帯びていたからではないか.まさに鶏が先か卵が先かの問題に陥ってしまう.このような場合の常として,(1) 本来的に否定的な性質と (2) 特定の否定的な語との頻繁な共起、という2つの要因が相互に作用した結果だろうという説明がもっとも穏健かもしれない.しかし,比較的最近,接尾辞 -ish の否定的な含意の獲得について歴史的な研究を行なった私にとっては,この問題は悩ましい問題である.McEnery et al. (84) もこの問題に触れている.

It might be argued that the negative (or less frequently positive) prosody that belongs to an item is the result of the interplay between the item and its typical collocates. On the one hand, the item does not appear to have an affective meaning until it is in the context of its typical collocates. On the other hand, if a word has typical collocates with an affective meaning, it may take on that affective meaning even when used with atypical collocates. As the Chinese saying goes, 'he who stays near vermilion gets stained red, and he who stays near ink gets stained black' --- one takes on the colour of one's company --- the consequence of a word frequently keeping 'bad company' is that the use of the word alone may become enough to indicate something unfavourable . . . .


 ・ Crystal, David, ed. A Dictionary of Linguistics and Phonetics. 6th ed. Malden, MA: Blackwell, 2008. 295--96.
 ・ Louw, B. 2000. "Contextual Prosodic Theory: Bringing Semantic Prosodies to Life." Words in Context: A Tribute to John Sinclair on his Retirement. Eds. C. Heffer, H. Sauntson and G. Fox. Birmingham: U of Birmingham, 2000.
 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

2011-02-23 Wed

#667. COCA 最頻50万語で品詞別の割合は? [lexicology][corpus][french][loan_word][adjective][statistics][coca]

 昨日の記事[2011-02-22-1]に引き続き,COCA ( Corpus of Contemporary American English ) に基づく単語の頻度リストを利用したパイロット・スタディ.今回は,こちらで最近になって追加された最頻50万語のリストを用いて,昨日と同様の品詞別割合を調べた.昨日のリストは見出し語 ( lemma ) に基づいた最頻5000語,今日のリストは語形 ( word form ) に基づいた最頻50万語(正確には497187語)で,性格が異なることに注意したい.
 昨日とほぼ同じ作業だが,今回は2万語ずつで階級を区切り,L1からL25までの階級のそれぞれにおいて noun, verb, adj., adv., others の5区分で品詞別割合を出した.(数値データはこのページのHTMLソースを参照.)

Form-Based POS Ratios by COCA

 L6(12万語レベル)辺りから品詞別比率は安定期に入るといってよいだろう.L17(34万語レベル)辺りから変動期が始まるのが気になるが,階級幅を大きくしてみると(ならしてみると)直前のレベルから大きく逸脱していない.
 [2011-02-16-1]の記事以来,形容詞の比率が気になっているが,今回のデータ全体から計算すると,0.1738という値がはじきだされた.昨日の lemma 調査では0.1678だったから,値は非常に近似している.ただし,名詞と動詞の lemma 対 word form の比率は,名詞が 0.5086 : 0.6985,動詞が 0.2000 : 0.1065 と大きく異なるので,形容詞の 0.1678 : 0.1738 という近似は偶然かもしれない.lemma 対 word form の品詞別割合には異なる傾向があるのかもしれないが,それでも大規模に調べると安定期と呼びうる区間が出現することは確かなようだ.
 [2011-02-16-1]の記事で触れたように,中英語期のフランス借用語における形容詞比率は0.1768だった.今回の値0.1738と酷似しているが,主題の性質がまるで違うので,直接の関係を論じることは無理である.もとより昨日と今日の調査は,[2011-02-16-1]の調査とは無関係に始めたものである.しかし,偶然と思えるこの結果は,示唆的ではある.借用語彙といえば名詞が圧倒的なはずだと予想していたものの,フランス語や古ノルド語からはおよそ一定の割合の形容詞(それぞれ lemma 調査で0.1768と0.1817)が借用されていた.そして,その比率は時代が異なるとはいえ現代英語の比率と近似している.英語語彙全体における比率と借用語彙における比率が近似しているということは,もし偶然でないとしたら,何を意味するのだろうか.フランス借用語彙や古ノルド借用語彙が,英語に適応するような自然な比率で英語語彙へ溶け込んだということだろうか.これは,今回のパイロット・スタディの結果を受けての印象に基づく speculation にすぎない.今後も品詞別割合という観点に注目していきたい.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow