hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 次ページ / page 8 (10)

corpus - hellog〜英語史ブログ

最終更新時間: 2020-06-05 08:55

2011-02-22 Tue

#666. COCA 最頻5000語で品詞別の割合は? [lexicology][corpus][statistics][n-gram][coca]

 COCA ( Corpus of Contemporary American English ) に基づいた各種語彙リストが Corpus-based word frequency lists, collocates, and n-grams から入手できる.そのなかで最も基本的なリストが,こちらの最頻5000語リストである.列挙されているのは見出し語 ( lemma ) 単位で,順位はコーパスに現われる頻度と分散の関数で計算されている.UCREL CLAWS7 Tagset の品詞コード表に基づいた粗い品詞情報も付与されており,品詞別の頻度などを手軽に分析することができる.
 今回は,500語ごとに区切って頻度の高い順にL1からL10までの階級を設け,それぞれの階級における品詞別割合を出した.品詞は開いた語類 ( open class ) を中心とし,noun, verb, adj., adv., others の5区分とした.(数値データはこのページのHTMLソースを参照.)

Lemma-Based POS Ratios by COCA

 第1階級を除き,どの階級でも名詞が過半数を占めているのは予想できたことだが,第2階級以降に名詞の割合が思ったほど伸びていないことが分かった.動詞と形容詞が後半の階級でもおよそ一定の割合を占め続けているのも予想外だった.全体として,最頻5000語リストに限れば,名詞が飛び抜けつつも,開いた語類の内部比率はおよそ一定に保たれているといえよう.階級幅を様々に動かして試してみたが,およそ安定期に入るのは500語以降と見てよさそうだ.
 [2011-02-16-1]の記事で中英語期のフランス借用語の品詞別割合をみたが,全体としての形容詞比率は0.1768だった.今回の現代英語の最頻5000語では,全体としての形容詞比率は0.1678.比べて意味のある数値かどうかは分からないが,英語(言語?)における品詞別比率の「安定感」のようなものはあるのだろうか.
 COCA に基づくもの以外にオンラインで入手できる最頻英単語リストについては[2010-03-01-1]の記事を参照.頻度表を利用した別のパイロット・スタディとしては,単語の音節数を扱った[2010-04-17-1]の記事を参照.

[ | 固定リンク | 印刷用ページ ]

2011-01-29 Sat

#642. OED の引用データをコーパスとして使えるか (4) [oed][corpus][statistics]

 [2010-10-15-1]の記事に関連して,Brewer の論文から補足.その記事で OED の引用数を時代別にグラフ化したものを掲げたが,特に顕著な増加を示している箇所を数字で示した版を以下に示す.

OED Quotations per Decade by Brewer (Marked)

 Brewer (58) によると,(1)--(5) の各増加は OED 編纂上の要因によるところが大きいとされる.それぞれの事情は以下の通りである.

 (1) 1291--1300年の増加.1470年以前についてはしばしばテキストの年代が不明であり,そのような場合には便宜上各世紀の中央や両端に年代を仮設定するという編集上の方針があった.また,特にこの時代については,Robert of Gloucester (1297年,3222用例) や Cursor Mundi (1300年,10771用例で OED における被引用数第2位の作品) から,かなり集中的に引用が取り込まれているという事情もある.
 (2) 1391--1400年の増加.(1) と同様の世紀終わりという理由に加え,Trevisa (1387/98年,6750用例) から大量に取り込まれているという事情がある.
 (3) 1521--1530年の増加.Palsgrave の Lesclarcissement (1530年,5418用例) からの大量の引用により,半ば説明される.
 (4) 1581--1600年の増加.Shakespeare (33304用例) の影響が相当に大きい.
 (5) 1631--1660年の増加.おそらく革命期のパンフレットからの多数の引用が影響している.

 この5点の増加についてだけでも編集上の背景を具体的に知っておくと,OED の引用データの使い方(少なくともその姿勢)は変わってくるだろうと思い,メモした次第.関連する記事としては以下を参照.

 ・ [2010-10-10-1]: #531. OED の引用データをコーパスとして使えるか
 ・ [2010-10-14-1]: #535. OED の引用データをコーパスとして使えるか (2)
 ・ [2010-10-15-1]: #536. OED の引用データをコーパスとして使えるか (3)

 ・ Brewer, Charlotte. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

Referrer (Inside): [2015-03-29-1]

[ | 固定リンク | 印刷用ページ ]

2011-01-14 Fri

#627. 2変種間の通時比較によって得られる言語的差異の類型論 [language_change][speed_of_change][corpus][brown][ame_bre]

 [2010-06-29-1]の記事でみたように,The Brown family of corpora を構成する4コーパス ( Brown, Frown, LOB, F-LOB ) を用いることによって英語の英米変種間の30年間ほどの通時変化を比べることができる.このように信頼するに足る比較可能性を示す複数のコーパスを用いた通時研究は "diachronic comparative corpus linguistics" (Leech et al. 24) と呼ばれており,相互に30年ほどの間隔をあけた英米変種のコーパス群が過去と未来の両方向へ向かって編纂されてゆくものと思われる.
 地域変種と年代という2つのパラメータによって得られる言語項目の頻度の差について,理論的な解釈は複数ありうる.Brown family の場合にはどのような解釈があり得るか,Mair (109--12) が論じている2変種間の通時比較によって得られる言語的差異(の有無)の類型論 ( "typology of contrasts" ) を改変した形で以下に示そう."=" は変化の出発点を,"+/-" は変化の生起とその方向を示す.

 (1) nothing happening
    BrE: = → =
    AmE: = → =

 (2) stable regional contrast
    BrE: = → =
    AmE: +/- → +/-

 (3) parallel diachronic development
    BrE: = → +/-
    AmE: = → +/-

 (4) convergence: Americanization
    BrE: +/- → =
    AmE: = → =

 (5) convergence: 'Britishization'
    BrE: = → =
    AmE: +/- → =

 (6) incipient divergence: British English innovating
    BrE: = → +/-
    AmE: = → =

 (7) incipient divergence: American English innovating
    BrE: = → =
    AmE: = → +/-

 (8) random fluctuation
    BrE: = → +/-
    AmE: +/- → +/-

 (1), (8) は最も多いが観察者の関心を引かない平凡なタイプの差異(の欠如)である.(2) は確立された不動の英米差,例えば <honour> vs. <honor> の綴字や got vs. gotten の使用が例となる.(3) の例は Mair では挙げられていないが何があるだろうか.(4) は Americanization の事例,例えば help が原型不定詞を取るようになってきている傾向を思い浮かべることができる(ただし BrE でのこの傾向はすべてが Americanization に帰せられるというわけではない).(5) は非常にまれだが 'Britishization' の例である.例えば AmE での準助動詞表現 have got to の広がりは BrE に牽引されている可能性があると疑われている.(6) は,BrE で prevent が "O + from + V-ing" ではなく "O + V-ing" を好んで選択するようになり出している傾向が例に挙げられる.(7) は,AmE で beginto 不定詞でなく V-ing を取る頻度が高まり出している傾向が例となる.
 理論的には,さらに変化の速度を考慮しなければならない.例えば (3) のように両変種で同方向の通時変化が生じている場合でも,変種間で変化の速度に差があれば結果として平行にはならないだろう.上記の類型論に速度という観点を持ち込むと,相当に細かい場合分けが必要になるはずである.このように複雑な課題は残っているが,2変種2時点を比較する "diachronic comparative corpus linguistics" の理論的原型として,上記の "typology of contrasts" は有用だろう.もちろん,このタイポロジーは,BrE と AmE において30年ほどという短期間に生じた通時変化だけでなく,近代以降の両変種の通時的発達を記述するモデルとしても有効である.広くは,[2010-10-09-1]の記事で扱った世界英語の convergence と divergence の問題にも適用できると思われる.

 ・ Leech, Geoffrey, Marianne Hundt, Christian Mair, and Nicholas Smith. Change in Contemporary English: A Grammatical Study. Cambridge: CUP, 2009.
 ・ Mair, Christian. Three Changing Patterns of Verb Complementation in Late Modern English: A Real-Time Study Based on Matching Text Corpora." English Language and Linguistics'' 6 (2002): 105--31.

[ | 固定リンク | 印刷用ページ ]

2010-12-25 Sat

#607. Google Books Ngram Viewer [corpus][web_service][ame_bre][google_books][n-gram][statistics][frequency][lexicology]

 Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
 規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burntburned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
 次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American EnglishBritish English のそれぞれのサブコーパスから出力されたグラフは以下の通り.

in the street and on the street by Google Books Ngram Viewer

 inon の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
 [2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
 コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
 他のオンラインコーパスについては[2010-11-16-1]を参照.

[ | 固定リンク | 印刷用ページ ]

2010-11-16 Tue

#568. コーパスの定義と英語コーパス入門 [corpus][link][representativeness]

 言語研究における corpus 「コーパス」は様々に定義されているが,McEnery et al. の定義が簡潔である.

. . . a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.


 (1) と (2) についてはおよそ研究者間にコンセンサスがあるが,(3) と (4) については何をもって "sampled" あるいは "representative" とみなすかについて様々な意見がある.しかし,大筋においてこの定義を受け入れることができるだろう.
 手軽に英語コーパスを試すには,オンラインのものが便利である.以下は,(登録の必要なものもあるが)オンラインで簡便に利用できる英語コーパス.

 ・ British National Corpus (いくつかのインターフェースが提供されている)

  * BNC ( The British National Corpus )
  * BNCweb要無料登録
  * BYU-BNC (要無料登録)

 ・ BYU Corpora ( Brigham Young University, Mark Davies 提供のその他のオンラインコーパス群)

  * COCA ( Corpus of Contemporary American English ) (要無料登録)
  * COHA ( Corpus of Historical American English ) (要無料登録)
  * TIME Magazine Corpus of American English (要無料登録)

 ・ Cobuild Concordance and Collocations Sampler

 その他,本ブログではコーパス関係の記事をいろいろと掲載しているので,参考にされたい.

 ・ hellog 内のコーパス情報の集約記事: [2010-09-15-1]
 ・ hellog 内のコーパス関連記事: corpus
 ・ hellog 内の BNC 関連記事: bnc

 ・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.

[ | 固定リンク | 印刷用ページ ]

2010-10-15 Fri

#536. OED の引用データをコーパスとして使えるか (3) [oed][corpus][statistics]

 [2010-10-10-1], [2010-10-14-1]に引き続き,OED の引用データの話題.今回は,特に昨日の記事[2010-10-14-1]の (2), (3) で取り上げた年代別引用数の浮き沈みの問題を意識する上で,数値をグラフに視覚化しておくと便利だと考えた.
 Brewer は10年ごとに OED の引用数の推移を調べており,実際にグラフ化もしている (48--49) .しかし,論文内に提示されているグラフは1470年を境に二分されており,目盛り尺度も互いに異なっているので比較するにはやや不便である.そこで,以下に目盛り尺度を揃えたグラフを改めて作成してみた.Brewer にはグラフ作成のもとになる数値データは与えられていないので,グラフから目検討で数値を読み出し,それを頼りに作成した(← 本当は自ら OED で改めて数字を出せばいいのだけれど).したがって,ここに示されているものはあくまで傾向をとらえるためのものとして参考までに.

OED Quotations per Decade by Brewer

 OED を通時コーパスとして用いる場合には,特に引用数が周囲より劇的に低かったり高かったりする時期からの引用に当たる際に注意が必要である.このグラフは,その際のお供として参照されたい.

 ・ Brewer, Charlotte. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

Referrer (Inside): [2015-03-29-1] [2011-01-29-1]

[ | 固定リンク | 印刷用ページ ]

2010-10-14 Thu

#535. OED の引用データをコーパスとして使えるか (2) [oed][corpus]

 [2010-10-10-1]の記事では,Hoffmann の論文を参照して,OED の引用データは若干の注意は必要だが十分にコーパスとなりうるのではないかという説を見た.一方で,OED の引用は若干ではなく相当の注意を払わないと危ないという厳しい説がある.Brewer によれば,OED の引用データを,各時代を代表するコーパスとみなすことには慎重であるべきだという.Brewer は先行論文を参照しつつ様々な証拠を挙げて議論しているが,主なものを下にまとめてみる.

 (1) 特定の文学作家,文学作品の引用が不釣り合いに多い.被引用数トップ5の作家は,Shakespeare, Walter Scott, Milton, Wycliffe, Chaucer.Shakespeare のカバー率は100%に近いと言われ,引用数は33304例を数える.第5位の Chaucer からの引用は11902例.被引用数トップの作品は,予想通りに聖書.第2位は1300年頃に書かれた長詩 Cursor Mundi で12772例を数える.有名な作家・作品についてはコンコーダンスが手に入りやすいために,引用が採用されやすいという事情があるという (45--47) .引用は言語を代表しているというよりも,編纂者の選択を表わしているというべきである.

Any inferences drawn from the OED coverage about the significance of these writers for the development and illustration of the English lexicon are flawed ones: the exceptionally full representation of their language in the dictionary is due at least as much to the lexicographers' consultation of the concordances as to the intrinsic qualities of these writers' diction. (51)


 (2) 引用数を年代別にプロットすると c1581--1610 に引用が急激に増えている.また,19世紀前半も引用がうなぎ登りに増えている.この点については[2010-10-10-1]の (4) でも触れた.前者の時期については Shakespeare の引用が多いことと深く関連しており,必ずしもその時代の言語を代表しているということにはならないのではないか (47, 58) .後者の時期については,OED 制作のすぐ前の時代であり,必然的に容易に手に入る典拠の数が多いからである.

 (3) 15世紀以前では 1291--1300, 1391--1400 の時期に引用のピークがあるが,1つには年代が不明確な作品については区切りのよい世紀の変わり目に切り上げたり切り下げたりすることがあり,それが反映された結果だという.別の理由としては,1300年頃に Robert of Gloucester (3222例)や Cursor Mundi (10771例)が,1400年頃に Trevisa (6750例)が集中したせいである (57--58) .

 (4) OED に採用される見出し語は英語国のボランティア読者による単語収集とそのメモが元になっているが,ボランティアは普通でない語や普通でない意味を特に注意して集めるように指示されていた.". . . this resulted in partial reading and uneven representation of sources" (50).

 (5) OED には初期近代英語期の辞書等から直接引用している見出し語が多くあるが,その辞書等の見出し語がすべて収録されているわけでなく,見出し語が取捨選択されている形跡がある.ある調査によると,1/5ほどが OED には収録されずに切り捨てられたという.ここでは,編纂者の恣意的な判断,おそらくは19世紀の進化観に裏打ちされた規範主義的な判断が入っていると考えられる (52--52) .

 [2010-10-10-1]とあわせて OED の引用データをコーパスとしてみなしてよいかどうかについて賛否両論を見たが,1000年の歴史英語をカバーする扱いやすい通時コーパスが他に公開されていない以上,上に挙げたような点を意識したうえで OED を注意して用いる,ということ以外に答えはないように思える.

 ・ Brewer, Charlette. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

[ | 固定リンク | 印刷用ページ ]

2010-10-10 Sun

#531. OED の引用データをコーパスとして使えるか [oed][corpus][representativeness]

 OED (2nd ed. CD-ROM) を歴史英語コーパスとして用いるという発想は特に電子版が出版されてから広く共有されてきた.実際に多くの研究で OED がコーパスとして活用されている.しかし,そもそもがコーパスとして編まれたわけではない OED 中の用例の集合をコーパスとみなして研究することは,どれくらい妥当なのだろうか.研究の道具について知ることは研究自身と同じくらい重要だと思われるので,このテーマに関連する Hoffmann の論文から要点をまとめてみたい.(私自身が道具としての OED の特徴をよく理解せずに研究に使っていたきらいがあるので,自分のための備忘録というつもりです.田辺春美先生の書かれた論文を参考にしています.)
 Hoffmann は OED の用例の集合をコーパスとして用いることができるかという疑問に対して,4つの観点からアプローチしている.各観点と,対応する Hoffmann の結論を要約する.

 (1) Selection criteria for the quotations
   "a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (19; cited from Sinclair) という厳密なコーパスの定義に照らせば,OED の用例の集合をコーパスと見なすことはできない.確かに,個々の見出し語下に納められている用例群が,その見出し語に注目した場合の適切なコーパスにならないということは言えるだろう.その語の特殊で低頻度の形態や意味がクローズアップされる傾向があるからである.しかし,特にある見出し語に注目するのでなければ,全体として OED の用例は各時代の英語を代表していると考えられ,コーパスとして活用することは妥当である.

 (2) Representativeness and balance of the quotations
   OED の用例は実際に何らかの典拠から引いてきた "true quotations" (20) である.編者によって作られた用例もないではないが,数はきわめて少ない.また,典拠のジャンルは多岐にわたり,極端に文学作品に限るなどの偏向がないので,ジャンルに関しては "representative" と言ってよい.ただし,各ジャンルが言語研究にとって適切な割合で分布しているわけではないので,"balanced" とは言えない.例えば Shakespeare が1人で33,000の用例を提供している事例などが挙げられる.OED をコーパスとして見立てる場合には,"balance" の点で注意を要する.

 (3) Reliability of the data format
   文中の一部が省略されているような用例が,平均して20〜25%ほどある.ほとんどの省略では文の構造がいじられていないが,中には不適切な省略で文の構造が変化してしまっている例文もある.節以上の構造を調べるために OED を利用する場合には,注意が必要である.

 (4) Quantification of the results
   1年当たりの用例数をグラフにプロットすると,17世紀頃に4000例を越える小ピークが,19世紀に10000例を越える大ピークが認められるが,20世紀には激減する.一方で,用例を構成する語の数は時代にかかわらずおおむね13語程度と一定で,20世紀の用例がやや長めなのが目に留まる程度である.用例数が240万例を越える(初版は180万例ほどだった)ことと上記の平均語数から計算して,OED に含まれる用例の総語数は3300〜3500万語と推定される.OED をコーパスとして用いる場合には,19世紀の用例数が特に多いことなどに注意して検索結果を解釈すべきだろう.

 最後に Hoffmann の結論部を引用する (26) .OED の用例の集合は言語変化の傾向を大雑把に量的に表わすコーパスとして言語変化研究にとって有用である,という常識的な結論だが,具体的な数字が出されていて参考になった.

Although the OED quotations database is not a completely balanced and representative corpus, it can nevertheless provide the linguist with a wealth of useful information. The data it contains chiefly represents naturally occurring language, and the time-span covered is unmatched by any other source of computerized data. Even though over 20 per cent of all its quotations have been shortened, the large majority of these deletions is unlikely to distort the results of many diachronic studies of linguistic features. Given the nature of the data, normalized frequency counts might suggest an inappropriate level of precision, but tendencies in the development over time can nevertheless be expressed in quantitative terms. (26)


 ・ The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004.
 ・ Hoffmann, Sebastian. "Using the OED quotations database as a Corpus --- A Linguistic Appraisal." ICAME Journal 28 (April 2004): 17--30. Available online at http://icame.uib.no/ij28/index.html .
 ・ Tanabe, Harumi. "The Rivalry of give up and its Synonymous Verbs in Modern English." Language Change and Variation from Old English and Late Modern English: A Festschrift for Minoji Akimoto. Ed. Merja Kytö, John Scahill, and Harumi Tanabe. Bern: Peter Lang, 2010. 253--75.

[ | 固定リンク | 印刷用ページ ]

2010-09-27 Mon

#518. Singapore English のキーワードを抽出 [text_tool][corpus][flob][ice][singapore_english]

 昨日の記事[2010-09-26-1]ICE ( International Corpus of English ) からいくつかの英語地域変種コーパスが手に入る旨を紹介したが,そのなかから Singapore English のコーパス ( ICE-SIN ) を少しいじってみた.
 [2010-03-10-1]の記事で WordSmith の KeyWords 抽出機能を拙著の英文で試したが,今回は ICE-SIN で同様に試してみるとどうなるだろうかと思った.そこで今回も,1990年代初頭のイギリス英語を対象に編纂された比較可能な FLOB corpus ( see [2010-06-29-1] ) を参照コーパスとし,British English に照らして Singapore English に特徴的な語(=キーワード)を抽出してみた.キーワード性の高い上位20語について,WordSmith に出力された表を掲げよう(上位100語までのリストはこのページのHTMLソースを参照).

nwordice-sin.freq.ice-sin.lst %flob.freq.flob.lst %keyness
1uh8,2300.748 19,246.0
2you18,1751.647,2580.2917,768.5
3uhm3,8380.350 9,021.1
4ya3,5800.3210 8,283.9
5i15,1661.3712,2300.497,051.3
6singapore3,0410.2764 6,570.0
7word3,4900.324820.025,621.8
8know4,7680.431,5340.065,345.5
9okay2,2960.2128 5,112.0
10so6,7590.614,4520.184,113.8
11lah1,7470.162 4,074.4
12it's3,5850.321,1860.053,949.9
13your3,4850.311,6420.072,972.2
14oh1,9520.183440.012,900.2
15think2,7610.251,2080.052,501.5
16ah1,2880.12142 2,204.9
17we5,8840.535,4060.222,190.7
18is15,0221.3620,5880.832,027.9
19don't2,3720.211,1960.051,904.9
20what4,6350.424,0720.161,865.8


 上位リストを眺めていたら2つの特徴が浮かんできた.

(1) 当然ながら Singapore English としばしば結びつけられる表現が上位に食い込んでいる.例えば,11位の lah は日本語でいう終助詞「ね」「よ」や間投詞のような働きをする pragmatic marker で,Singapore (and Malaysian) English らしい表現として知られている.しかし,やはり局地的な表現だからか手元の英語辞書にはほとんど掲載されておらず,唯一 Macmillan English Dictionary for Advanced Learners, 2nd ed. で次のような説明があった.

adverb INFORMAL
used by people in Malaysia and Singapore for making something they are saying sound more friendly and informal


 例文を挙げるには,ICE-SIN から直接拾ってくると早い.会話文ではもちろんのこと,次のような親しい手紙文でも使われている.

Anyway, life is getting colder here. Hottest degree - 16 degrees celcius, coldest so far is 8oc. Brr..rr!! I'm wearing 3 to 4 layers now, like I did in England. So heavy one lah! Get back ache, you know!


 ほかには,Singapore が6位に入っていたり,dollar(s), Chinese, Singaporeans, Malay などが上位100語以内に入っている.

(2) lah の頻度の高さとも関係するが,口語性の高い語,会話で頻出すると考えられる語が目立つ.直示性を表わす人称代名詞や副詞,また語調を和らげる語 ( hedge ) が特に多い.広く語用論的な機能をもつ語群としてまとめてよいかもしれない.もっとも話し言葉と結びつけられるキーワードが多いことは予想されたことではある.書き言葉は標準に準拠しやすく,地域変種間の差が少ないのが普通だからである.とりわけ話し言葉に地域変種の差が出やすいということが,今回のキーワード抽出で確かめられたということだろう.

 今回のようなキーワード抽出は,もちろん他の地域変種にも応用できる.参照コーパスをイギリス英語以外に動かして相対的に各変種の特徴をみるというのもおもしろそうだ.

[ | 固定リンク | 印刷用ページ ]

2010-09-26 Sun

#517. ICE 提供の7種類の地域変種コーパス [corpus][ice]

 International Corpus of English @ ICE-corpora.net からは,7種類の英語地域変種コーパスがダウンロードできる.ダウンロードした圧縮ファイルにパスワードがかかっており,別途パスワードを申請(郵送かFAXにより無料)しなければならない.

 ・ Canada (ICE-CAN): http://ice-corpora.net/ice/icecan.htm
 ・ East Africa (Kenya & Tanzania) (ICE-EA): http://ice-corpora.net/ice/iceea.htm
 ・ Hong Kong (ICE-HK): http://ice-corpora.net/ice/icehk.htm
 ・ India (ICE-IND): http://ice-corpora.net/ice/iceind.htm
 ・ Jamaica (ICE-JA): http://ice-corpora.net/ice/icejam.htm
 ・ Philippines (ICE-PHI): http://ice-corpora.net/ice/icephi.htm
 ・ Singapore (ICE-SIN): http://ice-corpora.net/ice/icesin.htm

 ICEでは,他にも相互比較可能な地域変種コーパスが編纂されている最中であり,中にはすでに有料で手に入るものもある.いずれも1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパスである.編纂方式や構成は[2010-06-29-1]の記事で紹介した The Brown family of corpora に準じており,500テキスト×2000語となっている.corpus design や annotation scheme の詳細については,ICEトップページの上部メニューから参照できる.いくつかの地域変種には話し言葉のサンプル音源もあり有用.
 この手の英語地域変種コーパスでかつ相互比較可能なものは今のところ他に出ていないだろうから,その目的の研究には重宝するだろう.
 ゼミ研究で地域変種を扱っている学生は特に見ておいてください.

[ | 固定リンク | 印刷用ページ ]

2010-09-19 Sun

#510. アメリカ英語における whilst の消失 [corpus][coha][ame_bre][ame]

 Brigham Young University の Mark Davies により Corpus of Historical American English (COHA) が,最近,公開された.1810--2009年の範囲を覆うアメリカ英語コーパスで,総語数にして4億語を超える大型コーパスだ.公開されてからチョコチョコいじっているが,ワンクリックで10年区切りの頻度が出てグラフまで出してくれるので,この2世紀間のアメリカ英語の通時変化を鳥瞰するのにこれほど便利なツールはない.
 特におもしろいのは,現在のイギリス英語とアメリカ英語とで形態や語法が異なっている1対の表現をそれぞれこのコーパスで検索してみることである.かつてはアメリカ英語でももっぱらイギリス的な表現が使われていたのが,時代が下るとともにイギリス色が抜けてゆく(あるいはアメリカ色が強まってゆく)様子がよく分かることだ.このこと自体は容易に予想されることだが,それがあまりに視覚的に明快に示されるので驚いてしまうのだ.例えば,私のゼミ学生で卒業論文のために英米差を調査している学生がいる.特に BrE in the street と AmE on the street の前置詞の差異に注目しているが,COHA でそれぞれをフレーズ検索すると後者が時代とともに増えてきていることが一目瞭然だという.
 [2010-09-17-1], [2010-09-18-1]とで接続詞の whilewhilst を話題にしたので,今回は COHA を用いて関連する調査をおこなってみたい.現代アメリカ英語では whilst はほとんど使われないが,イギリス英語では文語として現役である.では,かつてのアメリカ英語ではどうだったろうか.かつてはイギリス英語と同様にそれなりに使われていたが,ある時代から徐々に使われなくなり廃語となったという筋書きが予想される.それを COHA で確かめてみた.検索欄に "whilst.[cs]" (従属接続詞としての whilst )と入れて検索すると,たちどころに以下のような年代別頻度数が棒グラフとともに出力される.文字通りワンクリックなので「調査」と呼ぶのも大げさだ.結果としては,whilst は1810年代から2000年代までほぼ漸減を続けている.最も古い1810年代ですら whilstwhile に比べれば minor variant にすぎないが,当時は100万語当たり81.27回現れていた.それが1930年代には5.04にまで落ちており,2000年代ではわずか1.59回である.

whilst by COHA

 [2010-09-18-1]で出見たように Dracula (1897年) で while が14回しか現れないのに対して whilst が95回というのは,時代や文体によるところが大きいとしても,激しくイギリス的であることは間違いないようだ.

Referrer (Inside): [2013-07-29-1] [2011-06-09-1]

[ | 固定リンク | 印刷用ページ ]

2010-09-18 Sat

#509. Dracula に現れる whilst (2) [corpus][lob][brown][bnc][oanc][coca][lmode][conjunction]

 昨日の記事[2010-09-17-1]の続編.Dracula に現れる同時性・対立を表す接続詞の3異形態 while, whilst, whiles の頻度を,20世紀後半以降の英米変種における頻度と比べることによって,この60〜110年くらいの間に起こった言語変化の一端を垣間見たい.用いたコーパスは以下の通り.

 (1) Dracula ( Gutenberg 版テキスト ): 1897年,イギリス英語.
 (2) LOB Corpus ( see also [2010-06-29-1] ): 1961年,イギリス英語.
 (3) BNC ( The British National Corpus ): late twentieth century,イギリス英語.
 (4) Brown Corpus ( see also [2010-06-29-1] ): 1961年,アメリカ英語.
 (5) OANC (Open American National Corpus): 1990年以降,アメリカ英語.
 (6) Corpus of Contemporary American English (BYU-COCA): 1990--2010年,アメリカ英語.

 各コーパスにおける接続詞としての while, whilst, whiles の度数と3者間の相対比率は以下の通り.

 whilewhilstwhiles
(1) Dracula14 (12.61%)95 (85.59%)2 (1.80%)
(2) LOB517 (88.68%)66 (11.32%)0 (0.00%)
(3) BNC48,761 (89.41%)5,773 (10.59%)0 (0.00%)
(4) Brown592 (100.00%)0 (0.00%)0 (0.00%)
(5) OANC7,893 (100.00%)0 (0.00%)0 (0.00%)
(6) COCA246,207 (99.82%)447 (0.18%)0 (0.00%)


 Draculawhilst の比率が異常に高い.はたして同時代のイギリス英語の文語の特徴なのだろうか.この表だけ眺めると,20世紀前半にイギリス英語で whilst が激減し,同世紀後半以降は10%程度で安定したと読める.アメリカ英語では20世紀後半では whilst はほぼ無に等しく,問題にならない.whiles に至っては,関心の発端であった Dracula での2例のみ(他に副詞としては1例あった)で,あとはどこを探しても見つからなかった.しかも,その Dracula の2例というのはいずれも訛りの強い英語を話すオランダ人医師 Van Helsing の口から発せられているもので,同時代イギリス英語でどの程度 spontaneous form であったかは分からない.
 今回の調査はもとより体系的な調査ではない.ジャンルの区別や作家の文体を意識していないし,比較する時代の間隔はたまたま入手可能なコーパスに依存したにすぎない.英米変種での比較というのも思いつきである.しかし,興味深い問いが新たに生まれたので,今後は追跡調査をしてみたい.

 ・ Dracula と同時代の他のイギリス文語では各異形の頻度はどうなのか
 ・ 20世紀前半に whilst が激減したように見えるのは本当なのか,本当だとしたらその背景に何があるのか
 ・ アメリカ英語のより古い段階では whilst はもっと頻度が高かったと考えてよいのか
 ・ whiles はいつ頃まで普通に見られたのか,あるいはそもそも普通に見られる形態ではなかったのか
 ・ the whilethe whilst などの複合形については頻度はどうだったのか

[ | 固定リンク | 印刷用ページ ]

2010-09-15 Wed

#506. CoRD --- 英語歴史コーパスの情報センター [corpus][link]

 Helsinki 大学の VARIENG ( Research Unit for Variation, Contacts and Change in English ) プロジェクトに関わる電子サービスの一環として,英語歴史コーパス(と英語変種コーパス)の情報をとりまとめる CoRD ( Corpus Resource Database ) なるサービスがある.すでに51件のコーパス情報が登録されており,今後も増え続けるだろう.種々のコーパスが様々な形態で公開され,そろそろ本格的な整理の必要が感じられるようになってきたので,CoRD のようなハブが出てくると重宝する.今後の登録コーパスの増加に期待したい.

 ・ List of Corpora: まずはこちらの一覧を.
 ・ Corpus Finder: 登録されている全コーパスの情報が表形式のデータベースになっている."Corpus", "Start", "End", "Periods", "Word Count", "Text Samples", "Spoken/Written", "Annotation", "Format", "Availability" の各列でソートやフィルターが可能.(こういうデータベースがあると便利だろうなと思っていた!)

 各コーパスのリンク先には,概要説明から入手情報までの情報がよくまとまっている.特に "Basic structure of the corpus" は図表付きのものが多く有用."Reference lines and copyright" なども,ちょっとしたことなのだが論文を書くときなどにコピーできて便利.覚えておいて損はない HP だろう.
 CoRD の他にも,英語コーパス言語学に関連する重要な HP をいくつか掲載しておきたい.個々のコーパスの関連ページはしばしばリンク切れになっているので,複数のハブを押さえておく必要がある.

 ・ コーパス言語学関係のリンク集: 家入葉子先生のサイトより.
 ・ 英語史関係のコーパス・電子テキスト: 同上.
 ・ 英語史関係のコーパス: 三浦あゆみさんの A Gateway to Studying HEL より.
 ・ JAECS 英語コーパス学会のリンク集: 『英語コーパス言語学:第二版』(東京:研究社, 2005)に掲載されているものをまとめたリンク集.
 ・ コーパス関連サイト: 『実践コーパス言語学』の著者の一人,須賀廣氏のリンク集.
 ・ ICAME Corpus Manuals: ICAME コーパスのマニュアルがまとまっている.


[ | 固定リンク | 印刷用ページ ]

2010-09-02 Thu

#493. It's raining cats and dogs. [idiom][corpus][etymology]

 『実践コーパス言語学』の冒頭に標題の慣用表現に関する論考がある ( pp. 1--8 ) .この表現は「雨が土砂降りに降る」を意味する慣用表現で,新奇な連想を誘うためか日本の英語教育でもしばしば取り上げられる.しかし,この有名な慣用表現が実は自然な英語表現とみなすことはできないのではないかという問題提起がなされている.
 その根拠の1つは,1億語を誇る BNC ( The British National Corpus ) ですら例がわずかしか挙がらないという事実である.実際に検索してみると以下の3例しか挙がらず(いずれも書き言葉のサブコーパスから),しかも3つめの例は構文の説明という文脈で現れており,自然な例とは考えられない.

1. It was raining cats and dogs and the teachers were running in and out helping us get our stuff in and just couldn't do enough for us.
2. What must you be careful of when it's raining cats and dogs?
3. Fig 4.5 shows the structure of the compound tree for the compounds 'rain cats and dogs', 'tennis ball' and 'tennis court'.


 Collins COBUILD Resource Pack から The Bank of English に基づく500万語のコーパス Wordbank で検索しても,3例しか見つからなかった.いずれもやはりイギリス英語の書き言葉からだ.

1. You mean she wasn't wearing a coat, even though it was raining cats and dogs?" said Cicero, gently puzzled.
2. It was the longest section in terms of distance, over 38 miles, and it rained cats and dogs all day long.
3. "Well if you just hold on for a wee while sir, it looks like it'll be raining cats and dogs soon and that'll put it out."


 一方,Corpus of Contemporary American English (BYU-COCA) では23例が見つかった.今度は話し言葉でも使われている.
 EFL 辞書で調べてみると,記載や例文のあることは多いが,辞書によって spoken, informal, old-fashioned など別々のレーベルが貼られており使用域が一定しない.こう見てくると,習ったことはあるにせよ自信をもって使うには躊躇せざるをえない表現という印象が強まってきた.
 この慣用表現の起源には諸説ある.(1) 犬と猫が互いに仲が悪いことから激しくいがみ合うというイメージが醸成され,それが激しい降雨と結びつけられた.(2) 昔は排水が劣悪で土砂降りのあとに野良犬や野良猫が死体となって浮いていたことから.(3) ギリシア語の καταδουπεω ( catadūpeō ) "to fall with a heavy sound" と結びつけられた.(4) 北欧神話で魔女が猫の姿をして嵐に乗って現れ,嵐の神 Odin が犬を連れていたことから.
 (1) の「激しさ」に引っかける説は,次のような表現があることから支持されるかもしれない.

1. fight like cat(s) and dog(s) 「猛烈にいがみ合う」
2. Cats and dogs have different natures. 「犬と猫は性質[本性]が違う.」
3. They agree like cats and dogs. 「(皮肉に)犬猿の仲だ.」


 It's raining cats and dogs の variation としては,次のようなものがあるようなので参考までに.

1. It poured cats and dogs.
2. It's pelting cats and dogs.
3. rain pitchforks [buckets, chicken coops, darning needles, hammer handles,(英話)stair-rods,(英俗)trams and omnibuses] (『ランダムハウス英語辞典』より)
4. It's raining pigs and horses. (オーストラリア語法)


 OED によると初例は1738年の Swift の文章である.ただし,a1652年として It shall raine . . Dogs and Polecats. なる関連表現がある.

 ・ 鷹家 秀史,須賀 廣 『実践コーパス言語学』 桐原ユニ,1998年.

[ | 固定リンク | 印刷用ページ ]

2010-09-01 Wed

#492. 近代英語期の強変化動詞過去形の揺れ [emode][verb][conjugation][variation][corpus][ppceme]

 近代英語期には,動詞の過去形や過去分詞形に数々の異形態があったことが知られている.特に母音の変化 ( ablaut, or vowel gradation ) によって過去形,過去分詞形を作った古英語の強変化動詞に由来する動詞は,-ed への規則化の傾向とも相俟って変異の種類が多かった.
 現代英語でも過去形や過去分詞形に変異のある動詞はないわけではない.例えば bid -- bid / bade / bad -- bid / bidden, prove -- proved -- proved / proven, show -- showed -- shown / showed, sow -- sowed / sown -- sown / sowed などがある.しかし,近代英語期の異形態間の揺れは現代英語の比ではない.18世紀の著名な規範文法家 Robert Lowth (1710-87) ですら揺れを許容しているほどだから,それだけ収拾がつかなかったということだろう ( Nevalainen, pp. 93--94 ) .
 今回はこの問題に関して,[2010-03-03-1]で紹介した PPCEME ( Penn-Helsinki Parsed Corpus of Middle English, second edition ) により,主要な動詞(とその派生・複合動詞)の過去形について異形態をざっと検索してみた.単に異綴りと考えられるものもあるが,明らかに語幹母音の音価の異なるものもあり,揺れの激しさが分かるだろう.カッコ内は頻度.

awake : awaked (1), awoke (3)
bear : bar (6), bare (133), barest (2), beare (1), bore (24)
begin : be-gane (12), be-gayne (1), began (281), began'st (1), begane (13), begann (1), beganne (27), begannyst (1), begayn (1), begayne (1), begon (1), begun (10)
break : brak (6), brake (60), brakest (2), break (2), broake (7), brok (4), broke (49), brokest (1)
come : bacame (1), becam (5), became (79), become (1), cam (475), came (2170), camest (11), camst (4), com (27), come (55), comst (1), ouercame (4), ouercome (2), over-cam (1), overcame (2), overcome (1)
drink : drancke (3), dranckt (1), drank (19), dranke (21), dronke (3), drunk (1), drunke (2)
eat : ate (15), eat (11), eate (12), ete (2)
fall : befel (1), befell (6), fel (15), fele (1), fell (306), felle (4), ffell (1)
find : fande (4), ffond (1), ffonde (1), ffound (1), find (1), fond (2), fonde (2), found (344), founde (63)
get : begat (67), begate (60), begot (3), begott (2), forgat (3), forgate (2), forgot (8), forgote (1), forgott (2), gat (10), gate (15), gatt (4), gatte (1), got (101), gote (23), gott (23)
give : forgaue (2), gaue (261), gauest (9), gave (364), gavest (12), gayff (4), gayffe (2), geve (1), misgaue (1)
help : help'd (2), help't (1), helped (5), helpt (1), holp (1), holpe (1)
know : knew (419), knewe (88), knewest (3), knewyst (1), know (1), knowe (1), knowethe (1), knue (1), knwe (1)
ring : rang'd (1), rong (1), rung (1), runge (1)
run : ran (77), rane (7), rann (3), ranne (38), run (12), rune (1), runn (1)
see : saw (627), saw (1), sawe (237), sawest (14), sawiste (1), see (5)
sing : sang (7), sange (5), song (11), songe (3), sung (13)
sink : sanke (1), sunke (1)
speak : bespake (2), spak (2), spake (318), spoak (1), spoake (8), spock (1), spoke (61), spokest (2)
spring : sprang (1), sprange (5), spronge (1), sprung (3), sprunge (1)
swear : sware (55), swoare (1), swore (56)
take : betoke (1), betook (4), betooke (4), mistook (1), mistooke (2), ouer-tooke (1), ouertoke (2), ouertooke (3), overtook (2), overtooke (2), take (1), taked (3), tok (2), toke (333), tokened (1), tokest (2), took (296), tooke (333), tooke (1), undertook (8), undertooke (2), vnd=er=tooke (1), vndertooke (2)
write : wrat (1), wrate (7), wret (32), wrett (49), writ (19), write (2), writt (8), writte (1), wrot (21), wrote (106), wrote (1), wrott (7), wrotte (3), wryt (1), wryte (1), wrytt (2)


 近代英語期の強変化動詞の過去形,過去分詞形の揺れは様々に研究されているが,Nevalainen の References から以下の2件の研究を見つけたのでメモしておく.

 ・ Nevalainen, Terttu. An Introduction to Early Modern English. Edinburgh: Edinburgh UP, 2006.
 ・ Gustafsson, Larisa O. Preterite and Past Participle Forms in English, 1680--1790. Studia Anglistica Upsaliensia 120. Uppsala: Uppsala U, 2002.
 ・ Lass, Roger. "Proliferation and Option-Cutting: The Strong Verb in the Fifteenth to Eighteenth Centuries." Towards a Standard English, 1600--1800. Ed. Dieter Stein and Ingrid Tieken-Boon van Ostade. Berlin and New York: Mouton de Gruyter, 81--113.

[ | 固定リンク | 印刷用ページ ]

2010-08-17 Tue

#477. That's gorgeous! (2) [coca][corpus][ame][semantic_change][americanisation]

 昨日の記事[2010-08-16-1]で触れた gorgeous の話題の続編.昨日は「素敵な」の語義の拡大をイギリス英語を代表する BNC で見たが,アメリカ英語ではどうだろうかと思い,Corpus of Contemporary American English (COCA) にて調べてみることにした.というのは,『ビジネス技術実用英語大辞典第4版』に "My son is an extremely gorgeous baby." における gorgeous の使い方はアメリカ英語だという説明書きがあったからである.イギリス英語での用法はアメリカ語法 ( Americanism ) の波及という可能性があるということだろうか.
 まずは,COCA で話し言葉サブコーパスに限定して調べてみると,興味深いことにこの20年間で確実に gorgeous の使用が増えている.

<em>gorgeous</em> in COCA Spoken

 次に,話し言葉に限らず書き言葉も含めて調べると,やはりこの20年間で劇的に増えている.fiction, magazine, newspaper という書き言葉のジャンルでもかなりの頻度を示していることが,gorgeous の全体的な勢いを物語っている.

<em>gorgeous</em> in COCA Spoken and Written

 話し言葉に限っても限らなくても,ここ15年前後で gorgeous の頻度が倍増したことになる.今回の検索結果は,本来の語義「華麗な,豪華な」と新しい語義「素敵な」とを区別していないが,KWIC ( Keyword in Context ) をざっと眺めてみた限り,後者の語義のほうが多いようである.語義や語法の拡大というのは火がつくときには一気に火がつくのだなということが実感できる例だ.
 今回の単純な調査だけでは,イギリス英語での使用増加が Americanisation によるものかどうかは判断できなかったが,少なくとも英米変種で今をときめく口語的形容詞といってよさそうだ.

[ | 固定リンク | 印刷用ページ ]

2010-08-16 Mon

#476. That's gorgeous! [bnc][corpus][bre][semantic_change][etymology][gender_difference]

 フィギュアスケートの実況などで女性コメンテーターが Gorgeous! と感嘆するのを聞くことがある.また,イギリス留学中にまだ赤ん坊だった私の娘の髪型を指して,お世話になっていたイギリス人女性が Gorgeous! と口にしていたのを覚えている.「ゴージャス」は日本語にも借用されており「華麗な,豪華な」という意味で定着しているが,日本語では賞賛を表わす叫びとしては用いないと思うので,上記の英語表現を聞くと用法が違うのだなと気づく.OALD7 によると,形容詞 gorgeous の第1語義は以下の通りである.現在では「素敵な」の語義が主要な使い方になっているようだ.

1. (informal) very beautiful and attractive; giving pleasure and enjoyment

  
 形容詞 gorgeous はフランス語の gorgias "fine, elegant" からの借用で,一説によると語幹の gorge が "bosom, throat" であることから "ruff for the neck" 「首を飾るのにふさわしいひだ襟」と関連づけられるのではないかとされている.別の説ではギリシャの修辞家で贅沢品を好んだという Gorgias (c483--376BC) に由来するともされ,真の語源は詳らかでない.OED によるとこの語は15世紀終わりから用いられており「華麗な,豪華な」という語義が基本だったが,賞賛を表わす口語表現としての用法が19世紀後半から現れ出す.ただし,口語表現としての用法が一般化したのは20世紀に入ってからであり,とりわけポピュラーになったのは20世紀も後半から21世紀にかけてのことではないかと疑われる.
 そう考える根拠の1つは,20世紀前半の辞書をいろいろと調べたわけではないが,例えば Webster's Revised Unabridged Dictionary (1913 + 1828) で調べる限り,gorgeous のエントリーに口語的な表現に対応する語義が与えられていない.
 もう1つの根拠は,BNCWebgorgeous の頻度の統計を取ってみた結果である.いくつか興味深い結果が出た.まず明らかなのは,"informal" というレーベルから当然予想されるとおり,この語は書き言葉よりも話し言葉で頻度が顕著に高いことである.100万語中の出現頻度は,書き言葉で4.8回に対して話し言葉で17.39回である.話し言葉に限定して分布を調べたところ,特に会話文で頻度の高いことが分かった.
 そして,何よりもおもしろいのは使用者の性別と年齢の分布である.gorgeous は100万語中,男性には8.89回しか用いられていないが,女性には34.64回も使われている.複数の英和辞書,英英辞書を引き比べて「主に女性語・略式」としてレーベルが貼られているのは『ジーニアス英和大辞典』だけだったが,これほど男女差が明らかであれば他の辞書でも「女性語」のレーベルが欲しいところだ.また,使用者の年齢としては24歳以下が圧倒的である.BNC が代表する20世紀後半のイギリス英語の話し言葉に関する限り,gorgeous は若年層の女性にとりわけポピュラーな表現ということが分かる.一般にはあまりこの語を用いない男性も,若年層に限っては使用頻度が比較的高いという結果も出た.全体として,gorgeous の使用はここ1〜2世代の間に使用が拡大していると考えられそうである.
 より細かく調査する必要はあるが,以上の情報から判断する限り gorgeous の用法がまさに目の前で変化しているということになる.口語的な賞賛の表現は19世紀末から徐々に発達してきたが,ここ数十年で若年層女子の使用によってブレイクし,それが若年層男性にも拡がりつつある.今後は他の年齢層にも及んできてますますポピュラーになるかもしれないし,一時の流行表現としてしぼんでいくかもしれない.
 今後,この用法の行方を見守っていきたい.私も機会があったら(性別・年齢不相応気味に) That's gorgeous! と叫んでみることにしよう.

[ | 固定リンク | 印刷用ページ ]

2010-08-15 Sun

#475. That's a whole nother story. [metanalysis][corpus][ame]

 現代英語の口語で,標題のような表現がある.「そりゃまったく別の話だよ」という意味で,LDOCE5 によると nother, 'nother の見出しのもとに次のような記述がある.

a whole nother ... used humorously when emphasizing that something is completely different from what you have been talking about. It is a changed form of 'another whole':
- Texas is a whole nother country.
- That’s a whole 'nother ball game.


 another ( a(n) + other ) を分解して強調の whole を挟み込む際に,a whole other ではなく a whole nother異分析 ( metanalysis ) して挟み込んだために生じた表現である(異分析の類例は[2009-05-03-1]を参照).Corpus of Contemporary American English (COCA) では結構な数の例が挙がったが,British National Corpus (BNC) では例がなかった.Merriam-Webster's Advanced Learner's English Dictionary では "US informal" のレーベルが付されていたし,アメリカ英語に多い表現といってよさそうだ.
 さて,古い英語をみてみると,a whole nother のように間に形容詞が挟まっているタイプの nother の例こそいまだ見つけていないが,a + nother と異分析している例は早くも1300年頃から現れている.ane nothir sentencean nother maner などの例を見ると,nother がすでに独立した語として認識されていたことが分かる.ただ,現代英語(米語?)の a whole nother という句が歴史的な異分析の例とどのような関係にあるのか,現段階の調査では不明である.

Referrer (Inside): [2014-11-11-1]

[ | 固定リンク | 印刷用ページ ]

2010-08-02 Mon

#462. BNC から取り出した発音されない語頭の <h> [corpus][bnc][oanc][ame][bre][h][spelling_pronunciation]

 昨日の記事[2010-08-01-1]の OANC からの結果に飽き足りずに,語頭を <h> と綴るが /h/ で発音されない単語をより多く探すべく,BNC でも同じことをやってみた.そちらのほうがおもしろい結果が出たので,結果報告する( OANC の面目丸つぶれ?).
 216種類の語が得られたが,固有名詞や頭字語が多く,一覧してもあまりおもしろくない(見たい方はHTMLソースを参照).また,品詞のタグ付けに誤りがある例もあったので,今回はあくまで概要を知るための初期調査として理解されたい.一般名詞や形容詞に絞った117例をアルファベット順に示す.

habitual, habituated, habitué, haemoglobin, half, half-hour, hallucination, hallucinatory, hallucinogenic, handful, haphazardly, happy, haute-couture, hazard, heap, heartening, hedonistic, heir, heir-apparent, heiress, heirloom, hell, heparin, hepatic, heraldic, herbaceous, herbalist, hereditary, heretical, hermaphrodite, heroic, heterogenous, heterologous, heuristic, hexadecimal, hexagonal, hi, hiatus, hibiscus, hide, hierarchical, hierarchically, hierarchy, high, higher, hilarious, historian, historic, historically, historically-created, historically-evolved, historicist, historiographical, history, histrionic, hitherto, hockey, hole, holiday, holistic, holoenzyme, holy, home-grown, homogeneous, homologous, hon., honest, honest-to-god, honest-to-goodness, honestly, honesty, honorable, honorarium, honorary, honour, honour-able, honourable, honourably, honoured, honouring, hopeful, horchata, horizon, horizontal, horrendous, horrific, horror, hors-d'oeuvre, horse, hospital, host/target, hotel, hotel-keeper, hour's-worth, hour-an-a-half, hour-and-a-half, hour-glass, hour-long, hourglass, hourglass-shaped, hourly, hours, howitzer, human, humanities, humble, hundred, hydraulic, hydraulically, hydroxyapatite, hydroxyl, hypnotic, hypostasised, hypothesis, hypothetical, hysterical, hysterically


 history, honest, honour, hour の関連語はやはり多い.おもしろいところを取りあげると,habitual, hallucination, hepatic, hereditary, heretical, heroic, hierarchical, hilarious, homogeneous, horizon, horrendous, horrific, hypothetical, hysterical あたりだろうか.いずれも第1音節に主強勢がおかれないので語頭の /h/ が特に弱まりやすい.ただ,第1音節に主強勢が落ちる例も少なくないことは確かである.
 昨日の OANC での結果として出た herbhomage が BNC では出なかった.いずれの語も /h/ のない発音はアメリカ英語発音のみであるという辞書の記述と一致しているようだ.
 それにしても,BNC と OANC の収録語数に差があるとはいえ,イギリス英語からの例の種類の豊富さは際立っている.確かにイギリス英語には h-dropping で名高い Cockney などの方言もあるし,/h/ の不安定さは著しいのではないかと予想はしていた.また,アメリカ英語では綴り字発音 ( spelling-pronunciation ) の傾向が強いことも一般論としては分かっていた.今回の BNC と OANC での初期調査の結果は予想と一致するものだったが,より詳しく調べていくと結構おもしろいテーマに発展してゆくかもしれない.

[ | 固定リンク | 印刷用ページ ]

2010-08-01 Sun

#461. OANC から取り出した発音されない語頭の <h> [corpus][oanc][ame][h][article]

 昨日の記事[2010-07-31-1]OANC (Open American National Corpus) を導入したことを報告したので,今日はそれを実際にいじってみた報告をしよう.
 お題は一昨日の記事[2010-07-30-1]で語頭の h を話題にしたので,それに引っかけて,語頭に <h> の綴字をもつが直前の不定冠詞に an を取る語を取り出してみた.[2009-11-27-1]でも触れたように,heir, honest, honour, hour のような語が /h/ をもたないことでよく知られているが,他にどのような語があるだろうか.今回はフラットな単純検索で,話し言葉と書き言葉を区別するとか,その他の細かい処理は行なっていない.以下に結果を頻度とともに一覧.

wordfreq.
heir1
Henri1
herb2
hereditary3
Hermes1
historian1
historic6
historical1
HMO10
homage4
hommage5
honest24
honor5
honorable14
honorarium1
honorary13
honored1
honorific3
hour135
hourglass1
hourlong3
hourly1
hours-long1


 history, honor, hour の派生語や複合語は理解できる.また,Henri, Hermes, hommage はフランス語として,HMO (Health Maintenance Organization) はアルファベット読みとして納得.だが,herbhomage は発見だった.いずれの単語も,/h/ のない発音はアメリカ英語特有だという.
 OANC でなくともよいといえばよい例題だったが,結果らしいことは一応出た.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow