hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 次ページ / page 4 (10)

corpus - hellog〜英語史ブログ

最終更新時間: 2020-06-05 08:55

2013-11-01 Fri

#1649. longerleng(er) を置き換えたのはいつか? [hc][corpus][adjective][comparison][i-mutation][analogy]

 現代英語の形容詞・副詞 long の比較級の形態は規則的な longer だが,古英語から中英語にかけては lenger (副詞としては leng も)のように語幹に前母音をもつ諸形態が用いられていた.ゲルマン祖語の比較級を表わす形態素 *-iþo が契機となって直前の語幹母音に i-mutation が生じ,本来の語幹の後母音が前母音へと変化した.その効果は,古英語 leng(ra) や中英語の leng(er) に現れている.
 ところが,原級は古英語でも中英語でも lang, long などと常に後母音を示していたので,やがて類推作用 (analogy) により比較級も原級に -er を付けるだけの規則的な形態を取るようになった.かつての i-mutation という音韻変化の効果が,類推という形態変化の効果により打ち消されたといえる.
 さて,類推により longer につらなる形態が現れたのがいつ頃のことかが気になったので,調べてみた.OED では longer として見出しは立っていないので,long の項で例文を探してみると,a1533 に longer が現れている.MED でも同じ事情だったので lōng (adj. (1)) の例文を探すと,a1400 (a1325) に langer が初出する.しかし,例文検索から得られる初出年の情報だけでは心許ない.
 一方,leng(er) の最終使用年代を調べるという逆方向の調べ方もしてみた.OED によると,副詞 leng の最終は Chaucer で c1386,形容詞・副詞の lenger は,副詞の用法としての Spenser の1590年が最終例だった.以上を総合すると,14--15世紀頃に longer が現れ,16世紀には歴史的な leng(er) を置き換えたという筋書きになりそうだ.
 だが,先に述べたように longer の見出しが立っていない以上,OED の例文に頼るのみで新旧形態の交代過程を結論づけるわけにはいかない.このような目的には,補助的に歴史コーパスが有用である.Helsinki Corpus により,ざっと新旧それぞれの異形態を拾い上げてみた.古英語では第2音節の r は原級の屈折形であることを考慮し,また取りこぼしや雑音混入の可能性にも気をつけたが,完璧ではないかもしれないことを断りつつ,以下に数字を示す.


LONGERLENG(ER)
O101
O2014
O3045
O407
M1014
M2021
M31126
M4325
E1116
E2190
E3460


 M3 (1350--1420) に longer が現れ,E1 (1500--1570) を最後に lenger が姿を消したことがわかる.1500年頃を境に新旧形態の立場が比較的急速に入れ替わったように見えるが,Helsinki Corpus も小規模なコーパスといわざるを得ないので,あくまで近似的な結論ととらえておく必要がある.だが,全体としてこの結果は OED からの証拠が示唆するところとおよそ同じであり,歴史辞書と歴史コーパスが互いに補完し合って結論を強めているといってよいだろう.
 さらに,手元にあった初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも同様の検索を施した.約24万6千語を含む第1期分 (1418--1638) と約20万4千語を含む第2期分 (1580--1680) を区別して調べたところ,以下の通りとなり,やはりおよそ16世紀後半には古い lenger が廃れたといえそうだ.


LONGERLENG(ER)
CEECS1316
CEECS2370

Referrer (Inside): [2013-11-21-1]

[ | 固定リンク | 印刷用ページ ]

2013-10-20 Sun

#1637. CLMET3.0 で betweenbetwixt の分布を調査 [corpus][lmode][preposition][clmet]

 今年3月に Leuven 大学の Hendrik De Smet により The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) が公開された.編者にメールで使用許可をもらえば無償でダウンロードし利用できる.1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパスである(先行版 CLMETEV の1500万語から大幅に拡大).プレーンテキストとタグ付きテキストで配布されており,70年間で分けた3つの時代区分ごとにヒット数を数える Perl スクリプトが付属しており,とりあえず使うのに便利である.コーパスの構成は以下の通り.

Sub-periodNumber of authorsNumber of textsNumber of words
1710--1780518810,480,431
1780--1850709911,285,587
1850--19209114612,620,207
TOTAL21233334,386,225

Genre1710--17801780--18501850--1920
Narrative fiction4,642,670 words4,830,7186,311,301
Narrative non-fiction1,863,8551,940,245958,410
Drama407,885347,493607,401
Letters1,016,745714,343479,724
Treatise1,114,5211,692,9921,782,124
Other1,434,7551,759,7962,481,247


 現在関心をもっている betweenbetwixt の揺れについて,後期近代英語でそれぞれがどのような分布を示すか,CLMET3.0 で軽く調査してみた.付属の検索ツールで検索した結果は,以下の通り.

Sub-periodbetweenbetwixt
1710--17804,869 words (464.58 wpm)657 (62.69 wpm)
1780--18505,457 (483.54 wpm)109 (9.66 wpm)
1850--19207,672 (607.91 wpm)51 (4.04 wpm)


 18世紀中は,between (88.11%) と並んで betwixt (11.89%) が,まだある程度の比率で使われていた.しかし,19世紀以降に激減し,現代英語における影の薄い変異形となったことがわかる.
 なお,De Smet は同じサイトで The Corpus of English Novels (CEN) も公開している.こちらは1882--1922年という1世代の間に書かれた英米の小説を集めたもので,短期間の言語変化調査や作家間の語法比較を念頭に置いたコーパスだという.全体で2,600万語からなる(内訳はソースHTMLを参照).こちらで調べると,between が9,905例 (98.86%),betwixt が114例 (1.14%) であり,確かに後者はすでに影が薄い.

[ | 固定リンク | 印刷用ページ ]

2013-10-09 Wed

#1626. 現代日本語書き言葉均衡コーパス BCCWJ の各種インターフェース [web_service][corpus][link][japanese]

「#1567. 英語と日本語のオンラインコーパスをいくつか紹介」 ([2013-08-11-1]) で,現代日本語のコーパスとしてKOTONOHA 「現代日本語書き言葉均衡コーパス」に言及した.この『現代日本語書き言葉均衡コーパス』 (BCCWJ: Balanced Corpus of Contemporary Written Japanese) は,大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した本格的なコーパスである.
 コーパスの内容については,同サイトに「2012年3月現在、検索対象となっているのは、以下の11種のデータ、合計約1億500万語です」とある.サンプルは,1976--2008年にかけての文書で,その11のジャンルは書籍,雑誌,新聞,白書,教科書,広報紙,Yahoo!知恵袋,Yahoo!ブログ,韻文,法律,国会会議録にわたる.各テキストからは2種類のサンプルが取られており,「ひとつは長さを1000字に固定したサンプル (固定長サンプル)、もうひとつは、節や章など文章の意味上のまとまりに対応した単位の全体です (可変長サンプル)。これまでの調査によれば、可変長サンプルの平均長は新聞で約1000字、書籍で4000字弱です。」とある.
 BCCWJ を利用する方法やインターフェースはいくつかあるが,もっとも簡便なものが,上にもリンクを張った少納言である.登録不要で,表層の文字列によるコーパスの全文検索ができる.出力は無作為の500件と制限があるが,お手軽に試すことができる.
 一方,利用申請が必要な中納言では,同コーパスに対して,短単位・長単位・文字列の3つの方法により,形態論的な複雑な検索をかけることができる.
 また別のインターフェーとして,NINJAL-LWP for BCCWJ (NLB) がある.現行の1.20版では,BBCWJ のほとんどのデータを対象として,検索をかけることができる.検索ページはこちら
 関連して,NLB と同じインターフェースで利用できるもう1つの日本語コーパスを紹介する.筑波大学がウェブサイトからテキストを収集して編纂した11億語からなる筑波ウェブコーパス (Tsukuba Web Corpus: TWC) へのインターフェース,NINJAL-LWP for TWC (NLT)である.検索ページはこちら

[ | 固定リンク | 印刷用ページ ]

2013-10-04 Fri

#1621. The Middle English Grammar Corpus (MEG-C) [corpus][preposition][me_dialect]

 ノルウェーの Stavanger 大学で,Merja Stenroos 氏が中心となって The Middle English Scribal Texts Programme (MEST) が進行中である.Glasgow 大学と Helsinki 大学の協力のもとに,中英語のテキストのコーパス化が進んでいる.このプログラムは具体的には2つのプロジェクトからなり,1つは1998年に Glasgow 大学が立ち上げた Middle English Grammar Project の延長線上にある The Middle English Grammar Corpus (MEG-C) の編纂で,もう1つは2012年に開始された Language and Geography in Middle English Local Documents (MELD) である.
 今回は,前者のプロジェクト MEG-C について紹介したい.このコーパスは,後期中英語の方言地図 LALME のソースとなったテキストを電子化するという目的で編纂されている.姉妹版である初期中英語の方言地図 LAEME が最初からコーパス付きでオンライン公開されたのと対照的に,LALME では,編纂された時代が時代だけに,方言地図が紙媒体で公表されたにすぎなかった.2013年に LALME が改訂・電子化され eLALME としてアクセスできるようになったが,方言地図作成のもととなった資料自体は電子化されていなかった.現在,そのコーパスファイル群がMEG-C files から自由にダウンロードできるようになっている.
 MEG-C は,実際には LALME の参照した1350--1500年のソーステキストのみならず,より早い時期のテキストをも含むコーパスとして成長している.長いテキストについては3000語のサンプルを取って収容しているが,現行の2011.1版では,目標とするテキストの半分ほどがカバーされているという.写本やファクシミリから転写しているというから,LAEME のコーパスに勝るとも劣らぬ大変な労力である.ありがたく利用させていただきたい.
 早速,MEG-C にちょっとした検索をかけてみた.「#1394. between の異形態の分布の通時的変化」 ([2013-02-19-1]) で見た between の歴史的異形の分布のなかで,とりわけ語尾において x をもつ betwix(t) タイプが,後期中英語でどれくらい使用されていたかに関心があった.そこで検索してみると,104例が -x で終わるタイプ,14例が -xe で終わるタイプ,2例が -xt で終わるタイプという結果が出た.この頻度の傾向は,Helsinki Corpus による M3--M4期からの証拠とほぼ符合する.互いのコーパスの信頼度を測ることができたといえるだろう.
 中英語の方言研究も,ますますツールが充実してきた感がある.

 ・ Stenroos, Merja, Martti Mäkinen, Simon Horobin, and Jeremy Smith. The Middle English Grammar Corpus, version 2011. 1. U of Stavanger, 2011. Online at http://www.uis.no/research/culture/the_middle_english_grammar_project/. Accessed : 4 October 2013.

Referrer (Inside): [2013-10-05-1]

[ | 固定リンク | 印刷用ページ ]

2013-08-11 Sun

#1567. 英語と日本語のオンラインコーパスをいくつか紹介 [web_service][corpus][efl][link][japanese]

 ウェブ上で用いることのできるコーパスをいくつか紹介したい.
 まず,「#1441. JACET 8000 等のベース辞書による語彙レベル分析ツール」 ([2013-04-07-1]) で取り上げた染谷泰正氏は,Business Letter Corpus のオンライン・コンコーダンサーをこちらで公開している.27種のコーパスからの検索が選択可能となっているが,メインは100万語超からなる Business Letter Corpus (BLC2000) とそれにタグ付けした POS-tagged BLC の2つだ.これは1970年代以降の英米その他の出版物から収集したデータである.
 Instructions for the First-Time User でまとめられているように,種々のコーパスのなかには,167万語を超える State of the Union Address (1790--2006) などデータをダウンロードできるものもあり,有用である.英作文の学習・教育や,独自データベースのコンコーダンサー作成のために参考になる.
 なお,同サイトでは,上述の各種コーパスから N-Gram Search を行なえる Bigram Plus の機能も提供している.N-Gram の検索には,本ブログより「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.
 次は,英国のリーズ大学 (University of Leeds) が作成した大規模な Leeds collection of Internet corpora.英語を始め,フランス語,日本語などの様々な言語のコーパスをオンラインで検索できる.
 日本語のコーパスの情報については詳しくないが,KOTONOHA 「現代日本語書き言葉均衡コーパス」は充実しているようだ.ほかの日本語コーパスの情報源としては,コーパス日本語学のための情報館 --- コーパス紹介が有用.

Referrer (Inside): [2013-10-09-1]

[ | 固定リンク | 印刷用ページ ]

2013-07-30 Tue

#1555. unbeknownst [phonetics][corpus]

 昨日の記事「#1554. against の -st 語尾」 ([2013-07-29-1]) に引き続き,非語源的 -st 語の話題.標題の形式張った表現がある.主として文頭などに置かれ,文修飾として「〜に知られないで」の意味で用いられる.BrE では unbeknown to が多く用いられるが,AmE では古めかしく見える unbeknownst to がより一般的である.unbeknow(e)ns のように -t が落ちた非標準的な形態も見られる.例文を挙げよう.

 ・ Unbeknownst to his parents, he and his girlfriend had gotten married.
 ・ Unbeknownst to her father, she began taking dancing lessons.
 ・ Unbeknownst to the students, the teacher had entered the room.
 ・ A person may overhear others unbeknownst to them.


 中英語にあった動詞 beknown (recognise, acknowledge) の否定過去分詞形 unbeknown がもとになっている(MEDbiknouen (v) を参照).OED によると,否定の接頭辞 un- のついた unbeknown は1636年に初出しているが,さらに語尾に -st を付加した unbeknownst の初出は1854年である.後者はもともと口語的,方言的な響きがあったようだが,20世紀にかけて広く使われるようになった.実際に,COCA (Corpus of Contemporary American English)Google Books Ngram Viewer で調べてみると,英米変種ともに20世紀後半からの伸び率が著しい.
 さて,unbeknownst の -st の語尾音添加 (paragoge) が説明を要する問題である.OED では不明とされており,各種の語源辞典では against, amongst などの -st 語尾からの類推だろうかと自信なさげに述べられている程度である.これらの語と unbeknownst to との類似点は, 前置詞的に機能しているということと,-st の直前の音が鼻音であることぐらいだろうか.-st(t)- という子音連続の観点からは,next to, thanks to などの表現とも関連してくるかもしれない.また,ほかの非語源的な -st 語 (against, amidst, amongst, betwixt, whilst) を並べてみると,およそ「間,中,最中」という共通の意味がくくり出されるように思われるが,unbeknownst も「知られない間に」と解釈することはできる.
 非語源的 -st 語に関する記事へのリンクを昨日の記事[2013-07-29-1]の末尾にまとめておいたので,要参照.

(後記 2014/02/24(Mon):Merriam-Webster の辞書の記述を参照.)

Referrer (Inside): [2013-08-17-1]

[ | 固定リンク | 印刷用ページ ]

2013-05-13 Mon

#1477. The Salamanca Corpus --- 近代英語方言コーパス [corpus][emode][dialect][dialectology][caxton][popular_passage]

 英語史では,中英語の方言研究は盛んだが,近代英語期の方言研究はほとんど進んでいない.「#1430. 英語史が近代英語期で止まってしまったかのように見える理由 (2)」 ([2013-03-27-1]) でも触れた通り,近代英語期は英語が標準化,規範化していった時期であり,現代世界に甚大な影響を及ぼしている標準英語という視点に立って英語史を研究しようとすると,どうしても標準変種の歴史を追うことに専心してしまうからかもしれない.その結果か,あるいは原因か,近代英語方言テキストの収集や整理もほとんど進んでいない状況である.近代英語の方言状況を知る最大の情報源は,いまだ「#869. Wright's English Dialect Dictionary」 ([2011-09-13-1]) であり,「#868. EDD Online」 ([2011-09-12-1]) で紹介した通り,そのオンライン版が利用できるようになったとはいえ,まだまだである.
 2011年より,University of Salamanca がこの分野の進展を促そうと,近代英語期 (c.1500--c.1950) の方言テキストの収集とデジタル化を進めている.The Salamanca Corpus: Digital Archive of English Dialect Texts は,少しずつ登録テキストが増えてきており,今後,貴重な情報源となってゆくかもしれない.
 コーパスというよりは電子テキスト集という体裁だが,その構成は以下の通りである.まず,内容別に DIALECT LITERATURE と LITERARY DIALECTS が区別される.前者は方言で書かれたテキスト,後者は方言について言及のあるテキストである.次に,テキストの年代により1500--1700年, 1700--1800年, 1800--1950年へと大きく3区分され,さらに州別の整理,ジャンル別の仕分けがなされている.
 コーパスに収録されている最も早い例は,LITERARY DIALECTS -> 1500--1700年 -> The Northern Counties -> Prose と追っていったところに見つけた William Caxton による Eneydos の "Prologue"(1490年)だろう.テキストは221語にすぎないが,こちらのページ経由で手に入る.[2010-03-30-1]の記事「#337. egges or eyren」で引用した,卵をめぐる方言差をめぐる話しを含む部分である.やや小さいが,刊本画像も閲覧できる.Caxton の言語観を知るためには,[2010-03-30-1]の記事で引用した前後の文脈も重要なので,ぜひ一読を.

[ | 固定リンク | 印刷用ページ ]

2013-04-06 Sat

#1440. 音節頻度ランキング [syllable][corpus][lexicon][phonetics][frequency][statistics]

 「#1424. CELEX2」 ([2013-03-21-1]) で紹介した巨大データベースで何かしてみようと考え,Version 2 で新たに加えられた音節頻度 (English Frequency, Syllables) のサブデータベースにより,現代英語で最も多い音節タイプのランキングを得た.
 これは,CELEX2 のもとになっているコーパス全体のうち,7.26%を構成する約130万語の話し言葉サブコーパスから引き出された音節頻度であり,タイプ頻度ではなくトークン頻度によるものである.つまり,話し言葉におけるある単語の頻度が高ければ,その分,その単語に含まれる音節タイプの頻度も高くなるということである.例えば,of を構成する "Ov" (= /ɒv/) と表現される音節は,第4位の頻度である.なお,強勢の有無は考慮せずに頻度を数えている.
 以下のリストに挙げる音素表記は,IPA ではなく CELEX 仕様の独特の表記なので,先に対応表を挙げておこう.

CELEX2 Phonetic Character Set

 では,以下にランキング表でトップ50位までを掲載する.高頻度の単音節語の音節タイプがそのまま上位に反映されていて,あまりおもしろい表ではないが,何かの役に立つときもあるかもしれない.

RankSyllableFrequency
1eI72971
2Di:60967
3tu:31446
4Ov30108
5In29906
6&nd28709
7aI23822
8lI19728
9@19566
10rI14356
11ju:12598
12dI12465
13D&t12118
14It11504
15wOz10834
16fO:r*9778
17Iz9517
18tI9161
19fO9042
20Sn,8969
21hi:8928
22r@n8638
23bi:8505
24bI7936
25nI7068
26wID7046
27On7030
28&z6919
29O:l6569
30h&d6240
31E6165
32bl,6021
33sI5836
34@U5824
35t@r*5687
36&t5652
37hIz5564
38bVt5416
39mI5397
40s@5391
41nOt5357
42D@r*5339
43I5283
44tId5259
45DeI5162
46IN5063
47t@5053
48s@U4974
49baI4894
50h&v4769


 全ランキング表を見たい方は,タブ区切り形式で Syllable Frequency Rank Table by CELEX2 を参照.ブラウザ上で閲覧したい方は,こちらからどうぞ.全体としては11492の異なる音節タイプが登録されており,頻度が1以上のものは7934タイプある.「#1023. 日本語の拍の種類と数」 ([2012-02-14-1]) の最後で,英語の音節タイプが日本語に比べて驚くほど多種多様であることに触れたが,この数をみれば納得できるだろう.関連して,syllable の各記事を参照.
 なお,CELEX2 のマニュアルには以下の但し書きが記されていたので,再掲しておく.

Please note that the English corpus used by CELEX for deriving these frequencies contains only 7.3% spoken material. This means there is a rather tenuous relationship between the full frequency figures, which are based on written forms, and the syllable frequencies, which merely refer to phonemic conversions of these graphemic transcriptions. Of course it could be argued that frequencies of syllables, as lexical sub-units, are less liable to get skewed from differences in medium than full words, but it has to be taken into account that NO FIRM EVIDENCE ABOUT SPOKEN FREQUENCIES can be derived from these data.

Referrer (Inside): [2019-07-03-1]

[ | 固定リンク | 印刷用ページ ]

2013-03-25 Mon

#1428. ye = the [palaeography][spelling][thorn][pub][alphabet][graphemics][ppcme2][ppceme][ppcmbe][corpus]

 「#13. 英国のパブから ye が消えていくゆゆしき問題」 ([2009-05-11-2]) で,yeye が定冠詞 the の代わりに用いられる擬古的な綴字について触れた.
 þ (thorn) と y との字形の類似による混同は中英語期から見られたが,この混乱がいわば慣習化したのは þ が衰退してからである.þ が廃れていったのは,「#1329. 英語史における eth, thorn, <th> の盛衰」 ([2012-12-16-1]) や「#1330. 初期中英語における eth, thorn, <th> の盛衰」 ([2012-12-17-1]) で確認したように,Helsinki Corpus の時代区分によるME第4期 (1420--1500) 以降である.それに呼応して,擬古的な定冠詞 ye は近代英語期に入ってから頻度を増してきた.OED を参照すると,ye の使用は中英語から17世紀にかけて,とある.
 では,中英語から初期近代英語にかけて,具体的にどの程度 ye が用いられたのだろうか.これを調べるために PPCME2, PPCEME, PPCMBE のPOSファイル群で "ye/D" を検索してみた.MEからは1例のみ,EModEから1259例,LModEから5例が挙がった.各コーパスはおよそ130万語,180万語,100万語からなるが,総語数を考えずとも,傾向は歴然としている.初期近代英語で急激に現われだし,一気に衰微したということである.ただし,PPCEME の1259例のうち975例は,The Journal of George Fox (1673--74) という1作品からである.ほかには10例以上現われるテキストが4つあるのみで,残りは20テキストに少数例ずつ散らばっているにすぎないという分布ではある.隆盛を極めたというよりは,地味な流行といった感じだろうか.
 先日,ロンドンを訪れた際に,145 Fleet St の老舗パブ "Ye Olde Cheshire Cheese" と 42 Ludgate Hill の "Ye Olde London" の看板を撮影してきた.残念ながらここでエールを一杯やる機会はなかったけれども,別のパブでは一杯(だけではなく)やりました.

Ye Olde Cheshire Cheese Ye Olde London

Referrer (Inside): [2015-12-24-1]

[ | 固定リンク | 印刷用ページ ]

2013-03-21 Thu

#1424. CELEX2 [corpus][dictionary][statistics][frequency][lexicology]

 英単語の頻度に関連する諸研究(Betty Phillips など)で,CELEX という語彙データベースが使用されているのを見かけることがある.現在取りかかっている研究で,巨大コーパスに基づいた信頼できる語彙頻度統計が必要になったので,郵送料込みで350ドルするこの高価なデータベースを入手してみた.現行版は第2版であり,CELEX2 として購入できる.(なお,予想していなかったが,入手した CD-ROM には,LDC99T42 というデータベースも含まれていた.ここには tagged Brown Corpus, Wall Street Journal, Switchboard tagged など Treebank 系のコーパスが入っている.)
 さて,CELEX2 には,英語語彙に関する複数のデータベースが納められている.それぞれのデータベースには,正書法,音韻,音節,形態,統語の各観点から,見出し語 (lemma) あるいは語形 (wordform) ごとに,ソース・コーパス内での頻度等の情報が格納されている.具体的には,次の11のデータベースが利用可能である.

 ect (English Corpus Types)
 efl (English Frequency, Lemmas)
 efs (English Frequency, Syllables)
 efw (English Frequency, Wordforms)
 eml (English Morphology, Lemmas)
 emw (English Morphology, Wordforms)
 eol (English Orthography, Lemmas)
 eow (English Orthography, Wordforms)
 epl (English Phonology, Lemmas)
 epw (English Phonology, Wordforms)
 esl (English Syntax, Lemmas)

 見出し語あるいは語形ごとの token 頻度の取り出しに強いデータベースという認識で購入したが,実際には,含まれている情報の種類は驚くほど豊富で,11のデータベースすべてを合わせたフィールド数はのべ250以上に及ぶ.行数は efl で52,447行,efw で160,595行という巨大さだ.検索用の SQLite DB をこしらえたら,容量にして90MBを超えてしまった.
 CELEX2 のソースは,辞書情報については Oxford Advanced Learner's Dictionary (1974) 及び Longman Dictionary of Contemporary English (1978) であり,頻度情報については 1790万語からなる COBUILD/Birmingham corpus である.このコーパスの構成は,1660万語 (92.74%) が書き言葉コーパス,130万語 (7.26%) が話し言葉コーパスで,前者を構成する284テキストのうち44テキスト (15.49%) がアメリカ英語である.しかし,これらのアメリカ英語はほとんどがイギリス英語の綴字に直されていることに注意したい.
 CELEX2 における "lemma" の定義は,以下の5点に依存する.

 (1) orthography of the wordforms: peek vs peak
 (2) syntactic class: meet (adj.) vs meet (adv.)
 (3) inflectional paradigm: water (v.) vs water (n.)
 (4) morphological structure: rubber (someone or something that rubs) vs rubber (the elastic substance)
 (5) pronunciation of the wordforms: recount [ˈriː-kaʊnt] vs recount [rɪ-ˈkaʊnt]

 したがって,通常異なる lexeme として扱われる bank (土手)と bank (銀行)などは,CELEX2 では同一の lemma として扱われているので注意が必要である.
 このように CELEX2 は非常に強力な語彙頻度データベースだが,その他にも語彙頻度研究に資するデータベースやツールは存在する.本ブログで触れたものとしては,frequency statistics lexicology の各記事や,特に以下の記事が参考になるだろう.

 ・ 「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1])
 ・ 「#607. Google Books Ngram Viewer」 ([2010-12-25-1])
 ・ 「#708. Frequency Sorter CGI」 ([2011-04-05-1])
 ・ 「#1159. MRC Psycholinguistic Database Search」 ([2012-06-29-1])

 ・ Baayen R. H., R. Piepenbrock and L. Gulikers. CELEX2. CD-ROM. Philadelphia: Linguistic Data Consortium, 1996.

[ | 固定リンク | 印刷用ページ ]

2013-03-20 Wed

#1423. 初期近代英語の3複現の -s (2) [verb][conjugation][emode][corpus][ppceme][ppcbme][number][agreement][analogy][3pp]

 「#1413. 初期近代英語の3複現の -s」 ([2013-03-10-1]) の記事の続き.前の記事では,PPCEME による検索で,3複現の -s の例を50件ほど取り出すことができたと述べたが,文脈を見ながら手作業で整理したところ,全52例が確認された(データのテキストファイルはこちら).
 PPCEME では,E1 (1500--1569), E2 (1570--1639), E3 (1640--1710) の3期が区分されているが,その区分ごとに3複現の -s の生起数を示すと以下のようになる(各期のコーパスの総語数も示した).

PeriodTokensWordcount
E1 (1500--1569)13567,795
E2 (1570--1639)18628,463
E3 (1640--1710)21541,595
Total521,737,853


 Queen Elizabeth I's Boethius (E2), Thomas Middleton's A chaste maid in Cheapside (E2), Celia Fiennes's journeys (E3) などの特定のテキストに数回以上生起するとはいえ,全体として少ない生起数ながらも,およそむらなく分布しているとは言えるかもしれない.例文を眺めてみると,以下のように主語と動詞の倒置がみられるものがいくつかあり,現代英語の「there is + 複数名詞」のような構文を想起させる.

 ・ and after them comys mo harolds,
 ・ Here comes our Gossips now,
 ・ Now in goes the long Fingers that are wash't Some thrice a day in Vrin,


 さて,Lass (166) に3複現の -s について関連する言及を見つけたので,紹介しておこう.Lass は,3複現の -s の起源について,単数に比べれば時代は遅れたものの,北部方言からの伝播だと考えているようだ.

The {-s} plural appears considerably later than the {-s} singular, and if it too is northern (as seems likely), it represents a later diffusion. The earliest example cited by Wyld ([History of Modern Colloquial English] 346) is from the State Papers of Henry VIII (1515): 'the noble folk of the land shotes at hym'. It is common throughout the sixteenth and seventeenth centuries as a minority alternant of zero, and persists sporadically into the eighteenth century.


 16,17世紀を通じて行なわれていたということは,上記の PPCEME からの例で確かに認められた.なお,後期近代英語をカバーする PPCMBE で18世紀以降の状況を調べてみると,こちらの6例が挙がった.しかし,実体の数と観念の上で焦点化される数との不一致の例と読めるものも含まれており([2012-06-14-1]の記事「#1144. 現代英語における数の不一致の例」を参照),後期近代英語では3複現の -s は皆無に近いと考えてよさそうだ.


 ・ Lass, Roger. "Phonology and Morphology." 1476--1776. Vol. 3 of The Cambridge History of the English Language. Ed. Roger Lass. Cambridge: CUP, 1999. 56--186.

[ | 固定リンク | 印刷用ページ ]

2013-03-14 Thu

#1417. 群属格の発達 [genitive][clitic][synthesis_to_analysis][metanalysis][corpus][ppcme2][syntax]

 近代英語以降の apostrophe s は,名詞につく屈折接尾辞とみなすよりは,名詞句につく前接語 (enclitic) とみなすほうが正確である.というのは,the king of England's daughter のような群属格 (group genitive) としての用法が広く認められるからである.apostrophe s は,語に接続する純粋に形態的な単位というよりは,語群に接続する統語的な単位,すなわち接語 (clitic) とみなす必要がある.
 しかし,apostrophe s の起源と考えられる -es 語尾は,中英語以前には,確かに名詞につく屈折語尾だった.それが名詞句へ前接し,群属格を作る用法を得たのはなぜか.その契機は何だったのか.英語史でも盛んに議論されてきた問題である.
 一つの見方 (Janda) によれば,群属格への発展の途中段階で「#819. his 属格」 ([2011-07-25-1]) が媒介として作用したのではないかという.この説を単純化して示せば,(1) 属格語尾 -es と人称代名詞の男性単数属格 his とが無強勢で同音となる事実と,(2) 直前の名詞句を受ける代名詞としての his 属格の特性との2点が相俟って,次のような比例式が可能となったのではないかという.

king his doughter : king of England his doughter = kinges doughter : X
X = king of Englandes doughter


 しかし,Allen はこの説に同意しない.PPCME2 やその他の中英語テキストを走査し,関与するあらゆる例を検討した結果,his 属格が媒介となって群属格が生じたとする見解には,証拠上,数々の無理があるとする.Allen は,とりわけ,"attached genitive" (歴史的な -es 属格)と "separated genitive" (his 属格)との間に,統語環境に応じての分布上の差がないことを根拠に,中英語の his 属格は "just an orthographical variant of the inflection" (118) であると結論する.
 では,群属格の発達が his 属格を媒介としたものではなかったとすると,他にどのような契機がありえたのだろうか.Allen はその答えとして,"the gradual extension of the ending -es to all classes of nouns, making what used to be an inflection indistinguishable from a clitic" (120) を提案している.14世紀末までに属格語尾が一律に -(e)s を取り得るようになり,これがもはや屈折語尾としてではなく無変化の前接語と捉えられるに至ったのではないかという.また,最初期の群属格の例は,The grete god of Loves name (Chaucer, HF 1489) や þe kyng of Frances men (Trevisa's Polychronicon, VIII, 349.380) に見られるような,出自を示す of 句を伴った定型句であり,複合名詞とすら解釈できるような表現である.これが一塊と解され,その直後に所有を示す -(e)s がつくというのはまったく不思議ではない.
 さらに Allen は,16世紀後半から現われる his 属格と平行的な her 属格や their 属格については,すでに-(e)s による群属格が確立した後の異分析 (metanalysis) の結果であり,周辺的な表現にすぎないと見ている.この異分析を,"spelling pronunciation" ならぬ "spelling syntax" (124) と言及しているのが興味深い.
 Allen の結論部を引用しよう (124) .

A closer examination of the relationship between case-marking syncretism and the rise of the 'group genitive' than has previously been carried out provides evidence that the increase in syncretism led to the reanalysis of -es as a clitic. There is evidence that this change of status from inflection to clitic was not accomplished all at once; inflectional genitives coexisted with the clitic genitive in late ME and the clitic seems to have attached to conjoined nouns and appositives before it attached to NPs which did not end in a possessor noun. The evidence strongly suggests that the separated genitive of ME did not serve as the model for the introduction of the group genitive, and I have suggested that the separated genitive was an orthographic variant of the inflectional genitive, but that after the group genitive was firmly established there were attempts to treat it as a genitive pronoun.


 Allen は Appendix I にて,Mustanoja (160) 等がhis 属格として挙げている古英語や中英語からの例([2011-07-25-1]で挙げた例)の多くが疑わしい例であると論じている.
 なお,群属格については,Baugh and Cable (241) にも簡単な言及がある.

 ・ Janda , Richard. "On the Decline of Declensional Systems: The Overall Loss of OE Nominal Case Inflections and the ME Reanalysis of -es as his." Papers from the Fourth International Conference on Historical Linguistics. Ed. Elizabeth C. Traugott, Rebecca Labrum, and Susan Shepherd. Amsterdam: John Benjamins, 243--52.
 ・ Allen, Cynthia L. "The Origins of the 'Group Genitive' in English." Transactions of the Philological Society 95 (1997): 111--31.
 ・ Mustanoja, T. F. A Middle English Syntax. Helsinki: Société Néophilologique, 1960.
 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.

[ | 固定リンク | 印刷用ページ ]

2013-03-13 Wed

#1416. shewshow (2) [spelling][corpus][ppcmbe][johnson][pronunciation_spelling]

 昨日の記事「#1414. shewshow (1)」 ([2013-03-12-1]) の続編.昨日は Helsinki Corpus を用いて初期近代英語期までの shewshow の分布を調査したが,今回は後期近代英語期における分布を PPCMBE (Penn Parsed Corpus of Modern British English; see [2010-03-03-1]) によって簡単に調査した.
 PPCMBE は,1700年から1914年までの総語数948,895語のコーパスである.これを約70年ずつの3期に分け,見出し語化された pos ファイル群を対象に検索することで shew 系列と show 系列の token 数を数え上げた.結果は以下の通り.


shew 系列show 系列総語数
1700--17698025298,764
1770--18397986368,804
1840--191417162281,327


 大雑把な数え上げではあるが,第1期と第3期は明らかに分布に有意差が出る.1800年前後を境に形勢が逆転し,show が優勢になってきたことがわかるだろう.なぜ形勢が逆転したかという理由については,Johnson の Dictionary (1755) の記述が参考になる."To SHOW" の見出しのもとに次のようにあるので,引用しておこう.

This word is frequently written shew; but since it is always pronounced and often written show, which is favoured likewise by the Dutch schowen, I have adjusted the orthography to the pronunciation.


 つまり,spelling_pronunciation ならぬ pronunciation_spelling の例ということになるのだろうか.show ほどの高頻度語でこのような一種の理性的な過程が作用したというのは不思議にも思えるが,中英語期以来,劣勢とはいえ show 系列が一応は行なわれていたという事実が背景にあったことは,確かに効いているだろう.

[ | 固定リンク | 印刷用ページ ]

2013-03-12 Tue

#1415. shewshow (1) [spelling][phonetics][corpus][hc][diphthong]

 動詞 show には古い異綴り shew がある.法律文書,聖書,詩などには見られるものの,現在では一般的にはあまりお目にかからない.しかし,shew は18世紀まで優勢な綴字であり,19世紀前半まで現役として活躍していたし,20世紀前半ですら目にすることがあった.OED "show, v." の語源欄の記述を参照しよう.

The spelling shew, prevalent in the 18th cent. and not uncommon in the first half of the 19th cent., is now obsolete exc. in legal documents. It represents the obsolete pronunciation (indicated by rhymes like view, true down to c1700) normally descending from the Old English scéaw- with falling diphthong. The present pronunciation, to which the present spelling corresponds, represents an Old English (? dialectal) sceāw- with a rising diphthong.


 この異綴りの由来は,古英語 scéawian (to look) の形態に由来する.語幹の2重母音が長母音へと滑化 (smoothing) する際に,もともと下降調2重母音であれば最初の母音が伸びて ē となり,上昇調2重母音であれば最後の母音が伸び,結果として ō となった.shew に連なる前者の系列では,規則的な音発達により,/ʃjuː/ が出力されるはずだが,show に連なる後者の系列の発音 /ʃoʊ/ に置換されることになった.近代後半までに綴字としては shew が優勢でありながら,発音としては show が一般化していたとことになる.なお,sew /soʊ/ も,これと平行的な発達の結果である.
 OED や語源辞書では,近代までは shew 系列が優勢だったということだが,劣勢だった show 系列の萌芽は中英語から確認される (cf. MED "sheuen (v.(1))") .Helsinki Corpus により,中英語から近代英語までの shew vs show の通時的な分布を概観してみよう.(データファイルは "shew" and "show" in Helsinki Corpus を参照.)


shew 系列show 系列
M1120
M2362
M31850
M42077
E119813
E211315
E3714


 確かに初期近代英語期までの通時的な傾向は明白である.だが,後期近代英語期以降の show の逆転劇については未調査なので,明日の記事で探ってみる.

[ | 固定リンク | 印刷用ページ ]

2013-03-10 Sun

#1413. 初期近代英語の3複現の -s [verb][conjugation][emode][corpus][ppceme][number][agreement][analogy][3pp]

 標記について Baugh and Cable (247) に触れられており,目を惹いた.3単現ならぬ3複現における -s は,中英語では珍しくない.中英語の北部方言では,「#790. 中英語方言における動詞屈折語尾の分布」 ([2011-06-26-1]) の下の地図で示したように,直説法3人称複数では -es が基本だった.しかし,初期近代英語の標準変種において3複現の -s が散見されるというのは不思議である.というのは,この時期の文学や公文書に反映される標準変種では,中英語の East Midland 方言の -e(n) が消失した結果としてのゼロ語尾が予想されるし,実際に分布として圧倒的だからだ.しかし,3複現の -s は確かに Shakespeare でも散見される.
 この問題について,Baugh and Cable (247) は次のように指摘している.

Their occurrence is also often attributed to the influence of the Northern dialect, but this explanation has been quite justly questioned, and it is suggested that they are due to analogy with the singular. While we are in some danger here of explaining ignotum per ignotius, we must admit that no better way of accounting for this peculiarity has been offered. And when we remember that a certain number of Southern plurals in -eth continued apparently in colloquial use, the alternation of -s with this -eth would be quite like the alternation of these endings in the singular. Only they were much less common. Plural forms in -s are occasionally found as late as the eighteenth century.


 ここで,3複現の -s が北部方言からの影響ではないとする Baugh and Cable の見解は,Wyld, History of Modern Colloquial English, p. 340 の言及に負っている.むしろ,この時期の3単現の -s 対 -th の交替が,複数にも類推的に飛び火した結果だろうと考えている.なお,Görlach (89) は,方言からきたものか単数からきたものか決めかねている.
 この問題を考察するにあたって,何はともあれ,初期近代英語において3複現の -s なり -th なりが具体的にどのくらいの頻度で現われるのかを確認しておく必要がある.そこで,The Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) によりざっと検索してみた.約180万語という規模のコーパスだが,3複現の -s の例は50件ほど,3複現の -th の例は60件ほどが挙がった(結果テキストファイルは左をクリック).年代や文脈などの詳細な分析はしていないが,典型的な例を少し挙げておく.


 ・ and all your children prayes you for your daly blessing.
 ・ but the carving and battlements and towers looks well;
 ・ then go to the pot where your earning bagges hangs,
 ・ as our ioyes growes, We must remember still from whence it flowes,
 ・ Ther growes smale Raysons that we call reysons of Corans,


 ・ now here followeth the three Tables,
 ・ And yf there be no God, from whence cometh good thynges?
 ・ First I wold shewe that the instruccyons of this holy gospell perteyneth to the vniuersal chirche of chryst.
 ・ and so the armes goith a sundre to the by crekes.
 ・ And to this agreith the wordes of the Prophetes, as it is written.
 ・ Also high browes and thicke betokeneth hardnes:


 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.
 ・ Görlach, Manfred. Introduction to Early Modern English. Cambridge: CUP, 1991.

[ | 固定リンク | 印刷用ページ ]

2013-02-24 Sun

#1399. 初期中英語における between の異形態の分布 [laeme][corpus][preposition][me_dialect][methodology]

 「#1389. between の語源」 ([2013-02-14-1]),「#1393. between の歴史的異形態の豊富さ」([2013-02-18-1]),「#1394. between の異形態の分布の通時的変化」 ([2013-02-19-1]) に続いて,今回は LAEME を用いて通時的変化および方言別分布を調査した結果を報告する.
 Helsinki Corpus による通時的調査 ([2013-02-19-1]) の場合と同様に,多数の異形態をまとめるに当たって,語尾以外における母音の違いは無視し,第2音節以降の子音(と,もしあれば語尾の母音も)の種類と組み合わせに注目した.lexel に "between" を指定して取り出した例をもとに,241個のトークンを半世紀ごと,方言別に整理した(区分は[2012-10-10-1]の記事「#1262. The LAEME Corpus の代表性 (1)」で採用したものと同じ).原データはこちらを参照.以下,最初に年代別,次に方言別の集計結果を掲げる.

PERIODnnnnexxexnxtehnhetntxtxntxethsseynznSum
C12b181270000000000000028
C13a23419644091401010000085
C13b2032321341000102111164
C14a5132892200031000010064
Sum662172247941014321121211241

DIALECTnnnnexxexnxtehnhetntxtxntxethsseynznSum
N00192200001000000015
NEM140000000000000000014
NWM706000081400002000037
SEM1420950000030100000052
SWM3112675702001010101184
SW001630040000000010024
SE001400000000000010015
Sum662172247941014321121211241


 現代英語の between に連なる,n を含む最も普通のタイプが左3列に示されているが,bitweonen などの "nn" タイプは時代とともに "n" タイプや "ne" タイプに置換されてゆく様子がうかがえる.Mustanoja (369) は,"nn" タイプについて "The -en forms occur mainly in the more southern parts of the country" と記述しているが,実際には NEM や NWM にも現われている.つまり,"nn" タイプの分布は,方言の問題である以上に時代の問題である可能性がある.語尾の n の脱落がより北部で,かつ,より遅い時代に見られることは,予想できることだろう.
 n 系列には遠く及ばないが,bituixbitƿixen などの x 系列の使用がこの時期に稀でないことは,Helsinki Corpus の調査結果と符合している.x 系列は N, SEM, SWM, SW に分布しており,間に挟まれた NEM, NWM には文証されない.この分布は妙だが,全体として例が十分に多くないために,North Midlands の現存テキストに現われる機会がなかったということかもしれない.近代英語期にかけて成長する t を付加した xte タイプは,初期中英語では C13b SW に bitwixte などの形態でわずかに現われるにとどまっている.
 bituhenbituhe などの h 系列は,Helsinki Corpus によれば,古英語後期より一気に衰退したとのことだったが,LAEME によれば,初期中英語では C13a NWM に集中する形で生き残っていたようだ.しかし,その時までに衰退傾向は決定づけられていたと言えるだろう.
 今回の調査で感覚を得たが,(初期)中英語期に開始した,あるいは進行していると疑われる変化について調べるには,Helsinki Corpus で通時的変化を大づかみにした上で,LAEME を用いて,より細かい時代区分と方言の別を考慮して掘り下げてゆくのがよさそうだ.

Referrer (Inside): [2014-12-19-1] [2013-07-29-1]

[ | 固定リンク | 印刷用ページ ]

2013-02-19 Tue

#1394. between の異形態の分布の通時的変化 [hc][corpus][preposition]

 「#1389. between の語源」 ([2013-02-14-1]) 及び昨日の記事「#1393. between の歴史的異形態の豊富さ」([2013-02-18-1]) に引き続いての話題.between の歴史的な異形態の分布を,Helsinki Corpus でざっと調査してみた.調査の結果,全コーパスより between の形態として 97 types, 793 tokens が確認された.以下はその97種類の異形態,異綴りである.

be-twen, be-twene, be-twix, be-twyen, be-twyn, be-twyx, be-twyxe, betuen, betuene, betuh, betuih, betuixt, betun, betux, betuyx, betwe, between, betweene, betwen, betwenan, betwene, betweoh, betweohn, betweon, betweonan, betweonen, betweonon, betweonum, betweox, betweoxan, betwex, betwi, betwih, betwihn, betwinan, betwinum, betwioh, betwion, betwix, betwixe, betwixt, betwixte, betwixts, betwne, betwoex, betwonen, betwuh, betwux, betwuxn, betwyh, betwyn, betwynan, betwyne, betwyx, betwyxe, betwyxen, betwyxte, bi-tuine, bi-twen, bi-twene, bi-twenen, bi-tweohnen, bi-tweone, bi-tweonen, bi-twexst, bi-twext, bi-twihan, bi-twixst, bituen, bituene, bituhe, bituhen, bituhhe, bituhhen, bituien, bituih, bituin, bituix, bitunon, bitweies, bitwen, bitwene, bitwenen, bitwenenn, bitweon, bitweone, bitweonen, bitweonon, bitweonum, bitwex, bitwexe, bitwien, bitwih, bitwix, bitwixe, bitwixen, bitwyxe


 全793例の形態を一定の基準でまとめて集計するのは容易ではないが,今回は語尾以外における母音の違いは無視することにし,第2音節以降の子音(と,もしあれば語尾の母音も)の種類と組み合わせによって集計した.例えば,"nm", "nn", "x", "xt" というタイプは,それぞれ betweonum, betweonan, betwyx, betwixt などの形態を代表する.以下の表は,Helsinki Corpus における時代区分を参照し,例の挙がらなかった O1 (古英語第1期)の時期を除く10期における通時的変化を要約したものである.


nmnnnnexxexnxtxtexstxtshhnhnnheseiSum
O214100130100003140000064
O35221605600000048000000147
O41153022000000300000044
M10284813010000041900068
M2015321110000000010042
M300431241801040000001083
M40041125621600000000156
E1001266200253000000000108
E2002344000316000000000104
E30054800014001000000077
Sum206712520015625572154182819111793


 現代の between に連なる n をもつ形態は,古英語から近代英語に至るまで一貫して主流派であることがわかる.betwix などの x 系列も,古英語から中英語まで n 系列に匹敵するほど頻用されているが,近代英語で xt 系列が出現するに及び,古くからの x 系列は影を潜めてゆく.h 系列は,古英語では盛んだったが,古英語末期から一気に衰退してゆく.
 中英語に関しては,方言による分布の差も調査する必要があるだろう.

[ | 固定リンク | 印刷用ページ ]

2013-01-12 Sat

#1356. 20世紀イギリス英語での government の数の一致 [bre][number][agreement][noun][syntax][corpus]

 昨日の記事「#1355. 20世紀イギリス英語で集合名詞の単数一致は増加したか?」 ([2013-01-11-1]) で取り上げた,Bauer の集合名詞の数の一致に関する調査について,紹介を続ける.The Times の社説のコーパスによる通時的な調査を通じて,Bauer は群を抜いて最頻の集合名詞である government が,20世紀の間に,数の一致に関して興味深い分布を示すことを発見した (Bauer 64--65) .
 20世紀の前期には,government は複数一致が多いものの,従来から指摘されているとおり,とらえ方に応じて単複のあいだで変異を示していた.ところが,中期になると,単複一致の違いが指示対象の違いに対応するようになった.複数として用いられるときには英国政府を指し,単数として用いられるときには他国政府を指すという傾向が現われてくるというのだ.文法の問題というよりも,意味(指示対象)の問題へと移行したかのようだ.以下に,Bauer (64) の "Concord with government by meaning from The Times corpus, 1930--65" のデータを再掲しよう.

YearBritish governmentNon-British government
SingularPluralSingularPlural
1930315123
1935213112
194021442
19452722
1950126260
19552280
196002380
196511341
Total131136518


 1965年までにこの傾向が確立したが,その後,世紀の後期にかけて,今度は指示対象にかかわらず単数一致が増えてくる.government に関する限り,世紀の前期は notional variation,中期は semantic distinction,後期は grammatical preference for the singular と振る舞いを変化させてきたということになる.
 問うべきは,上記の20世紀中期の使い分けの傾向は社説以外のテキストタイプでも同様に見られるのだろうか,という問題だ.社説に government が高頻度で現われることは予想されたことだが,それだけに社説の言語において特殊な用法が発達したと疑うこともできるかもしれない.コーパスを広げて確認する必要があるだろう.

 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

[ | 固定リンク | 印刷用ページ ]

2013-01-11 Fri

#1355. 20世紀イギリス英語で集合名詞の単数一致は増加したか? [bre][number][agreement][noun][syntax][corpus][americanisation]

 主語と動詞の数の一致については,「#930. a large number of people の数の一致」 ([2011-11-13-1]) ,「#1144. 現代英語における数の不一致の例」 ([2012-06-14-1]) ,「#1334. 中英語における名詞と動詞の数の不一致」 ([2012-12-21-1]) の記事で扱ってきた.一般に,現代英語において governmentteam などの集合名詞の数の一致は,アメリカ英語ではもっぱら単数で一致するが,イギリス英語ではとらえ方に応じて単数でも複数でも一致するとされる.この一般化は概して有効だが,数の一致に関して変異を示すイギリス英語についてみると,20世紀を通じて単数一致の傾向が強まってきているのではないかという指摘がある.Bauer (61--66) の The Times の社説を対象としたコーパス研究を紹介しよう.
 Bauer は,1900--1985年の The Times corpus の社説からなるコーパスを対象に,集合名詞が単数で一致する比率を求めた.Bauer は,本調査は The Times 紙の社説という非常に形式張った文体における調査であり,これが必ずしもイギリス英語全体を代表しているとはいえないと断わった上で,興味深いグラフを与えている.以下は,Bauer (63) のグラフから目検討で数値を読み出し,再作成したものである.

Singular Concord of Collective Nouns

 回帰直線としてならせば,毎年0.3178%の割合での微増となっている.数値が安定しないことやコーパスの偏りなどの理由によりこの結果がどこまで信頼できるのかが問題となるが,Bauer は細かい情報を与えておらず,判断できないのが現状である.
 Bauer はさらに,コーパス内で最も頻度の高い集合名詞 government が特殊な振る舞いをすることに注目し,この語を除いた集合名詞について,単数一致の割合を再計算した.上のグラフと同じ要領で,Bauer (66) のグラフに基づいて下のグラフを再作成した.ならすと毎年0.1877%の割合での微増である.

Singular Concord of Collective Nouns Excluding 'government'

 この結果は多くの点で仮の結果にとどまらざるを得ないように思われるが,少なくともさらに調査を進めてゆくためのスタート地点にはなるだろう.
 なお,Bauer は1930年代にこの傾向に拍車がかかったという事実を根拠に,アメリカ英語が影響を与えたと考えることはできないだろうとしている([2011-08-26-1]の記事「#851. イギリス英語に対するアメリカ英語の影響は第2次世界大戦から」を参照).
 government の数の一致に関するおもしろい振る舞いについては,明日の記事で紹介する.

 ・ Bauer, Laurie. Watching English Change: An Introduction to the Study of Linguistic Change in Standard Englishes in the Twentieth Century. Harlow: Longman, 1994.

Referrer (Inside): [2013-01-12-1]

[ | 固定リンク | 印刷用ページ ]

2013-01-02 Wed

#1346. 付加疑問はどのくらいよく使われるか? [interrogative][tag_question][ame_bre][corpus][frequency][statistics]

 現代英語の会話では,付加疑問がよく使われる.だが,具体的にどのくらいよく使われるのだろうか.そもそも一般的に疑問文はどのくらいの頻度で生起するのか.そのなかで,付加疑問はどれくらいの割合を占めるのか.このような疑問を抱いたら,まず当たるべきは Biber et al. の LGSWE である.
 最初の問題については,p. 211 に解答が与えられている.疑問符の数による粗い調査だが,CONV(ERSATION) では40語に1つ疑問符が含まれているという.会話コーパスでは,転写上,疑問符が控えめに反映されている可能性が高く,実際には数値以上の頻度で疑問文が生起しているはずである.テキストタイプでいえば,次に大きく差を開けられて FICT(ION) が続き,NEWS と ACAD(EMIC) では疑問文の頻度は限りなく低い.
 次に,各サブコーパスにおいて,疑問文全体における付加疑問の生起する割合はどのくらいか.p. 212 に掲載されている統計結果を以下のようにまとめた.各列を縦に足すと100%となる表である.

(* = 5%; ~ = less than 2.5%)CONVFICTNEWSACAD
independent clausewh-question******************************
yes/no-question************************
alternative question~~~~
declarative question***~~
fragmentswh-question******
other********
tagpositive*~~~
negative*****~~


 CONV において付加疑問の生起比率が高いことは当然のように予測されたが,同サブコーパスの疑問表現全体のなかで25%を占めるということは発見だった.そのなかでも,肯定の is it? よりも否定の isn't it? のタイプのほうがずっと多い.また,FICT が CONV におよそ準ずる分布を示すのは,フィクション内の会話部分の貢献だろう.一方,NEWS と ACAD で付加疑問の比率が低いのは,この表現と対話との結びつきを強く示唆するものである.また,この2つのサブコーパスでは,完全な独立節での疑問文,特に wh-question が相対的に多いのが注意を引く.
 付加疑問の生起比率に関心をもったのは,実は,Schmitt and Marsden (192) に次のような記述を見つけたからだった.

Tag questions (i.e., regular questioning expressions tagged onto a sentence) exist in both American and British English, with British speakers perhaps using them more than Americans: "That's not very nice, is it?" Peremptory and aggressive tags tend to be used more in British English than in American English: "Well, I don't know, do I?" (192)


 残念ながら,Biber et al. では付加疑問の頻度の英米差を確かめることはできない.別途,英米のコーパスで調べる必要があるだろう.

 ・ Schmitt, Norbert, and Richard Marsden. Why Is English Like That? Ann Arbor, Mich.: U of Michigan P, 2006.
 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow