hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 次ページ / page 8 (9)

statistics - hellog〜英語史ブログ

最終更新時間: 2024-04-18 08:26

2011-01-29 Sat

#642. OED の引用データをコーパスとして使えるか (4) [oed][corpus][statistics]

 [2010-10-15-1]の記事に関連して,Brewer の論文から補足.その記事で OED の引用数を時代別にグラフ化したものを掲げたが,特に顕著な増加を示している箇所を数字で示した版を以下に示す.

OED Quotations per Decade by Brewer (Marked)

 Brewer (58) によると,(1)--(5) の各増加は OED 編纂上の要因によるところが大きいとされる.それぞれの事情は以下の通りである.

 (1) 1291--1300年の増加.1470年以前についてはしばしばテキストの年代が不明であり,そのような場合には便宜上各世紀の中央や両端に年代を仮設定するという編集上の方針があった.また,特にこの時代については,Robert of Gloucester (1297年,3222用例) や Cursor Mundi (1300年,10771用例で OED における被引用数第2位の作品) から,かなり集中的に引用が取り込まれているという事情もある.
 (2) 1391--1400年の増加.(1) と同様の世紀終わりという理由に加え,Trevisa (1387/98年,6750用例) から大量に取り込まれているという事情がある.
 (3) 1521--1530年の増加.Palsgrave の Lesclarcissement (1530年,5418用例) からの大量の引用により,半ば説明される.
 (4) 1581--1600年の増加.Shakespeare (33304用例) の影響が相当に大きい.
 (5) 1631--1660年の増加.おそらく革命期のパンフレットからの多数の引用が影響している.

 この5点の増加についてだけでも編集上の背景を具体的に知っておくと,OED の引用データの使い方(少なくともその姿勢)は変わってくるだろうと思い,メモした次第.関連する記事としては以下を参照.

 ・ [2010-10-10-1]: #531. OED の引用データをコーパスとして使えるか
 ・ [2010-10-14-1]: #535. OED の引用データをコーパスとして使えるか (2)
 ・ [2010-10-15-1]: #536. OED の引用データをコーパスとして使えるか (3)

 ・ Brewer, Charlotte. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

Referrer (Inside): [2020-09-29-1] [2015-03-29-1]

[ 固定リンク | 印刷用ページ ]

2011-01-04 Tue

#617. 近代英語期以前の専門5分野の語彙の通時分布 [scientific_english][lexicology][oed][statistics]

 昨日の記事[2011-01-03-1]に引き続き,科学語彙など専門分野の語彙の初出世紀を OED で調べるという話題.近代以前に発展していた学術分野の語彙がどのような通時分布を示していたかについて,昨日は anatomy と math を例に挙げてグラフで示した.同じ手法で,やはり中世によく発達した music, astronomy, astrology, rhetoric, alchemy の各分野について語彙の初出世紀を整理してみた.definitions 欄に入れて検索した各分野の略記は "Mus.", "Astr." / "Astron.", "Astrol.", "Rhet.", "Alch." である.(数値データはこのページのHTMLソースを参照.)

Development of Vocabulary in Five Pre-Modern Areas

 いずれも前近代的な専門分野らしく,近代科学の語彙が爆発する19世紀ではなく,14世紀や16世紀に初出のピークが来ている.それにしても,alchemy を除いた4分野のグラフが驚くほどきれいに平行しているのは示唆的である.15世紀にこぞって落ち込んでいる理由は分析していないが,各分野の発展史を参照して説明されるものなのか,あるいは OED の資料としての何らかの特徴が反映されているがゆえなのか.alchemy に関しては専門用語そのものの数が多くないので断定はできないが,14, 15世紀辺りにピークが来ている.
 OED が文化史の研究に利用できるということは耳にしていたが,今回いろいろと具体的に作業してみて実感がわいてきた.語彙体系は文化の索引である.


[ 固定リンク | 印刷用ページ ]

2011-01-03 Mon

#616. 近代英語期の科学語彙の爆発 [scientific_english][lexicology][oed][statistics]

 ルネサンス以降,近代英語期には科学語彙が爆発的に増殖した.特に19世紀は科学の発展がめざましく,おびただしい科学用語が出現することとなった.これには,18世紀後半から博物学でリンネの二名法が用いられるようになったことも影響している ( see [2010-09-21-1] ) .
 科学の諸分野の発達とその語彙の増殖は連動していると考えられるので,OED で専門語彙の初出時期を調べてまとめれば,その分野の発展史の概略をつかむことができるのではないかと考えた.18世紀以前にすでに十分に発展していた分野もあるわけで,そのような分野では19世紀中の専門語彙の増殖は相対的に小さいはずである.そこで,18世紀以前に発展していたと分かっている解剖学と数学,19世紀に著しく発展したと分かっている化学と生物学に注目して,OED からそれぞれの分野からの専門用語を拾って整理してみた.
 拾い方は,それぞれ ADVANCED SEARCH の definitions 欄に "Anat.", "Math.", "Chem.", "Biol." が含まれる語という粗い条件指定によるものであり,検索結果リストも逐一チェックはしていない.各語は初出年によって世紀ごとに振り分け,"a1866", "c1629", "15.." などはそれぞれ19, 17, 16世紀へ振り分けた.また,初出年の記載のないものは考慮から外している.このように大雑把な調査なので,あくまで参考までに.以下が,結果の表とグラフである.(数値データはこのページのHTMLソースを参照.)

Development of Scientific Vocabulary in Four Scientific Areas

 chemistry と biology は19世紀に初出語彙のピークが来ているが,anatomy と math はそれぞれ17, 16世紀にピークがある.後者2分野は確かに19世紀にも山があるので,科学語彙が爆発した世紀という一般論は当てはまるが,個々の分野によって語彙増殖の傾向の異なることがわかる.
 今回はすでに発展史の概略がよく知られている4分野を取り上げ,OED によってその語彙増殖を確認したにすぎないが,他の専門分野で同様の調査を施してみるとおもしろい結果が出るかもしれない.関連する話題として,SOED を用いた「1500--1900年における英語語彙の増加」について,[2009-11-16-1]を参照.

 ・ Crystal, David. The Cambridge Encyclopedia of the English Language. 2nd ed. Cambridge: CUP, 2003. 87.

[ 固定リンク | 印刷用ページ ]

2010-12-31 Fri

#613. Academic Word List に含まれる本来語の割合 [lexicology][loan_word][statistics][academic_word_list]

 昨日の記事[2010-12-30-1]で,Academic Word List (AWL) を導入した.この英語史ブログとして関心があるのは,AWL と銘打って収集されたこの語彙集のなかに本来語要素からなる語がどれだけ含まれているかという問題である.570語をざっと走査したら,以下の45語が挙がった.

acknowledge, albeit, aware, behalf, draft, forthcoming, furthermore, goal, hence, highlight, income, input, insight, layer, likewise, network, nevertheless, nonetheless, notwithstanding, offset, ongoing, outcome, output, overall, overlap, overseas, seek, shift, so-called, sole, somewhat, straightforward, tape, target, task, team, thereby, trend, undergo, underlie, undertake, welfare, whereas, whereby, widespread


 570語中の45語で7.89%なので,予想通りに本来語の割合は少ない.しかし,数える前にはもっと小さい値が出るのではないかと踏んでいたので,意外に少なくないなと感じたのも事実である.Academic Word List というからには Greco-Latin の語がそれこそ100%に迫り,本来語は10語もあれば多いほうかと思い込んでいたのである.だが,本来語のリストを眺めていてなるほどど思った.out- や over- を接頭辞としてもつ実質的な語のカテゴリーが目立つ一方で,albeit, furthermore, hence, likewise, nevertheless, nonetheless, notwithstanding, thereby, whereas, whereby などの機能的・文法的なカテゴリーも目につく.forthcoming, ongoing, overall, so-called などの複合要素からなる形容詞も1カテゴリーをなしていると考えられるだろう.
 ただし,本来語とはいっても古英語起源であるとは限らない.例えば,output などは1839年が初出である.上で最初に「本来語要素からなる語」と表現したのはそのためである.
 なお,明確に本来語とはみなせないが Greco-Latin でもない語としては,古ノルド語からの借用語 bond, bulk, link, odd やオランダ語からの借用語 trigger があった.語源不詳のものとしては job もある.
 現代英語の語彙数と起源別割合については,以下のリンクも参照.

 ・ [2010-06-30-1]: 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

[ 固定リンク | 印刷用ページ ]

2010-12-25 Sat

#607. Google Books Ngram Viewer [corpus][web_service][ame_bre][google_books][n-gram][statistics][frequency][lexicology]

 Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
 規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burntburned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
 次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American EnglishBritish English のそれぞれのサブコーパスから出力されたグラフは以下の通り.

in the street and on the street by Google Books Ngram Viewer

 inon の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
 [2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
 コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
 他のオンラインコーパスについては[2010-11-16-1]を参照.

[ 固定リンク | 印刷用ページ ]

2010-12-12 Sun

#594. 近代英語以降のフランス借用語の特徴 [loan_word][french][statistics][history]

 英語語彙史においてフランス借用語の果たしてきた役割の大きさは本ブログでも幾度となく取り上げてきた ( see french ) .しかし,しばしばフランス語借用はもっぱら中英語期の話題であると信じられているきらいがある.確かに[2009-08-22-1]の記事で掲げたグラフで示されている通り,15世紀以降はフランス語借用が一気に落ち込んでいる.しかしこれは13, 14世紀の絶頂期と比べての相対的な凋落であり,近現代に至るまで絶え間なく英語に語彙を供給してきた点は注目に値する.
 英語史において絶え間ない語彙の供給源としては,ほかにラテン語とギリシア語が挙げられるが,この3言語のなかではフランス語が最も優勢のようである.数値を挙げよう.トゥルニエ (347) は The Shorter Oxford English Dictionary による調査で,1900--50年の間に英語に入った208の借用語のうち93例 (44.71%) がフランス語に関係しており,1961--75年では253例中の136 (53.75%) がフランス語であるという(ブランショ, p. 132--33).
 英語語彙借用におけるフランス語の優位性はさることながら,借用語彙の分野が中世以来あまり変わっていないことも顕著である.その分野とは,貴族の生活,流行,美食,贅沢品,芸術,文学,軍事などで,まとめてしまえば「貴族的気取り」「知的流行」といったところだろうか.
 近代英語期のフランス語借用に特徴的なのは,フランス語のまま入ってきているということである.つまり,発音や綴字が英語化されていない.フランス語らしさ,外国語らしさが保たれている.

古典期のフランス心酔は,1685年のナントの勅令の廃止後,フランスのプロテスタントの国外流出によって育まれたものである.これがフランス語に特権的な地位を与えるようになり,借用された語はもはや英語化されなくなる.それらの語は優先的に社会生活に関わるものである.例えば,à propos, ballet, chagrin, chaperon, double-entendre, étiquette, fête, moquette, naïve, intrigue, nom de plume, rendez-vous, rêverie などでは,そのままの採用が見られる.(ブランショ,p. 132)


 ナントの勅令 ( L'Édit de Nante ) は,1598年4月13日にフランス国王アンリ4世がナントで発布した勅令で,限定的ながらも新教徒の権利を認めた寛容勅令の集大成だった.これにより30年以上続いた宗教戦争に一応の終止符が打たれたが,17世紀に絶対王権の強化とともにナントの勅令は形骸化していった.1685年,国王ルイ14世がナントの勅令を廃止すると,大量の新教徒が国外亡命することになった.この事件が,現代英語へフランス語ぽいフランス借用語がもたらされる契機となったのである.

 ・ ジャン=ジャック・ブランショ著,森本 英夫・大泉 昭夫 訳 『英語語源学』 〈文庫クセジュ〉 白水社,1999年. ( Blanchot, Jean-Jacques. L'Étymologie Anglaise. Paris: Presses Universitaires de France, 1995. )

[ 固定リンク | 印刷用ページ ]

2010-10-15 Fri

#536. OED の引用データをコーパスとして使えるか (3) [oed][corpus][statistics]

 [2010-10-10-1], [2010-10-14-1]に引き続き,OED の引用データの話題.今回は,特に昨日の記事[2010-10-14-1]の (2), (3) で取り上げた年代別引用数の浮き沈みの問題を意識する上で,数値をグラフに視覚化しておくと便利だと考えた.
 Brewer は10年ごとに OED の引用数の推移を調べており,実際にグラフ化もしている (48--49) .しかし,論文内に提示されているグラフは1470年を境に二分されており,目盛り尺度も互いに異なっているので比較するにはやや不便である.そこで,以下に目盛り尺度を揃えたグラフを改めて作成してみた.Brewer にはグラフ作成のもとになる数値データは与えられていないので,グラフから目検討で数値を読み出し,それを頼りに作成した(← 本当は自ら OED で改めて数字を出せばいいのだけれど).したがって,ここに示されているものはあくまで傾向をとらえるためのものとして参考までに.

OED Quotations per Decade by Brewer

 OED を通時コーパスとして用いる場合には,特に引用数が周囲より劇的に低かったり高かったりする時期からの引用に当たる際に注意が必要である.このグラフは,その際のお供として参照されたい.

 ・ Brewer, Charlotte. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

Referrer (Inside): [2015-03-29-1] [2011-01-29-1]

[ 固定リンク | 印刷用ページ ]

2010-10-06 Wed

#527. 不規則変化動詞の規則化の速度は頻度指標の2乗に反比例する? [verb][conjugation][statistics][lexical_diffusion][speed_of_change][frequency]

 言語進化論の立場からの驚くべき論文を読んだ.古英語の強変化動詞(不規則変化動詞)が時間とともに現在・未来に向かって規則化してゆく速度は,その動詞の頻度指標の2乗に反比例するというのである.不規則形の規則化と頻度に相関関係があることは多くの関連研究で明らかにされてきているが,この研究で驚かされるのは具体的な数式を挙げてきたことである.
 古英語から取り出した177の不規則動詞(現在にまで廃語となっていないもののみ)のうち,中英語でも不規則のまま残ったのは145個,近代英語でも不規則のままなのは98個だという.また,未来に計算式を当てはめると西暦2500年までに不規則のまま残っているのは83個であると予測している.
 この論文には計算に関わる数々の前提が説明されているが,細かくみればいろいろと疑問点がわき出てくる.

 ・ 現代英語における各動詞の頻度をコーパスで求めているのはよいとして,古英語と中英語における頻度の求め方は適切か.著者たちは中英語に関しては The Penn-Helsinki Parsed Corpus of Middle English を利用したと述べているが,現代英語の頻度を流用して計算している箇所もあった.もっとも,この流用による値の乱れは大きくないという議論は論文内で展開されてはいるが.
 ・ 現代英語については標準変種を想定して動詞を数えているが,過去の英語についてはどの変種を選んでいるのかが不明.おそらくは雑多な変種を含めたコーパスを対象としているのだろう.
 ・ 古英語から現代英語にかけておよそ一定の速度で規則化が起こっているという結果だが,近代期以降は「自然な」言語変化に干渉を加える規範文法の成立や教育の普及という社会的な出来事があった.こうした事情を考え合わせたうえで一定の速度であるということは何を意味するのか.
 ・ 規則形が現われだした時点ではなく,不規則形が最後に現われた(のちにもう現われないことになる)時点をカウントの基準にしているが,両形が共存している時期の長さについては何か言えることはあるのか.

 ただ,非常に大きな視点からの研究なので,あまり細かい点を持ち出して評するのもどうかとは思う.そこで,細かいことは抜きにしてこのマクロな研究結果を好意的に受け入れてみることにして,次にこの研究の後に生じるはずの大きな課題を考えてみたい(論文中には特に further studies が示されていないかったので).
 「規則化の速度が動詞の頻度指標の2乗に反比例する」という結果が出たが,この公式は英語の動詞の規則化だけに適用される単発の公式と考えてよいのだろうか.他のいくつかの(望むらくは多くの)言語的規則化にも一般的に適用できるのであればとても有意義だが,おそらくそれほどうまくは行かないだろう.そうすると,今回のように綺麗に公式が導き出される「理想的な」規則化の例は,逆に言うとどのような条件を備えているのだろうか.この条件を一般化することはできるのだろうか,また意味があるのだろうか.
 私も「理想的な言語変化の推移」には関心があり,言語変化は slow-quick-quick-slow のパターンのS字曲線を描くとする語彙拡散 ( lexical diffusion ) という理論に注目しているが,上記と同じ課題を抱えている.現実には,理想的な言語変化の推移の起こることは稀だからである.この問題については今後もじっくり考えていきたい.

 ・ Lieberman, Erez, Jean-Baptiste Michel, Joe Jackson, Tina Tang, and Martin A. Nowak. "Quantifying the Evolutionary Dynamics of Language." Nature 449 (2007): 713--16.

[ 固定リンク | 印刷用ページ ]

2010-09-12 Sun

#503. 現代英語の綴字は規則的か不規則的か [spelling_pronunciation_gap][statistics]

 現代英語の綴字と発音の関係は,母語話者にとっても非母語話者にとってもしばしば非難の対象になるが,[2010-02-05-1]の記事で少し触れたとおり,世間で酷評されるほどひどくないという主張がある.Crystal (72) によれば綴字が完全に不規則な日常英単語はわずか400語程度にすぎないという.また,以下のように綴字の規則性は75%?84%にも達するという推計もある.

English is much more regular in spelling than the traditional criticisms would have us believe. A major American study, published in the early 1970s, carried out a computer analysis of 17,000 words and showed that no less than 84 per cent of the words were spelled according to a regular pattern, and that only 3 per cent were so unpredictable that they would have to be learned by heart. Several other projects have reported comparable results of 75 per cent regularity or more. (Crystal, pp. 72--73)



 この数値をみると,確かに巷で騒がれるほど英語の綴字はめちゃくちゃではないのだなと感じるかもしれない.しかし,こうした推計値は,解釈に際して2つの点で注意すべきである.1つは,推計値は調査対象とする語彙の範囲(例えば明らかに不規則性が多く観察される地名や人名などの固有名詞を含むかどうか)や規則性の計測の仕方(例えば meat, meet, mete の綴字はいずれもある意味で規則的と判断できるが,/mi:t/ を綴る可能性が3種類もあると考えれば予測不可能性は増し,その分不規則的ともいえる)などに大きく依存するという点である.何をどのように数えるかということが肝心である.
 それでも,複数の推計で法外に大きく異なる値が出たわけではないので,ひとまず上の値を受け入れると仮定しよう.その場合でも,次の点を考慮する必要がある.数値が客観的であるとしても,その数値をどのように解釈すればよいかという基準が主観的あるいは相対的になることがありうるという点である.具体的に言えば,綴字の規則性を示す84%という上述の値は,本当に高いと評してよいのだろうか.綴字と発音の関係が例外なしの完璧な場合を100%と考えているのだろうが,その正反対である0%というのはローマ字のような表音文字 ( see [2010-06-23-1] ) を話題にしている限り,定義上ありえない.表語文字である漢字ですら,形声文字では,音読みに関する限り,読み方の予測可能性はかなり高いのである.つまり,100%の対極として0%を想定することは現実的にはありえない.取り得る値の範囲は,0--100% ではなく,例えば 50--100% くらいに落ち着くはずである.その中で84%という数値を評価する必要がある.
 また,英語と同じローマ字を用いる他のヨーロッパ語を考えてみると,フランス語やドイツ語などで同じような推計をとると限りなく100%に近くなるのではないかと想像される.それと比較すると,英語の84%という値は相当に低いとも考えられる.「表音文字で綴られる言語」を標榜している限り,完璧な100%までは求めずともせめて95%くらいは欲しい,譲っても90%だなどと考えれば,84%では心許ないともいえる.「表音文字」であるから100%を建前としているし,取り得る値のボトムが0%でありえないという上記の前提を考慮すると,英語の84%という値の解釈は難しい.
 出てきた数値はそれなりに客観的だとしても,その解釈は相対的にならざるを得ないと考える所以である.

 ・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.

[ 固定リンク | 印刷用ページ ]

2010-09-06 Mon

#497. 5分で分かる英語の歴史と統計 [link][statistics][reestablishment_of_english][dictionary][elf]

 こんな英語学習サイトを見つけた.English Language: All about the English language.この手のサイトは多数あるが,トップに英語史と英語の統計情報が簡単にまとまっているので目を引いた.

 ・ English language History
 ・ English language Statistics

 前者の英語史の解説文の "Middle English" の節で,中英語期の英語の復権 ( see reestablishment_of_english ) がノルマン・コンクェスト後の50年くらいで早々と始まっていたという記述があった.

Various contemporary sources suggest that within fifty years most of the Normans outside the royal court had switched to English, with French remaining the prestige language largely out of social inertia. For example, Orderic Vitalis, a historian born in 1075 and the son of a Norman knight, said that he only learned French as a second language.


 英語の復権を話題にするときには話し言葉か書き言葉か,庶民レベルか貴族レベルか,言語使用の状況が私的か公的かなど,視点によって復権の時期や程度が変わってくるのだが,従来の英語史ではフランス語のくびきの時代が中世のあいだに比較的長く続いたと記述されることが多かったように思う.しかし,事実としては上の解説文にあるとおり,中世イングランドでは庶民の実用上,英語は圧倒的な言語だったのであり,この事実を強調しておくことは重要だと思う.
 英語の統計については本ブログでも statistics の各記事で取り上げてきたが,以下のものは驚きこそしないが,私にとって初耳だった.

 ・ English is the language of navigation, aviation and of Christianity; it is the ecumenical language of the World Council of Churches
 ・ Five of the largest broadcasting companies in the world (CBS, NBC, ABC, BBC and CBC) transmit in English, reaching millions and millions of people all over the world
 ・ Of the 163 member nations of the U.N., more use English as their official language than any other. . . . After English, 26 nations in the U.N. cite French as their official tongue, 21 Spanish and 17 Arabic.
 ・ People who count English as their mother tongue make up less than 10% of the world's population, but possess over 30% of the world's economic power


 ただし,全体的に典拠は示されていない.また,2010年現在の国連加盟国は192カ国であり,上記の3点目の163カ国に基づく統計は1990年くらいの時点での数値かもしれない( see United Nations member States - Growth in United Nations membership, 1945-present ) .

 このサイトには他にも English DictionariesEnglish Literature などのページがある.

[ 固定リンク | 印刷用ページ ]

2010-08-26 Thu

#486. 迂言的 do の発達 [emode][syntax][statistics][do-periphrasis]

 英語史で大きな統語上の問題はいくつかあるが,そのうちの1つに迂言的 do ( do-periphrasis ) の発達がある.現代英語では助動詞 do は疑問文,否定文,強調文で出現する最頻語だが,中英語以前はこれらの do の用法はいまだ確立していない.それ以前は,疑問文は Do you go? の代わりに Go you? であったし,否定文も I don't go. の代わりに I go not. などとすれば済んだ.do-periphrasis が初期近代英語期に確立した理由については諸説が提案されているが定説はなく,現在でも様々な方面から研究が続けられている.
 しかし,do-periphrasis が確立した過程については,少なくとも頻度の変化という形で研究がなされてきた.疑問文や否定文を作るのに do を用いない従来型を単純形 ( simplex ) ,do を用いる革新型を迂言形 ( periphrastic ) とすると,迂言形の占める割合が初期近代英語期 ( 1500--1700年 ) に一気に増加したことが知られている.
 以下は,英語史概説書を通じて広く知られている Ellegård による do-periphrasis の発達を示すグラフである.(中尾, p. 74 に再掲されている数値に基づいて作り直したもの.数値はHTMLソースを参照.)肯定平叙文 ( aff[irmative] declarative ) ,否定平叙文 ( neg[ative] declarative ) ,肯定疑問文 ( aff[irmative] interrogative ) ,否定疑問文 ( neg[ative] interrogative ) ,否定命令文 ( neg[ative] imperative ) と場合分けしてある.

Development of Do-Periphrasis

 疑問文での do-periphrasis の使用が,全体的な発展を先導していったことがわかる.ただし,実際には個々の動詞によって do-periphrasis を受け入れる傾向は異なり,否定文では care, know, mistake などが,疑問文では come, do, hear, say などが迂言形の受け入れに保守的であった.Ogura によると,談話的な要因,社会・文体的要因,音素配列,動詞の頻度などが複雑に相互作用して do-periphrasis がこの時期に拡大していったようだ.



 ・ Ellegård, A. The Auxiliary Do. Stockholm: Almqvist and Wiksell, 1953.
 ・ 中尾 俊夫,児馬 修 編 『歴史的にさぐる現代の英文法』第3版,大修館,1997年.
 ・ Ogura, Mieko. "The Development of Periphrastic Do in English: A Case of Lexical Diffusion in Syntax. Diachronica'' 10 (1993): 51--85.

[ 固定リンク | 印刷用ページ ]

2010-07-21 Wed

#450. 現代英語に受け継がれた古英語の語彙はどのくらいあるか [oe][pde][lexicology][statistics][semantic_change]

 古英語の語彙の多くが現代までに失われてしまっていることは,英語史でもよく話題にされる.背景には,特に中英語期以降,諸外国語から借用語が大量に流入して本来語彙を置き換えたという経緯がある.では,具体的に数でいうと,古英語語彙のどのくらいが現代までに死に絶え,どのくらいが受け継がれているのだろうか.参考になる数値が,Brinton and Arnovick (165--66) に掲載されていたので紹介する(数値の究極のソースは Cassidy and Ringler (4--7) に引用されている J. F Madden and F. P. Magoun, Jr である).

 ・ 古英詩での最頻1,000語のうち,半数を少々超えるほどの語しか現代に残っていない.
 ・ 古英語語彙の最頻100語のうち,76%が現代に残っている.
 ・ 古英語にあった数詞の100%,前置詞の82%,代名詞の80%,接続詞の75%が現代に残っている.

 高頻度語や機能語ほど残存率が高いということは,これらの語群が失われる機会が少なく,他言語からの借用語で置換されにくいことによるだろう.だが,逆に言えば,内容語(名詞,動詞,形容詞,副詞)で同様の統計をとれば,死に絶えた語の数が劇的に増加するだろうことは予想できる.
 ただ,古英語の語彙が現代まで残存している場合でも,意味や形態がほぼ古英語のままであるという保証はない.in, word, fæst "fast", "now" などは意味も形態もほぼそのままで受け継がれているが,brēad "bit" ( not "bread" ), sellan "to give" ( not "to sell" ) などは意味が変化している.また,古英語の意味や形態が,限られた使用域 ( register ) でのみ生きながらえているケースも少なくない.例えば,古英語 gāst 「魂,霊」の意味は,現代英語では the Holy Ghost 「聖霊」というキリスト教用語として限定的に生き残っているに過ぎず,一般的な意味は「幽霊」である.
 もし仮に古英語より意味や使用域の変化を経た語は同一語とみなさないとするのであれば,古英語語彙の残存率は相当に低くなることだろう.千年を超える時間のなかでは,変化しない方が珍しいと考えるべきかもしれない.

 ・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
 ・ Cassidy, Frederic G and Richard N. Ringer, eds. Bright's Old English Grammar and Reader. 3rd ed. New York: Holt, Rinehart and Winston, 1971.

Referrer (Inside): [2016-04-26-1] [2011-02-04-1]

[ 固定リンク | 印刷用ページ ]

2010-06-30 Wed

#429. 現代英語の最頻語彙10000語の起源と割合 [loan_word][lexicology][statistics][pde]

 現代英語の語彙の起源と割合については,[2010-05-16-1]でまとめたとおり,本ブログでも何度か扱ってきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 この種の英語語彙の語源調査については本格的なものは存在しないようだが,もう一つ関連する先行研究をみつけたので紹介したい.
 Williams (67--68) は,数千通の商用書簡から最頻1万語を取り出し,頻度の高い順に1000語単位で10のグループを設けた.各グループについて語源別に比率をまとめた表を Williams より再掲する(宇賀治,pp. 84--85 にも掲載あり).ついでに,見やすいように棒グラフも作った.

DecileEnglishFrenchLatinDanishOther
183%11%2%2%2%
234461127
3294614110
4274517110
527471718
6274219210
7234517213
8264118213
9254117215
10254218114
Etymological Breakdown of the Most Frequent 10000 Words by Williams


 2000語,3000語レベルから早くも各言語の比率が落ち着いてくるのは,[2010-04-11-1]でみた音節数の分布とある程度は相関していそうでおもしろい.
 "Other" グループは雑多あるいは語源不詳の語も含まれるが,そのなかで各1000語の語群のいずれかで1%を超えるものは Dutch 借用語のみだという.また,調査対象としたコーパスをひっくるめて token 頻度で調べると以下の通り.こうしてみると英語は英語なのだとわかる.

English78.1%
French15.2
Latin3.1
Danish2.4
Other (Greek, Dutch, Italian, Spanish, German, etc.)1.3


 ・ Williams, Joseph M. Origins of the English Language: A Social and Linguistic History. New York: The Free Press, 1975.
 ・ 宇賀治 正朋著 『英語史』 開拓社,2000年.

[ 固定リンク | 印刷用ページ ]

2010-05-30 Sun

#398. 印欧語族は世界人口の半分近くを占める [indo-european][world_languages][statistics][demography]

 印欧語族 ([2009-06-17-1]) は世界最大の語族であり,世界最大の母語話者人口を誇っている.他書(何だったか失念)では印欧語族は世界の 1/4 を占めると記されており,私もその概数をそのまま信じて本ブログでも [2009-08-05-1] で言及したことがあった.ところが EthnologueTable 4. Major language families of the world によると相当に異なる数値が提示されている.印欧語族に属する諸言語は,世界人口の 45.67% に相当する27億余りの人々によって話されているという.1/4 どころかほぼ半数であり,大きな違いだ.人口統計は様々な前提・仮定の上ではじき出されるものなのでなかなか評価が難しいが,Ethnologue に基づく限り,2位のシナ・チベット語族 ( Sino-Tibetan ) の人口 12.5 億人を大きく引き離してのトップである.昨日の記事[2010-05-29-1]でまとめた母語話者数による言語のランキング表でも,トップ10言語のなかで7言語までが印欧語族に属するので,世界における影響力が知れよう.
 Ethnologue の Summary by language family によると,世界の言語は116の語族 ( language family ) に分かれ,そのなかの主要6語族のみで世界の言語の 2/3 を占め,世界の人口の 5/6 を占めるという.
 また,Ethnologue の Indo-European の区分 では,印欧語族を Albanian, Armenian, Baltic, Celtic, Germanic, Greek, Indo-Iranian, Italic, Slavic の9語派に下位分類していることがわかる.

[ 固定リンク | 印刷用ページ ]

2010-05-29 Sat

#397. 母語話者数による世界トップ25言語 [statistics][world_languages][demography]

 このブログでも何度も参照している Ethnologue の16版が2009年に出版された.オンライン版の Ethnologue で世界の言語にまつわる様々な数値を眺めていたら,英語の母語話者人口について新事実に出くわした.Table 3. Languages with at least 3 million first-language speakers によると,英語はスペイン語に僅差で追い越され,2位から3位に転落していたのである.すっかり見逃していた.
 以下は上記のページから取った上位25位までの言語のデータを見やすくまとめたもの.右隅の列には,1996年出版の Ethnologue 13版に基づく数値を比較のために添えた( Graddol, p. 8 から埋められた部分のみ).Hindi については,Hindi と Urdu を一つとして扱った場合の数値をかっこ内に示した.

RankLanguagePrimary CountryCountriesSpeakers (16th ed, 2009)(13th ed, 1996)
1ChineseChina311,213 million1,123
2SpanishSpain44329266
3EnglishUnited Kingdom112328322
4ArabicSaudi Arabia57221202
5HindiIndia20182 (242.6 with Urdu)(236 with Urdu)
6BengaliBangladesh10181189
7PortuguesePortugal37178170
8RussianRussian Federation33144288
9JapaneseJapan25122125
10GermanGermany4390.398
11JavaneseIndonesia584.6 
12LahndaPakistan878.3 
13TeluguIndia1069.8 
14VietnameseViet Nam2368.6 
15MarathiIndia568.1 
16FrenchFrance6067.872
17KoreanSouth Korea3366.3 
18TamilIndia1765.7 
19ItalianItaly3461.763
20UrduPakistan2360.6 
21TurkishTurkey3650.8 
22GujaratiIndia2046.5 
23PolishPoland2340.0 
24MalayMalaysia1439.147
25BhojpuriIndia338.5 


 この十数年の間で,トップを走っていた中国語と英語の母語話者数の伸び率は少ないが,4位につけていたスペイン語の伸び率は24%近くになる.一方,十数年前には3位につけていたロシア語が激減した.(ただし,これについては数え方の問題があるようで,別の独立した統計によれば当時のロシア語の母語話者数は 155 million ということだった.Ethnologue の 288 million とは著しい差である.)日本語はなんとかトップ10以内の座を守っているが,ヨーロッパの主要語とされるドイツ語やフランス語は低迷気味だ.
 爆発的な影響力を誇るのはインドの言語である.Hindi を筆頭に,Telugu, Marathi, Tamil, Gujarati, Bhojpuri がトップ25位に入っている.トップ50位までに,主としてインドで行われている言語が14も入っているのだから驚きだ.Bengali や Lahnda などを合わせるとインド亜大陸の猛威を感じざるを得ない.
 使用されている国の数でいうと,英語が群を抜いている.母語話者の数値だけでは表現されない実力があるということだろう.同様に,非母語話者の数を加えて評価すれば,相当に見栄えの異なるランキング表になるだろう.
 英語使用国の人口増加率については[2010-05-07-1]を参照.

 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm

[ 固定リンク | 印刷用ページ ]

2010-05-16 Sun

#384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する [oe][pde][loan_word][lexicology][statistics]

 これまでも現代英語の語彙数と起源別割合については,グラフとともにいろいろなソースから具体的な数値を挙げてきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 それとは別に,語彙や起源別割合の通時的な増減やその他を扱った話題としては,以下のような記事を書いてきた.

 ・ [2009-08-22-1]: フランス借用語の年代別分布
 ・ [2009-08-19-1]: 初期近代英語の借用語の起源と割合
 ・ [2009-06-12-1]: 英語語彙にまつわる数値

 語彙の数値というのは,参照する辞書などのソースを何にするのか,単語の頻度を考慮に入れるのか,などによって調査結果が大きく変わる可能性があり,なかなか難しい.起源言語別で数えるにしても,語源そのものが不詳だったり,フランス語なのかラテン語なのかなどで判断のつかないケースがあったりと,やはり難しい.ただ,予想される通り OEDSOED の情報に基づいた数値が多いようではある.
 今回は,使用されている語彙リストのソース自体は不明なのだが,広く参照される可能性のある Encyclopedia of Linguistics に掲載されている数値を調べてみた.それぞれ "Old English" と "English" の項から関連箇所を引用する.

The recorded vocabulary of OE is estimated at approximately 30,000 words. Only about 3% of these were of non-Germanic origin. (779)


As a result of borrowing, the Gmc word stock is now a low 30% and the Romance one is 50%. (292)


 後者では現代英語の総語彙を対象語彙としているようではあるが,その語数は記されていない.もし OED2 に準拠しているのであれば,定義・例説の与えられている語の数として 615,100 辺りを念頭においているのかもしれない ( see Dictionary facts ) .あるいは,定義されている語源の数である 219,800 辺りを念頭においているのだろうか.不明の点が多いが,現代英語の語彙数として仮に 615,100 という数を採用するとして,古英語と現代英語の語彙とそのなかのゲルマン語彙比率について比べる表を掲げよう.ゲルマン語彙とは,Anglo-Saxon 起源の本来語と(特に現代英語において)Old Norse 起源の借用語を合わせたものが中心になると考えてよいだろう.

 Old EnglishPresent-Day English
vocabulary30,000615,100?
native words (%)9730


 語彙数がざっと20倍,ゲルマン語彙比率が1/3以下になったのだから,語彙体系の激変が起こったといってよい.大語彙推移 ( The Great Vocabulary Shift ) とでも呼びたくなる大変化だ.

 ・ Minkova, Donka. "Old English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 777--80.
 ・ Leitner, Gerhard. "English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 288--94.

[ 固定リンク | 印刷用ページ ]

2010-05-07 Fri

#375. 主要 ENL,ESL 国の人口増加率 [statistics][demography][elf][future_of_english]

 ELF ( English as a Lingua Franca ) あるいは EIL ( English as an International Language ) としての英語の現状と未来を考えるうえで,人口統計は重要な示唆を与えてくれる.Crystal (71) では,2001年における人口統計により主要な ENL 国と ESL 国の人口および直近5年間の人口増加率が示され,前者が減少し後者が増加するという構図が鮮明に浮かび上がった.単純化していえば,英語母語話者の人口が減る一方で英語非母語話者の人口が増えているということであり,今後もこの傾向が続いてゆくとなると,[2009-10-17-1]で示した英語話者の分布において ENL 比率(円グラフの黄色部分)がますます圧迫されてゆくということになる.従来より規範的な変種として認められてきた British English や American English のブランドが,はたしてこの数的な圧迫のもとで今後も維持されてゆくのかどうか.英語の未来にかかわるエキサイティングな問題である.
 Crystal の示した統計はすでに古くなったので,今回は最新版の統計を用いて Crystal と同様の表を作成してみた.ENS 国,ESL 国の詳しいリストは[2009-10-21-1]に掲げたとおりだが,今回は主要国に限った.ENS 国については7カ国(参考までに日本も加えた),ESL 国については原則として2010年年央時において人口2000万人を超える国を対象とした.統計値の典拠は UN, World Population Prospects: The 2008 Revision Population Database だが,これに基づいて作成された便利な表が国立社会保障・人口問題研究所のページから入手できたので,主にこれを利用した.人口の単位は1000人.人口増加率の読み方は,一年間に人口が1%ずつ増加する国は70年後には人口がほぼ2倍になる.

ENL countriespopulation (2010)population growth rate (2005-2010) (%)
USA317,6410.96
UK61,8990.54
South Africa50,4920.98
Canada33,8900.96
Australia21,5121.07
Ireland4,5891.83
New Zealand4,3030.92
Japan (for reference)126,995-0.07

ESL countriespopulation (2010)population growth rate (2005-2010) (%)
India1,214,4641.43
Pakistan184,7532.16
Bangladesh164,4251.42
Nigeria158,2592.33
the Philippines93,6171.82
Egypt84,4741.81
Tanzania45,0402.88
Kenya40,8632.64
Uganda33,7963.27
Nepal29,8531.85
Malaysia27,9141.71
Ghana24,3332.09
Sri Lanka20,4100.88


 ENL 国はいわゆる先進国なので,今後,人口は伸び悩む.一方,ESL 国には開発途上国が多いので,2%を超える増加率も珍しくない.とりわけインド亜大陸の爆発力がものすごいことは,今後の英語の行方に影響を与える可能性が高い ( see [2009-10-07-1] ).

[ 固定リンク | 印刷用ページ ]

2010-05-04 Tue

#372. 国際語としての英語の趨勢についての気になる事実(2005年版) [statistics][elf]

 [2010-01-24-1]の記事でみたように,国際語としての英語という話題では,ELF ( English as a Lingua Franca ) や EIL ( English as an International Language ) という呼称がよく聞かれるようになってきた.英語話者数を始めとする国際語としての英語に関する最新の数値については,Crystal や Graddol がよく引き合いに出される.この種の統計値は最新のものが手に入りにくく,出版されるものは常に数年前のデータというのが普通である.
 今回は,2005年時点でNewsweek が関連記事を掲載しているのをみつけたので,そこから世界英語の趨勢についての気になる事実・統計をいくつか抜き出してみたい.5年後の現在,すでに古くなっている情報もあるかもしれないのであしからず.

 ・ インド国内で英語学習産業は年間1億ドルのビジネスである
 ・ the British Council によると,10年以内に英語学習者数は20億人に達し,英語話者は30億人に達すると見込まれる
 ・ アジアの英語使用数は3億5千万人に達する(←アメリカ,イギリス,カナダの人口の和に相当する数)
 ・ 中国の1億人の子供たちが英語を学んでいる
 ・ インドは英語教師を中国や中東へ輸出し始めている(← [2009-10-07-1]
 ・ 反英語主義と結びつけられることの多いフランスでも,教育大臣が英語必修化に反対したものの,選択必修として96%の生徒がすでに英語を履修している(←事実上の必修科目)
 ・ 世界の電子情報の80%が英語で蓄積されている(← [2010-04-13-1] のイントロクイズで採用した問題.しかし,電子情報における英語の相対頻度は年々減ってきている.いつのデータかは本文内だけでは不明.)
 ・ the British Council によると,世界中の科学者の66%が英語を読む
 ・ 中国は,一部 China English を Standard English に取り込む方向で英語のカリキュラムを検討しつつある

 このような記事だけを読んでいると英語の勢いは止まらないという一方的な印象を受ける.しかし,実際には諸事情で英語の近未来像を明確に想像することは難しい.その諸事情については,Jenkins の著書がよくまとまっている.

 ・ "Not the Queen's English". Newsweek 145. 10. March 7, 2005, 41--45.
 ・ Crystal, David. English As a Global Language. 2nd ed. Cambridge: CUP, 2003.
 ・ Graddol, David. English Next. British Council, 2006. Digital version available at http://www.britishcouncil.org/learning-research-englishnext.htm.44--45.
 ・ Graddol, David. The Future of English? The British Council, 1997. Digital version available at http://www.britishcouncil.org/learning-research-futureofenglish.htm
 ・ Jenkins, Jennifer. World Englishes: A Resource Book for Students. 2nd ed. London: Routledge, 2009.

Referrer (Inside): [2011-04-25-1]

[ 固定リンク | 印刷用ページ ]

2010-04-17 Sat

#355. COLT Word Frequency List による音節数の分布調査 [colt][syllable][lexicology][statistics]

 昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
 BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.

How Many Syllables in Words by COLT Word Frequency List


Rate of n-Syllables at Words Levels by COLT Word Frequency List

Referrer (Inside): [2012-06-30-1] [2011-02-22-1]

[ 固定リンク | 印刷用ページ ]

2010-04-11 Sun

#349. BNC Word Frequency List による音節数の分布調査 (2) [syllable][lexicology][bnc][statistics]

 今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)

Rate of n-Syllables at Words Levels by BNC Word Frequency List

 昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.

 ・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
 ・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
 ・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
 ・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow