hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 次ページ / page 5 (9)

statistics - hellog〜英語史ブログ

最終更新時間: 2024-04-20 10:59

2014-04-11 Fri

#1810. 変異のエントロピー [statistics][entropy][variation][consonant][speed_of_change][language_change][schedule_of_language_change][-ly]

 昨今,エントロピー (entropy) というキーワードをよく聞くようになったが,言語との関連で,この概念が話題にされることはあまりない.本ブログでは,「#838. 言語体系とエントロピー」 ([2011-08-13-1]) をはじめとして,##838,1089,1090,1587,1693 の各記事でこの用語に触れてきたが,まだ具体的な問題に適用したことはなかった.
 エントロピーとは,体系としての乱雑さの度合いを示す指標である.データがいかに一様に散らばっているかを表わす尺度と言い換えてもよい.言語への応用は,Gries (112) が少し触れている.

A simple measure for categorical data is relative entropy Hrel. Hrel is 1 when the levels of the relevant categorical variable are all equally frequent, and it is 0 when all data points have the same variable level. For categorical variables with n levels, Hrel is computed as shown in formula (16), in which pi corresponds to the frequency in percent of the i-th level of the variable:

Relative Entropy Equation


 Gries は,300個の名詞句における冠詞の分布という例を挙げている.無冠詞164例,不定冠詞33例,定冠詞103例という内訳だった場合,Hrel = 0.8556091 となり,かなり不均質な分布を示すことになる.
 ほかに散らばり具合が問題になるケースはいろいろと考えることができる.例えば,注目語句の出現頻度が,テキスト(のジャンル)に応じて一様か否かを測るということもできるだろう.
 また,ある語に異形態や異綴字が認められる場合に,それぞれの変異形 (variants) の分布が均一か不均一かを計測することなどもできる.そのような変異の相対エントロピーが同時代の異なるテキスト(ジャンル)の間でどのくらい異なるのか,あるいは歴史的な関心からは,異なる時代のテキスト(ジャンル)の間でどのくらい異なるのかを,客観的に確かめることができるだろう.標準化その他の過程により,その変異が1つの形へ収斂してゆく場合,エントロピーが減少することになる.
 具体的に考えるために,「#1773. ich, everich, -lich から語尾の ch が消えた時期」 ([2014-03-05-1]) で取り上げた,語尾の ch の脱落のデータを参照しよう.先の記事で Schlüter による集計結果の表を掲げたが,今回は,音声環境 (before V, before <h>, before C) の区別はせず,単純に ME II--ME IV の各時代に現れた変異形のトークン数のみを考慮に入れることにする.各変異形の各時代の Hrel を計算した結果の表を下に示す.

I1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
ich85358970
I3350313972612
Hrel0.22950.99550.045310.0000
EVERY1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
everich-12109
everiche-1230
every-5112152
Hrel-0.94060.35500.1962
-LY1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
-lich10633313
-''liche'6891687044
-ly121910881444
Hrel0.42250.63900.31230.1342


 これの をプロットすると,次のようになる.

Relative Entropy of Variables Diachronically

 1人称単数代名詞主格 I の変異は,集束→発散→集束と推移しており,不安定期 II の突出が目立つ.安定していた体系が急激に乱され,そしてすぐに回復したという推移だ.第I期のデータを欠く every の変異は,I ほどではないものの,同じようにIIからIIIの時期にかけて急激な下落を示す.-ly の変異も,より緩やかではあるが,同時期に同様の下降を表わす.
 Schlüter は,ich, everich, -lich の順で語尾の ch が脱落し,変異の収斂に向かっていったと評価しているが,これは第II期以降のエントロピーの減少率のことを指していると解釈できる.しかし,第I期からの推移も考慮に入れると,I の発散の開始は -ly の発散よりも後のようである.これは,早く始まった変化はゆっくりと進行するのに対し,遅く始まった変化は急速に進行するという,言語変化にしばしば見られるパターンを示唆する.エントロピー曲線の形状でいえば,前者は裾の長い富士山型,後者は先のとがったマッターホルン型ということになる.エントロピーという指標を用いて,言語変化のスピードについて何か一般化できることがあるかもしれない.

 ・ Gries, Stefan Th. Statistics for Linguistics with R: A Practical Introduction. Berlin: Mouton, 2009.
 ・ Schlüter, Julia. "Weak Segments and Syllable Structure in ME." Phonological Weakness in English: From Old to Present-Day English. Ed. Donka Minkova. Basingstoke: Palgrave Macmillan, 2009. 199--236.

[ 固定リンク | 印刷用ページ ]

2014-02-23 Sun

#1763. Shakespeare の作品と言語に関する雑多な情報 [shakespeare][statistics][link][timeline]

 Shakespeare とその作品については,周知の通り,膨大な研究の蓄積がある.年表や統計の類いも多々あるが,Crystal and Crystal から適当に抜粋したものをいくつか載せておきたい.なお,Crystal and Crystal の種々の統計の元になっているデータベースは,Shakespeare's Words よりアクセスできる.その他の Shakespeare 関連のリンクについては,「#195. Shakespeare に関する Web resources」 ([2009-11-08-1]) を参照.

(1) Chronology of works (Crystal and Crystal 6)

1590--91The Two Gentlemen of Verona; The Taming of the Shrew
1591Henry VI Part II; Henry VI Part III
1592Henry VI Part I (perhaps with Thomas Nashe); Titus Andronicus (perhaps with George Peele)
1592--3Richard III; Venus and Adonis
1593--4The Rape of Lucrece
1594The Comedy of Errors
1594--5Love's Labour's Lost
by 1595King Edward III
1595Richard II; Romeo and Juliet; A Midsummer Night's Dream
1596King John
1596--7The merchant of Venice; Henry IV Part I
1597--8The Merry Wives of Windsor; Henry IV Part II
1598Much Ado About Nothing
1598--9Henry V
1599Julius Caesar
1599--1600As You Like It
1600--1601Hamlet; Twelfth Night
by 1601The Phoenix and Turtle
1602Troilus and Cressida
1593--1603The Sonnets
1603--4A Lover's Complaint; Sir Thomas More; Othello
1603Measure for Measure
1604--5All's Well that Ends Well
1605Timon of Athens (with Thomas Middleton)
1605--6King Lear
1606Macbeth (revised by Middleton); Antony and Cleopatra
1607Pericles (with George Wilkins)
1608Coriolanus
1609The Winter's Tale
1610Cymbeline
1611The Tempest
1613Henry VIII (with John Fletcher); Cardenio (with John Fletcher)
1613--14The Two Noble Kinsmen (with John Fletcher)


(2) Top ten content words (Crystal and Crystal 153)

good3995
lord3164
man3091
love3047
sir2548
know2252
give2114
think/thought1911
king1680
speak1626


(3) Poetry or prose (Crystal and Crystal 165)

Poetry (%)No. of linesProse (%)No. of linesPlay
100275200Richard II
100256900King John
100249300King Edward III
99.728920.38Henry VI Part III
99.526640.514Henry VI Part I
98.624791.435Titus Andronicus
97.635172.485Richard III
97.427352.674Henry VIII
94.526415.5154The Two Noble Kinsmen
93.519486.5135Macbeth
90.122089.9244Julius Caesar
89.8271810.2308Antony and Cleopatra
86.9261013.1393Romeo and Juliet
86.6154313.4239The Comedy of Errors
85.2280814.5487Cymbeline
83.7258016.3503Henry VI Part II
81.2190318.8441Pericles
80.6207619.4498The Taming of the Shrew
80.6171319.4413A Midsummer Night's Dream
80.4259919.6633Othello
78.6202521.4551The Merchant of Venice
77.2257122.8760Coriolanus
76.5156923.5481The Tempest
73.2218126.8800The Winter's Tale
73.1234526.9865King Lear
73.1170726.9627Timon of Athens
73.1161326.9595The Two Gentlemen of Verona
71.5274228.51092Hamlet
66.4225033.61137Troilus and Cressida
64.2171635.8955Love's Labour's Lost
60.6163439.41062Measure for Measure
60.5194339.51269Henry V
55.6166644.41332Henry IV Part I
51.6144748.41356All's Well that Ends Well
47.6154752.41700Henry IV Part II
47.4127652.61415As You Like It
38.294961.81532Twelfth Night
28.373971.71871Much Ado About Nothing
12.533887.52370The Merry Wives of Windsor


(4) How long are the plays? (Crystal and Crystal 139)

Total linesTotal wordsPlayFirst FolioRiverside
383429,844Hamlet39064042
360228,439Richard III38873667
338725,730Troilus and Cressida35923531
333126,479Coriolanus38383752
329526,876Cymbeline38193707
324725,737Henry IV Part II33503326
323226,003Othello36853551
321225,623Henry V33813297
321025,341King Lear33023487
308324,490Henry VI Part II33553130
302623,726Antony and Cleopatra36363522
300324,023Romeo and Juliet31853099
299824,126Henry IV Part I31803081
298124,597The Winter's Tale33693348
290023,318Henry VI Part III32172915
280923,333Henry VIII34633221
280322,537All's Well that Ends Well30783013
279523,388The Two Noble Kinsmennot in3261
275221,884Richard II28492796
270821,290The Merry Wives of Windsor27292891
269621,269Measure for Measure29382891
269121,477As You Like It27962810
267820,541Henry VI Part I29312695
267120,881Love's Labour's Lost29002829
261020,767Much Ado About Nothing26842787
257620,911The Merchant of Venice27372701
257420,552The Taming of the Shrew27502676
256920,472King John27292638
251419,888Titus Andronicus27082538
249319,406King Edward IIInot innot in
248119,592Twelfth Night25792591
245219,149Julius Caesar27302591
234417,728Periclesnot in2459
233417,796Timon of Athens26072488
220816,936The Two Gentlemen of Verona22982288
212616,305A Midsummer Night's Dream22222192
208316,372Macbeth25292349
205016,047The Tempest23412283
178214,415The Comedy of Errors19181787


(5) Using you and thou (Crystal and Crystal 126)

You-formsThou-forms
you14,244thou5,942
ye352thee3,444
your6,912thy4,429
yours260thine510
yourself289thyself251
yourselves74  
Total22,131 14,576


 ・ Crystal, David and Ben Crystal. The Shakespeare Miscellany. Woodstock & New York: Overlook, 2005.

[ 固定リンク | 印刷用ページ ]

2013-11-09 Sat

#1657. アメリカの英語公用語化運動 [sociolinguistics][language_planning][statistics][bilingualism][linguistic_right]

 アメリカにもイギリスにも法律で定めた公用語というものはない.英語が事実上の公用語であることは明らかだが,まさに事実上そうであるという理由で,特に法律で明記する必要がないのである.いや,正確には,これまでは必要がなかったと言うべきだろう.1980年代以降,アメリカでは英語公用語化運動が繰り広げられてきた.
 背景には,英語を話さないアメリカ人の増加という事情がある.U.S. Census Bureau の統計によると,5歳以上のアメリカ人で,英語がまったく話せない,あるいはうまく話せない人の数が,1980年では全人口の2%だったが,1990年では2.9%と増加し,最新の2011年のデータ (PDF)では4.65%に達している.ある試算によると2050年には6%に達するのではないかとも言われる.(Language Use - U.S. Census Bureau の各種統計を参照.)
 アメリカでは1968年の2言語教育法の制定により,非英語話者が教育上不利にならないような配慮がなされてきた.非英語話者の子供には英語を学ぶ機会が必ず与えられるし,政府刊行物,公共の案内,運転免許の筆記試験などで英語以外の言語を選ぶこともできる.しかし,この言語政策には莫大な予算がかかる.さらに,国家統合の問題にもかかわる.増加する国民の英語離れは,アメリカが国家としての重要な求心力を失い始めている徴候ではないかと考える人々がいてもおかしくない.こうして,英語公用語論争が始まった.
 連邦政府レベルで英語公用語運動が始まったのは,1981年である.カナダ生まれの日系人で言語学者であり連邦上院議員の S. I. Hayakawa が,英語を公用語とする修正条項を憲法に付加することを提案した.この提案は退けられたが,州レベルでは運動は続けられることになった.Nebraska, Illinois, Virginia, Indiana, Kentucky, Tennessee の6州で英語を公用語とする法律が成立したのに続き,1986年に California で英語公用語化法案 Proposition 63 が住民投票の結果,通された.メディアなどの前評判を覆して,賛成票73%での法案成立だった.それまでの他州での法案が実質的というよりは象徴的な意味合いをもつにすぎなかったのに対して,California Proposition 63 (or the English Is the Official Language of California Amendment) はより踏み込んだ法案となっていた.以下,抜粋しよう.

English is the common language of the people of the United States of America and of the State of California. . . . The legislature and officials of the State of California shall take all steps necessary to insure that the role of English as the common language of the State of California is preserved and enhanced. . . . Any person who is a resident of, or does business in the State of California shall have standing to sue the State of California to enforce this section . . .


 この法案は,州政府に英語公用語化に向けてあらゆる措置を取らせる権限を与え,州民に英語公用語化に抵触する事態に面したときに起訴権を与えるというものである.さらにこの法案に特異なのは,US English という団体を中心とした一般州民の要望による住民投票で可決したという点である.
 その後も,Arizona, Colorado, Florida などでも運動は成功したが,特に Arizona Proposition 106 はさらに突っ込んだ内容となっている."As the official language of this State, the English language is the language of the ballot, the public schools and all government functions and actions."
 US English のような団体に反対する団体も現れている.English Plus Information Clearinghouse (EPIC) では,English Only ではなく English Plus の思想を打ち出し,言語権の擁護を訴えている.
 以上,東 (197--205) を参照して執筆した.関連して,「#256. 米国の Hispanification」 ([2010-01-08-1]) を参照.

 ・ 東 照二 『社会言語学入門 改訂版』,研究社,2009年.

[ 固定リンク | 印刷用ページ ]

2013-10-28 Mon

#1645. 現代日本語の語種分布 [japanese][lexicology][statistics][etymology][loan_word][lexical_stratification]

 英語語彙の語種別の割合について,これまで多くの記事で各種統計を示してきた.

 ・ [2012-09-03-1]: 「#1225. フランス借用語の分布の特異性」
 ・ [2012-08-11-1]: 「#1202. 現代英語の語彙の起源と割合 (2)」
 ・ [2012-01-07-1]: 「#985. 中英語の語彙の起源と割合」
 ・ [2011-09-18-1]: 「#874. 現代英語の新語におけるソース言語の分布」
 ・ [2011-08-20-1]: 「#845. 現代英語の語彙の起源と割合」
 ・ [2010-12-31-1]: 「#613. Academic Word List に含まれる本来語の割合」
 ・ [2010-06-30-1]: 「#429. 現代英語の最頻語彙10000語の起源と割合」
 ・ [2010-05-16-1]: 「#384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する」
 ・ [2010-03-02-1]: 「#309. 現代英語の基本語彙100語の起源と割合」
 ・ [2009-11-15-1]: 「#202. 現代英語の基本語彙600語の起源と割合」
 ・ [2009-11-14-1]: 「#201. 現代英語の借用語の起源と割合 (2)」
 ・ [2009-08-19-1]: 「#114. 初期近代英語の借用語の起源と割合」
 ・ [2009-08-15-1]: 「#110. 現代英語の借用語の起源と割合」

 「#334. 英語語彙の三層構造」 ([2010-03-27-1]),「#335. 日本語語彙の三層構造」 ([2010-03-28-1]),「#1526. 英語と日本語の語彙史対照表」 ([2013-07-01-1]) で見たように,英語と日本語の語彙は比較される歴史をたどってきており,結果として現代の共時的な語彙構成にも共通点が見られる.今回は,現代英語との比較のために,現代日本語の語種別の割合をみよう.一般的にこの種の語彙統計を得るのは難しいが,『日本語百科大事典』 (420--21) に拠りながら3種の調査結果の概観を示す.

 (1) 明治から昭和にかけての3種の国語辞典『言海』(明治22年;1889年),『例解国語辞典』(昭和31年;1956年),『例解国語辞典』(昭和44年;1969年)の収録語を語種別に数えた研究がある.総語数は,『言海』39,103,『例解国語辞典』40,393,『角川国語辞典』60,218 である.以下に割合を示す表と図を示そう.

明治から昭和にかけての国語辞典調査

和語漢語外来語混種語
『言海』55.8%34.71.48.1
『例解国語辞典』36.653.63.56.2
『角川国語辞典』37.152.97.82.2


 時代が進むにつれて,和語に対する漢語と外来語の割合が高まってきているのがわかる.昭和では,1/2強が漢語,1/3強が和語という割合だ.

 (2) 現代の書きことばについては,国立国語研究所の『現代雑誌九十種の用語用字』調査のデータがよく参照される.昭和31年(1956年)の雑誌から,助詞,助動詞,固有名詞を除いて語彙を収集したものである.得られた語彙は,異なり語数で30,331,延べ語数で411,972.21世紀の現在から見ると古いデータではあるが,質において比肩する新しい調査は行われていない.

『現代雑誌九十種の用語用字』調査

和語漢語外来語混種語
異なり語数36.7%47.59.86.0
延べ語数53.941.32.91.9


 異なり語数と延べ語数では数値がかなり異なっており,特に和語と漢語の順位が入れ替わっているのが注目に値する.

 (3) 現代の話しことばの調査としては,知識層を対象としたものがある.日本語教育および語学関係の研究者7人とその話し相手の会話を延べ42時間分録音し,分析したものである.異なり語数は4,617で,延べ語数は64,023.

現代話しことば調査

和語漢語外来語混種語
異なり語数46.9%40.010.13.0
延べ語数71.823.63.21.4


 話しことばでは,書きことばと異なり,異なり語数と延べ語数の間で和漢語の順位入れ替えはない.いずれの数え方でも和語の割合が最も多いが,とりわけ延べ語数では和語が圧倒している.
 この話しことばの調査では,公的な場面や私的な場面など場面別に分析がなされたが,全体的な傾向として,和語は (1) 私的な場面でのほうが多い,(2) 延べ語数でのほうが多い,(3) 使用頻度の高い語ほど多い,(4) 話し言葉でのほうが多い,という結果が出た.私的な話しことばで高頻度に用いられる語は,和語である確率が最も高いということになる.この結果は直感と一致するだろう.
 英語においても本来語は「私的な場面の話しことばで高頻度に用いられる」確率が高いと想像されるが,これについては統計は見たことはなく,今後,実証してゆく必要があるかもしれない.

 ・ 『日本語百科大事典』 金田一 春彦ほか 編,大修館,1988年.

[ 固定リンク | 印刷用ページ ]

2013-09-05 Thu

#1592. 英語話者の人口を推計することが難しい理由 [statistics][demography][post-creole_continuum]

 昨日の記事「#1591. Crystal による英語話者の人口」 ([2013-09-04-1]) で,Crystal による2001年付けでの英語話者人口の推計を示した.Crystal (69) の脚注に,最近の他の研究者による推計が触れられている.

It is interesting to compare estimates for first (L1), second (L2) and foreign (F) language use over the past 40 years.
-- in Quirk (1962: 6) the totals for first (L1), second (L2) and foreign (F) were 250 (L1) and 100 (L2/F);
-- during the 1970s these totals rose to 300 (L1), 300 (L2) and 100 (F) (cf. McArthur (1922: 355));
-- Kachru (1985: 212) has 300 (L1), 300--400 (L2) and 600--700 (F);
-- Ethnologue (1988) and Bright (1992: II.74), using a Time estimate in 1986, have 403 (L1), 397 (L2) and 800 (F);
-- during the 1990s the L1 and L2 estimates rise again, though with some variation. The Columbia Encyclopedia (1993) has 450 (L1), 400 and 850 (F). Ethnologue (1992), using a World Almanac estimate in 1991, has 450 (L1) and 350 (L2).


 それぞれの推計の変動幅は決して小さくはなく,どれを信用すべきか迷うところだ.様々な推計の平均値をとるという方法も,1つの便宜的な方法かもしれない.
 この種の人口統計はある程度の不確かさを伴うのが常だが,とりわけ英語話者数というような統計には多くの困難がついてまわる.その理由を挙げてみよう.

 (1) この目的のために世界的な規模で利用できる統計がない (Crystal 61) .
 (2) 昨日の Crystal の推計に関連して触れたように,主として Expanding Circle に属する EFL 話者の数を正確に把握することはとりわけ難しい.例えば,21世紀初頭において,世界的に英語学習者の増加率が高まってきていることは確かだが,具体的にどの程度の増加率かを正確に言い当てる直接的な方法はない.
 (3) 人口統計においても英語話者を ENL, ESL, EFL と区分するモデルが用いられることが多いが,その境目がはっきりしない.また,それぞれの国・地域が上記のいずれかの区分に当てはまるという前提が立てられているが,実際には両者は厳密に対応しないことも多い.ENL と ESL の国・地域では,英語が "special place" を占めていることが前提とされているが,"special place" とは実際の英語使用度や理解度によってではなく歴史的・政治的な要因によって与えられるものにすぎない.
 (4) 「英語を話せる」レベルをどこに設定するか,客観的な基準がない.レベルを下げれば ESL や EFL の話者が数億人単位で増えるし,レベルを上げれば話者数は減る.
 (5) どの変種を英語の一種とみなすかについて合意がない.ピジン英語やクレオール英語は英語の一種としてみなすべきだろうか.相互理解可能性を問題にするのであれば,多くのピジン英語やクレオール英語は英語でないという結論になりそうだが,「#1499. スカンジナビアの "semicommunication"」 ([2013-06-04-1]) でも触れたように,理解度は言語的な距離のほかに話し手と聞き手の態度も大きく影響する.また,「#385. Guyanese Creole の連続体」 ([2010-05-17-1]) で触れた post-creole continuum のように,どこからが標準変種でどこからがピジン・クレオール変種なのかが判然としない例もある.

 ・ Crystal, David. English As a Global Language. 2nd ed. Cambridge: CUP, 2003.

Referrer (Inside): [2016-12-09-1]

[ 固定リンク | 印刷用ページ ]

2013-09-04 Wed

#1591. Crystal による英語話者の人口 [statistics][demography][enl][esl][efl][elf][new_englishes][pidgin][creole]

 昨日の記事で扱った「#1590. アジア英語の諸変種」 ([2013-09-03-1]) から世界の英語変種へ目を広げると,それこそおびただしい English varieties が,今現在,発展していることがわかる.英語変種の数ばかりでなく英語変種の話者の数もおびただしく,「#397. 母語話者数による世界トップ25言語」 ([2010-05-29-1]) の記事の終わりで触れたように,母語話者数と非母語話者を足し合わせると,英語は世界1の大言語となる.英語話者人口の過去,現在,未来については,以下の記事で扱ってきた.

 ・ 「#319. 英語話者人口の銀杏の葉モデル」 ([2010-03-12-1])
 ・ 「#427. 英語話者の泡ぶくモデル」 ([2010-06-28-1])
 ・ 「#933. 近代英語期の英語話者人口の増加」 ([2011-11-16-1])
 ・ 「#173. ENL, ESL, EFL の話者人口」 ([2009-10-17-1])
 ・ 「#375. 主要 ENL,ESL 国の人口増加率」 ([2010-05-07-1])
 ・ 「#759. 21世紀の世界人口の国連予測」 ([2011-05-26-1])
 ・ 「#414. language shift を考慮に入れた英語話者モデル」 ([2010-06-15-1])

 現在の世界における英語話者人口を正確に把握することは難しい.Crystal (61, 65--67) で述べられているように,この種の人口統計には様々な現実的・理論的な制約が課されるからだ.Crystal (62--65) は,その制約のなかで2001年現在の英語人口を推計した.近年,最もよく引き合いに出される英語話者の人口統計である.

TerritoryL1L2Population (2001)
American Samoa2,00065,00067,000
Antigua & Barbuda*66,0002,00068,000
Aruba9,00035,00070,000
Australia14,987,0003,500,00018,972,000
Bahamas*260,00028,000298,000
Bangladesh 3,500,000131,270,000
Barbados*262,00013,000275,000
Belize*190,00056,000256,000
Bermuda63,000 63,000
Botswana 630,0001,586,000
British Virgin Islands*20,000 20,800
Brunei10,000134,000344,000
Cameroon* 7,700,00015,900,000
Canada20,000,0007,000,00031,600,000
Cayman Islands*36,000 36,000
Cook Islands1,0003,00021,000
Dominica*3,00060,00070,000
Fiji6,000170,000850,000
Gambia* 40,0001,411,000
Ghana* 1,400,00019,894,000
Gibraltar28,0002,00031,000
Grenada*100,000 100,000
Guam58,000100,000160,000
Guyana*650,00030,000700,000
Hong Kong150,0002,200,0007,210,000
India350,000200,000,0001,029,991,000
Ireland3,750,000100,0003,850,000
Jamaica*2,600,00050,0002,665,000
Kenya 2,700,00030,766,000
Kiribati 23,00094,000
Lesotho 500,0002,177,000
Liberia*600,0002,500,0003,226,000
Malawi 540,00010,548,000
Malaysia380,0007,000,00022,230,000
Malta13,00095,000395,000
Marshall Islands 60,00070,000
Mauritius2,000200,0001,190,000
Micronesia4,00060,000135,000
Montserrat*4,000 4,000
Namibia14,000300,0001,800,000
Nauru90010,70012,000
Nepal 7,000,00025,300,000
New Zealand3,700,000150,0003,864,000
Nigeria* 60,000,000126,636,000
Northern Marianas*5,00065,00075,000
Pakistan 17,000,000145,000,000
Palau50018,00019,000
Papua New Guinea*150,0003,000,0005,000,000
Philippine$20,00040,000,00083,000,000
Puerto Rico100,0001,840,0003,937,000
Rwanda 20,0007,313,000
St Kitts & Nevis*43,000 43,000
St Lucia*31,00040,000158,000
St Vincent & Grenadines*114,000 116,000
Samoa1,00093,000180,000
Seychelles3,00030,00080,000
Sierra Leone*500,0004,400,0005,427,000
Singapore350,0002,000,0004,300,000
Solomon Islands*10,000165,000480,000
South Africa3,700,00011,000,00043,586,000
Sri Lanka10,0001,900,00019,400,000
Suriname*260,000150,000434,000
Swaziland 50,0001,104,000
Tanzania 4,000,00036,232,000
Tonga 30,000104,000
Trinidad & Tobago*1,145,000 1,170,000
Tuvalu 80011,000
Uganda 2,500,00023,986,000
United Kingdom58,190,0001,500,00059,648,000
UK Islands (Channel, Man)227,000 228,000
United States215,424,00025,600,000278,059,000
US Virgin Islands*98,00015,000122,000
Vanuatu*60,000120,000193,000
Zambia110,0001,800,0009,770,000
Zimbabwe250,0005,300,00011,365,000
Other dependencies20,00015,00035,000
Total329,140,800430,614,5002,236,730,800


 * の付いている国・地域は,標準英語ではなく pidgin/creole 英語が主として話されている国・地域である.pidgin/creole 変種を英語の一種とみなすか否かは論争の的となっているので,立場に応じて数値を足し引きされたい(具体的には,L1 で主として西インド諸島の約700万人が,L2 で主として西アフリカの約8,000万人が関与する).また,L1 および L2 の人口は原則として少なめの推計とみてよい.さらにこの表には,「#217. 英語話者の同心円モデル」 ([2009-11-30-1]) の図でいうところの Expanding Circle の国・地域は含まれていないことにも注意されたい.
 上で挙げた国・地域については,「#177. ENL, ESL, EFL の地域のリスト」 ([2009-10-21-1]) および「#215. ENS, ESL 地域の英語化した年代」 ([2009-11-28-1]) も参照.

 ・ Crystal, David. English As a Global Language. 2nd ed. Cambridge: CUP, 2003.

[ 固定リンク | 印刷用ページ ]

2013-05-14 Tue

#1478. 接頭辞と接尾辞 [affix][prefix][suffix][word_formation][morphology][lexicology][statistics][derivation]

 今回は現代英語の接辞添加 (affixation) に関する一般的な話題.現代英語の語形成において利用される主たる接頭辞 (prefix) と接尾辞 (suffix) を,Quirk et al. (1539--58) にしたがい,接頭辞,接尾辞の順に列挙する.以下のリストでは,同一接辞の異形態も別々に挙げられているが,接頭辞,接尾辞ともにおよそ50個を数える.

A-, AN-, ANTI-, ARCH-, AUTO-, BE-, BI-, CO-, CONTRA-, COUNTER-, DE-, DEMI-, DI-, DIS-, EM-, EN-, EX-, EXTRA-, FORE-, HYPER-, IN-, INTER-, MAL-, MINI-, MIS-, MONO-, MULTI-, NEO-, NON-, OUT-, OVER-, PALEO-, PAN-, POLY-, POST-, PRE-, PRO-, PROTO-, PSEUDO-, RE-, SEMI-, SUB-, SUPER-, SUR-, TELE-, TRANS-, TRI-, ULTRA-, UN-, UNDER-, UNI-, VICE-


-(I)AN, -ABLE, -AGE, -AL, -ANT, -ATE, -ATION, -DOM, -ED, -EE, -EER, -EN, -ER, -ERY, -ESE, -ESQUE, -ESS, -ETTE, -FUL, -FY, -HOOD, -IAL, -IC, -ICAL, -IFY, -ING, -IOUS, -ISH, -ISM, -IST, -ITE, -ITY, -IVE, -IZE (-ISE), -LESS, -LET, -LIKE, -LING, -LY, -MENT, -NESS, -OCRACY, -OR, -OUS, -RY, -SHIP, -STER, -WARD(S), -WISE, -Y


 同じく Quirk et al. にしたがい,意味や機能によるこれらの接辞の大雑把な分類を別ページに示したので,そちらも参照.
 Crystal (150) によれば,OED による見出し語サンプル調査の結果,これらの100を少し超えるほどの接頭辞,接尾辞のいずれかが,英語語彙全体の40--50%に現われるという.接辞添加が現代英語の新語形成の主たる手段であることは,「#873. 現代英語の新語における複合と派生のバランス」 ([2011-09-17-1]),「#875. Bauer による現代英語の新語のソースのまとめ」 ([2011-09-19-1]),「#878. Algeo と Bauer の新語ソース調査の比較」([2011-09-22-1]),「#879. Algeo の新語ソース調査から示唆される通時的傾向」([2011-09-23-1]) などで再三触れてきたが,歴史的に蓄積されてきた英語語彙全体をみても,やはり接辞添加の役割は非常に大きいということがわかる.

 ・ Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. A Comprehensive Grammar of the English Language. London: Longman, 1985.
 ・ Crystal, David. The Stories of English. London: Penguin, 2005.

[ 固定リンク | 印刷用ページ ]

2013-04-06 Sat

#1440. 音節頻度ランキング [syllable][corpus][lexicon][phonetics][frequency][statistics]

 「#1424. CELEX2」 ([2013-03-21-1]) で紹介した巨大データベースで何かしてみようと考え,Version 2 で新たに加えられた音節頻度 (English Frequency, Syllables) のサブデータベースにより,現代英語で最も多い音節タイプのランキングを得た.
 これは,CELEX2 のもとになっているコーパス全体のうち,7.26%を構成する約130万語の話し言葉サブコーパスから引き出された音節頻度であり,タイプ頻度ではなくトークン頻度によるものである.つまり,話し言葉におけるある単語の頻度が高ければ,その分,その単語に含まれる音節タイプの頻度も高くなるということである.例えば,of を構成する "Ov" (= /ɒv/) と表現される音節は,第4位の頻度である.なお,強勢の有無は考慮せずに頻度を数えている.
 以下のリストに挙げる音素表記は,IPA ではなく CELEX 仕様の独特の表記なので,先に対応表を挙げておこう.

CELEX2 Phonetic Character Set

 では,以下にランキング表でトップ50位までを掲載する.高頻度の単音節語の音節タイプがそのまま上位に反映されていて,あまりおもしろい表ではないが,何かの役に立つときもあるかもしれない.

RankSyllableFrequency
1eI72971
2Di:60967
3tu:31446
4Ov30108
5In29906
6&nd28709
7aI23822
8lI19728
9@19566
10rI14356
11ju:12598
12dI12465
13D&t12118
14It11504
15wOz10834
16fO:r*9778
17Iz9517
18tI9161
19fO9042
20Sn,8969
21hi:8928
22r@n8638
23bi:8505
24bI7936
25nI7068
26wID7046
27On7030
28&z6919
29O:l6569
30h&d6240
31E6165
32bl,6021
33sI5836
34@U5824
35t@r*5687
36&t5652
37hIz5564
38bVt5416
39mI5397
40s@5391
41nOt5357
42D@r*5339
43I5283
44tId5259
45DeI5162
46IN5063
47t@5053
48s@U4974
49baI4894
50h&v4769


 全ランキング表を見たい方は,タブ区切り形式で Syllable Frequency Rank Table by CELEX2 を参照.ブラウザ上で閲覧したい方は,こちらからどうぞ.全体としては11492の異なる音節タイプが登録されており,頻度が1以上のものは7934タイプある.「#1023. 日本語の拍の種類と数」 ([2012-02-14-1]) の最後で,英語の音節タイプが日本語に比べて驚くほど多種多様であることに触れたが,この数をみれば納得できるだろう.関連して,syllable の各記事を参照.
 なお,CELEX2 のマニュアルには以下の但し書きが記されていたので,再掲しておく.

Please note that the English corpus used by CELEX for deriving these frequencies contains only 7.3% spoken material. This means there is a rather tenuous relationship between the full frequency figures, which are based on written forms, and the syllable frequencies, which merely refer to phonemic conversions of these graphemic transcriptions. Of course it could be argued that frequencies of syllables, as lexical sub-units, are less liable to get skewed from differences in medium than full words, but it has to be taken into account that NO FIRM EVIDENCE ABOUT SPOKEN FREQUENCIES can be derived from these data.

Referrer (Inside): [2019-07-03-1]

[ 固定リンク | 印刷用ページ ]

2013-03-21 Thu

#1424. CELEX2 [corpus][dictionary][statistics][frequency][lexicology]

 英単語の頻度に関連する諸研究(Betty Phillips など)で,CELEX という語彙データベースが使用されているのを見かけることがある.現在取りかかっている研究で,巨大コーパスに基づいた信頼できる語彙頻度統計が必要になったので,郵送料込みで350ドルするこの高価なデータベースを入手してみた.現行版は第2版であり,CELEX2 として購入できる.(なお,予想していなかったが,入手した CD-ROM には,LDC99T42 というデータベースも含まれていた.ここには tagged Brown Corpus, Wall Street Journal, Switchboard tagged など Treebank 系のコーパスが入っている.)
 さて,CELEX2 には,英語語彙に関する複数のデータベースが納められている.それぞれのデータベースには,正書法,音韻,音節,形態,統語の各観点から,見出し語 (lemma) あるいは語形 (wordform) ごとに,ソース・コーパス内での頻度等の情報が格納されている.具体的には,次の11のデータベースが利用可能である.

 ect (English Corpus Types)
 efl (English Frequency, Lemmas)
 efs (English Frequency, Syllables)
 efw (English Frequency, Wordforms)
 eml (English Morphology, Lemmas)
 emw (English Morphology, Wordforms)
 eol (English Orthography, Lemmas)
 eow (English Orthography, Wordforms)
 epl (English Phonology, Lemmas)
 epw (English Phonology, Wordforms)
 esl (English Syntax, Lemmas)

 見出し語あるいは語形ごとの token 頻度の取り出しに強いデータベースという認識で購入したが,実際には,含まれている情報の種類は驚くほど豊富で,11のデータベースすべてを合わせたフィールド数はのべ250以上に及ぶ.行数は efl で52,447行,efw で160,595行という巨大さだ.検索用の SQLite DB をこしらえたら,容量にして90MBを超えてしまった.
 CELEX2 のソースは,辞書情報については Oxford Advanced Learner's Dictionary (1974) 及び Longman Dictionary of Contemporary English (1978) であり,頻度情報については 1790万語からなる COBUILD/Birmingham corpus である.このコーパスの構成は,1660万語 (92.74%) が書き言葉コーパス,130万語 (7.26%) が話し言葉コーパスで,前者を構成する284テキストのうち44テキスト (15.49%) がアメリカ英語である.しかし,これらのアメリカ英語はほとんどがイギリス英語の綴字に直されていることに注意したい.
 CELEX2 における "lemma" の定義は,以下の5点に依存する.

 (1) orthography of the wordforms: peek vs peak
 (2) syntactic class: meet (adj.) vs meet (adv.)
 (3) inflectional paradigm: water (v.) vs water (n.)
 (4) morphological structure: rubber (someone or something that rubs) vs rubber (the elastic substance)
 (5) pronunciation of the wordforms: recount [ˈriː-kaʊnt] vs recount [rɪ-ˈkaʊnt]

 したがって,通常異なる lexeme として扱われる bank (土手)と bank (銀行)などは,CELEX2 では同一の lemma として扱われているので注意が必要である.
 このように CELEX2 は非常に強力な語彙頻度データベースだが,その他にも語彙頻度研究に資するデータベースやツールは存在する.本ブログで触れたものとしては,frequency statistics lexicology の各記事や,特に以下の記事が参考になるだろう.

 ・ 「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1])
 ・ 「#607. Google Books Ngram Viewer」 ([2010-12-25-1])
 ・ 「#708. Frequency Sorter CGI」 ([2011-04-05-1])
 ・ 「#1159. MRC Psycholinguistic Database Search」 ([2012-06-29-1])

 ・ Baayen R. H., R. Piepenbrock and L. Gulikers. CELEX2. CD-ROM. Philadelphia: Linguistic Data Consortium, 1996.

[ 固定リンク | 印刷用ページ ]

2013-01-31 Thu

#1375. インターネットの使用言語トップ10 [elf][statistics][internet][demography][world_languages]

 世界のインターネット使用が爆発的に増加している.Miniwatts Marketing Group による Internet World Stats: Usage and Population Statistics から Internet World Users by Language: Top 10 Languages のデータを参照すると,2000--2011年のあいだに全世界での使用者数が約5倍増えたと報告されている.では,インターネットの使用言語の分布についてはどうか.同ページより,インターネットにおけるトップ10言語の統計値を再掲しよう.2011年5月31日現在の数値である.

TOP TEN LANGUAGES IN THE INTERNETInternet Users by LanguageInternet Penetration by LanguageGrowth in Internet (2000--2011)Internet Users% of TotalWorld Population for this Language (2011 Estimate)
English565,004,12643.4%301.4%26.8%1,302,275,670
Chinese509,965,01337.2%1,478.7%24.2%1,372,226,042
Spanish164,968,74239.0%807.4%7.8%423,085,806
Japanese99,182,00078.4%110.7%4.7%126,475,664
Portuguese 82,586,60032.5% 990.1%3.9%253,947,594
German75,422,67479.5%174.1%3.6%94,842,656
Arabic65,365,40018.8% 2,501.2%3.3%347,002,991
French59,779,52517.2%398.2%3.0%347,932,305
Russian59,700,00042.8%1,825.8%3.0%139,390,205
Korean39,440,00055.2% 107.1%2.0%71,393,343
TOP 10 LANGUAGES1,615,957,33336.4%421.2%82.2%4,442,056,069
Rest of the Languages350,557,48314.6%588.5%17.8%2,403,553,891
WORLD TOTAL2,099,926,96530.3% 481.7%100.0%6,930,055,154


 トップの言語は,いまだ英語である.トップを守っているという点では,「#1084. 英語の重要性を示す項目の一覧」 ([2012-04-15-1]) で見た通り,1980--90年代の状況と異ならない.しかし,増加率という点では,おそらく当時の勢いから大きく減退している.少なくとも,中国語,スペイン語,ポルトガル語,アラビア語,ロシア語などと比べて相対的に勢いは衰えているといえる([2009-10-08-1]の記事「#164. インターネットの非英語化」を参照).インターネット使用者数そのものでみれば,英語は早晩中国語に抜かれることは間違いないが,第3位のスペイン語との間にはまだ隔たりがある.現在は,英中ツートップの時代といえそうだ.
 なお,最右列の言語話者の人口統計は U.S. Census Bureau に基づくものだというが,そこでは英語話者人口が約13億7千万とされている.これは,母語話者のみならず第2言語話者も含めた値であることは疑いない.
 第2列と最右列の下の3行をみると,いかに少数の言語が世界の大部分を占めているかがわかる.関連して,「#274. 言語数と話者数」 ([2010-01-26-1]) のピラミッド状の分布を参照されたい.
 ほかに英語話者人口にまつわる統計は,本ブログ内の以下の記事でも触れているので,参考までに.

 ・ 「#375. 主要 ENL,ESL 国の人口増加率」 ([2010-05-07-1])
 ・ 「#397. 母語話者数による世界トップ25言語」 ([2010-05-29-1])
 ・ 「#759. 21世紀の世界人口の国連予測」 ([2011-05-26-1])

Referrer (Inside): [2015-07-08-1]

[ 固定リンク | 印刷用ページ ]

2013-01-02 Wed

#1346. 付加疑問はどのくらいよく使われるか? [interrogative][tag_question][ame_bre][corpus][frequency][statistics]

 現代英語の会話では,付加疑問がよく使われる.だが,具体的にどのくらいよく使われるのだろうか.そもそも一般的に疑問文はどのくらいの頻度で生起するのか.そのなかで,付加疑問はどれくらいの割合を占めるのか.このような疑問を抱いたら,まず当たるべきは Biber et al. の LGSWE である.
 最初の問題については,p. 211 に解答が与えられている.疑問符の数による粗い調査だが,CONV(ERSATION) では40語に1つ疑問符が含まれているという.会話コーパスでは,転写上,疑問符が控えめに反映されている可能性が高く,実際には数値以上の頻度で疑問文が生起しているはずである.テキストタイプでいえば,次に大きく差を開けられて FICT(ION) が続き,NEWS と ACAD(EMIC) では疑問文の頻度は限りなく低い.
 次に,各サブコーパスにおいて,疑問文全体における付加疑問の生起する割合はどのくらいか.p. 212 に掲載されている統計結果を以下のようにまとめた.各列を縦に足すと100%となる表である.

(* = 5%; ~ = less than 2.5%)CONVFICTNEWSACAD
independent clausewh-question******************************
yes/no-question************************
alternative question~~~~
declarative question***~~
fragmentswh-question******
other********
tagpositive*~~~
negative*****~~


 CONV において付加疑問の生起比率が高いことは当然のように予測されたが,同サブコーパスの疑問表現全体のなかで25%を占めるということは発見だった.そのなかでも,肯定の is it? よりも否定の isn't it? のタイプのほうがずっと多い.また,FICT が CONV におよそ準ずる分布を示すのは,フィクション内の会話部分の貢献だろう.一方,NEWS と ACAD で付加疑問の比率が低いのは,この表現と対話との結びつきを強く示唆するものである.また,この2つのサブコーパスでは,完全な独立節での疑問文,特に wh-question が相対的に多いのが注意を引く.
 付加疑問の生起比率に関心をもったのは,実は,Schmitt and Marsden (192) に次のような記述を見つけたからだった.

Tag questions (i.e., regular questioning expressions tagged onto a sentence) exist in both American and British English, with British speakers perhaps using them more than Americans: "That's not very nice, is it?" Peremptory and aggressive tags tend to be used more in British English than in American English: "Well, I don't know, do I?" (192)


 残念ながら,Biber et al. では付加疑問の頻度の英米差を確かめることはできない.別途,英米のコーパスで調べる必要があるだろう.

 ・ Schmitt, Norbert, and Richard Marsden. Why Is English Like That? Ann Arbor, Mich.: U of Michigan P, 2006.
 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

[ 固定リンク | 印刷用ページ ]

2012-11-11 Sun

#1294. 英語語源分析ツールの夢 [etymology][lexicology][statistics][web_service]

 英文を投げ込むと,各単語(あるいは形態素)が語源別に色づけされて返ってくるような語源分析ツールがあるとよいなと思っている.しかも,各単語に語源辞書のエントリーへのリンクが張られているような.語彙研究や英語教育にも活かせるだろうし,出力を眺めているだけでもおもしろそうだ.このようなツールを作成するには精度の高い形態素分析プログラムと語源データベースの完備が欠かせないが,完璧を求めてしまうと実現は不可能だろう.
 同じことを考える人はいるようだ.例えば,Visualizing English Word Origins はツールを公開こそしていないが,Douglas Harper による Online Etymology Dictionary に基づく自作のツールで,いくつかの短い英文一節を色づけ語源分析している.テキストの分野別に本来語やラテン語の割合が何パーセントであるかなどを示しており,およそ予想通りの結果が出されたとはいえ,実におもしろい.この分析に関して,The Economist に記事があった.
 また,今は残念ながらリンク切れとなっているが,かつて http://huco.artsrn.ualberta.ca/~mburden/project/message.php?thread=Shakspere&id=174 に簡易的な語源分析ツールが公開されていた.こちらの紹介記事 にあるとおりで,なかなか有望なツールだった.私も少し利用した記憶があるのだが,どこへ消えてしまったのだろうか.
 英語語源関連のオンライン・コンテンツも増えてきた.以下にいくつかをまとめておく.

 ・ 「#485. 語源を知るためのオンライン辞書」: [2010-08-25-1]
 ・ Etymology 関連の外部リンク集

 ・ 「#361. 英語語源情報ぬきだしCGI(一括版)」: [2010-04-23-1]
 ・ Behind the Name: The Etymology and History of First Names
 ・ Behind the Name: The Etymology and History of Surnames

 ・ 語源別語彙統計に関する本ブログ内の記事: lexicology loan_word statistics
 ・ Etymologic! The Toughest Word Game on the Web: 英語語源クイズ.

[ 固定リンク | 印刷用ページ ]

2012-11-04 Sun

#1287. 動詞の強弱移行と頻度 [frequency][analogy][verb][conjugation][lexical_diffusion][statistics]

 昨日の記事「#1286. 形態音韻変化の異なる2種類の動機づけ」 ([2012-11-03-1]) で紹介した Hooper の論文では,調査の1つとして動詞の強弱移行(強変化動詞の弱変化化)が取り上げられていた.Hooper の議論は単純明快である.強弱移行は類推による水平化 (analogical leveling) の典型例であり,頻度の低い動詞から順に移行を遂げてきたのだという.
 Hooper が調査対象とした動詞は古英語の強変化I, II, III類に由来する動詞のみであり,その現代英語における頻度情報については Kučera and Francis の頻度表が参照されている.頻度計算は lemma 単位での綴字のみを基準とした拾い出しであり,drive, ride などの語(下表で * の付いているもの)について品詞の区別を考慮していない荒削りなものだ.また,過去千年以上にわたる言語変化を話題にしているときに,現代英語における頻度のみを参照してよいのかという問題([2012-09-21-1]の記事「#1243. 語の頻度を考慮する通時的研究のために」)についても楽観的である (99) .全体として,解釈するのに参考までにという但し書きが必要だが,以下に Hooper (100) の表を見やすく改変したものを掲げよう.

Frequency of Leveled vs. Unleveled Old English Strong Verbs by Hooper

 確かにこのように見ると,強弱移行を経た動詞は全体として頻度が相対的にずっと低いことがわかる.関連して,keep, *leave, *sleep や *creep, *leap, weep について,前者3語が伝統的な過去形を保持しているのに対して,後者3語には周辺的に creeped, leaped, weeped の異形も確認されるという.前者の頻度はそれぞれ 531, 792, 132 に対して後者はそれぞれ 37, 42, 31 だという (Hooper 100) .参考までにとはいっても,傾向としては明らかのように思われる.
 動詞の強弱移行は英語史において基本的な話題であり,本ブログでも「#178. 動詞の規則活用化の略歴」 ([2009-10-22-1]) ,「#527. 不規則変化動詞の規則化の速度は頻度指標の2乗に反比例する?」 ([2010-10-06-1]) ,「#528. 次に規則化する動詞は wed !?」 ([2010-10-07-1]) などで触れてきたが,案外とわかっていないことも多い.今後の詳細な研究が俟たれる.

 ・ Hooper, Joan. "Word Frequency in Lexical Diffusion and the Source of Morphophonological Change." Current Progress in Historical Linguistics. Ed. William M. Christie Jr. Amsterdam: North-Holland, 1976. 95--105.

[ 固定リンク | 印刷用ページ ]

2012-10-31 Wed

#1283. 共起性の計算法 [corpus][statistics][bnc][collocation][lltest]

 [2010-03-04-1]の記事「#311. girl とよく collocate する形容詞は何か」で,語と語の共起 (collocation) を測る計算法 (association measure) にはいくつかの種類があることを見た.コーパス言語学では,Log-Likelihood Test という検定にかかわる計算法が比較的よく使われているが,それぞれの計算法には特徴があるので,なるべく複数の方法を試すのがよい.今回は[2010-03-04-1]の内容と重複する部分もあるが,BNCweb で実装されている7種類の計算法の各々について Hoffmann et al. (149--58) を参照しながら,特徴および利用のヒントを示したい.
 各種の計算法は,(a) 共起頻度 (frequency of co-occurrence),(b) 共起有意性 (significance of co-occurrence),(c) エフェクト・サイズ (effect-size) の1つ,あるいは複数の組み合わせに基づいている.(b) は,共起が統計的に有意であるとの確信度を表わす指標であり,共起の強さを表わすものではないことに注意する必要がある.(c) は,観察頻度と期待頻度との比を計算の基本とする指標である.

 (1) Rank by frequency
  観察される共起頻度そのものを用いる,最も単純で直感的な尺度.他の計算法のような複雑な統計処理はほどこされておらず,指標としては最も粗い.機能語や句読記号などが上位に来ることが多い.通常の共起分析には用いられない.

 (2) Log-likelihood
  共起有意性を用いる.BNCweb のデフォルトの計算法で,コーパス研究で広く用いられている.機能語や句読記号などの極めて高頻度の語との共起や,逆に極めて低頻度の語(1, 2回など)との共起をはじく傾向がある.しかし,共起頻度の高い組み合わせに高得点を与えるという特徴があり,解釈には注意を要する.

 (3) Mutual information (MI)
  エフェクト・サイズを用いる.非常によく用いられている計算法だが,利用に当たっては多くの注意を要する.機能語や句読記号などとのありふれた共起を効果的に排除してくれる点はよいが,反面,低頻度の共起表現への偏りが激しい.この偏りの影響を減じるために,BNCweb では "Freq(node, collocate) at least" を10以上に設定することが推奨される.これにより,"conspicuous and intuitively appealing collocations involving words of intermediate frequency" (Hoffmann et al. 154) が浮き彫りとなる.

 (4) T-score
  共起頻度と共起有意性を考慮する計算法.期待頻度が1以下程度の稀な共起表現については Rank by frequency と似たような振る舞いをし,頻度の高い共起表現については共起有意性を反映した振る舞いをする.また,観察頻度が期待頻度よりも必ず高くなる.Log-likelihood と類似した結果となることが多いが,高頻度へのバイアスは一層強くなる.ノードそのものが1000回を大きく下回る場合に,効果を発揮することがある.

 (5) Z-score
  共起有意性とエフェクト・サイズを考慮する計算法.高頻度の共起表現にはエフェクト・サイズをより重視するが,低頻度の共起表現にはそこまでエフェクト・サイズに寄りかからない.Log-likelihood と MI の両特徴を兼ね備えたような,バランスの取れた指標である.ただし,MI と同様に,低頻度の共起表現へのバイアスがみられるので,"Freq(node, collocate) at least" を5程度に設定するのがよいとされる.

 (6) MI3
  共起頻度とエフェクト・サイズを考慮する計算法.MI のもつ低頻度表現への偏重を取り除くべく改善されている.低頻度共起表現にはエフェクト・サイズが,高頻度共起表現には共起頻度が,比較的よく反映される.POS による限定とともに用いると効果的.複数語からなる用語などの取り出しに威力を発揮する.しかし,全体としては高頻度共起表現へのバイアスが強く,一般的な共起分析には向かない.

 (7) Dice coefficient
  MI3 と同様に,共起頻度とエフェクト・サイズを考慮する計算法.しかし,MI3と異なり,低頻度共起表現には共起頻度が,高頻度共起表現にはエフェクト・サイズがよく反映され,両者の切り替えが急なのが特徴的である.切り替えは,ノードそのものの頻度が共起表現の頻度の10倍ほどの点で起こるとされる.経験的に,Z-score と似たような結果が得られるが,Z-score ほど頻度に基づくバイアスが見られない.

 以上のように多種類あって目移りするが,Hoffmann et al. の見解によれば,単一基準の計算法としては Log-likelihood と MI がお勧めで,混合基準の計算法としては Z-score と Dice がお勧めとのことである.
 共起性の様々な計算法については,Association measures を参照.

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

Referrer (Inside): [2019-07-10-1]

[ 固定リンク | 印刷用ページ ]

2012-10-25 Thu

#1277. 文字をもたない言語の数は? [world_languages][writing][statistics]

 世界の言語の数を把握するのが困難なことは,「#270. 世界の言語の数はなぜ正確に把握できないか」 ([2010-01-22-1]) や「#1060. 世界の言語の数を数えるということ」 ([2012-03-22-1]) の記事で取り上げてきた.私は,言語学概説書の記述や Ethnologue の統計に従って,現在,世界で行なわれている言語は6000--7000個ほどと認識しているが,あくまで仮の数字である.この数のうちどれほどの言語が文字をもっているのかに関心があるが,これまで文献上で概数の言及すらみつけたことがなかった.
 先日,Crystal (17) に,軽い言及を見つけた.そこでは,4割ほどの言語(計2000言語を越える)が文字に付されたことがない言語であると述べられている.だが,この推計の根拠が何であるかが知りたいところである.また,逆算すると世界の言語の数は約5000個となるが,これは Crystal の他書での推計よりも少ないのではないか.また,文字をもたない言語数でなく,文字を読み書きできない話者数で考えると,世界人口の何割くらいになるのだろうか.ある言語に文字が備わっているということと,その話者がその文字を読み書きできることとは別の問題であるはずだ.いろいろと疑問がわき出して止まらないが,言語の数にもまして,実際上,数え上げは困難を極めるだろう.
 勘としては,Crystal の言及よりもずっと多くの言語が無文字ではないかと思っていたので,意外ではあった.大した根拠のないのが勘というものだが,「#274. 言語数と話者数」 ([2010-01-26-1]) の統計から見当をつけて,話者数が数千人以下の言語に無文字言語が多いのではないかと踏んでいた.
 通時的な観点からは,文字をもつ言語がどのくらいの速度で増えていったのか,世界の人々の識字率がどのように推移してきたのかという設問も興味深い.前者は文字文化の伝播の問題,後者は識字能力の独占の歴史や読み書き教育の推進といった問題にかかわる.どの問題1つをとっても,すぐには解答を得られないだろう.
 本格的に調べれば,適当な概数の提案に行き当たるのかもしれない.この問題に触れている文献をご存じの方がいましたら,ぜひ教えてください.
 関連して,文字の発生については「#41. 言語と文字の歴史は浅い」 ([2009-06-08-1]) ,書き言葉の話し言葉に対する二次的な性質については「#748. 話し言葉書き言葉」 ([2011-05-15-1]) を参照.

 ・ Crystal, David. How Language Works. London: Penguin, 2005.

[ 固定リンク | 印刷用ページ ]

2012-09-04 Tue

#1226. 近代英語期における語彙増加の年代別分布 [loan_word][lexicology][statistics][emode][renaissance][inkhorn_term][latin]

 英語史における借用語の最たる話題として,中英語期におけるフランス語彙の著しい流入が挙げられる.この話題に関しては,語彙統計の観点からだけでも,「#117. フランス借用語の年代別分布」 ([2009-08-22-1]) を始めとして,french loan_word statistics のいくつかの記事で取り上げてきた.しかし,語彙統計ということでいえば,近代英語期のラテン借用語を核とする語彙増加のほうが記録的である.
 [2009-08-19-1]の記事「#114. 初期近代英語の借用語の起源と割合」で言及したが,Görlach は初期近代英語の語彙の著しい増大を次のように評価し,説明している.

The EModE period (especially 1530--1660) exhibits the fastest growth of the vocabulary in the history of the English language, in absolute figures as well as in proportion to the total. (136)

. . . the general tendencies of development are quite obvious: an extremely rapid increase in new words especially between 1570 and 1630 was followed by a low during the Restoration and Augustan periods (in particular 1680--1780). The sixteenth-century increase was caused by two factors: the objective need to express new ideas in English (mainly in fields that had been reserved to, or dominated by, Latin) and, especially from 1570, the subjective desire to enrich the rhetorical potential of the vernacular. / Since there were no dictionaries or academics to curb the number of new words, an atmosphere favouring linguistic experiments led to redundant production, often on the basis of competing derivation patterns. This proliferation was not cut back until the late seventeenth/eighteenth centuries, as a consequence of natural selection or a s a result of grammarians' or lexicographers' prescriptivism. (137--38)


Görlach は,A Chronological English Dictionary に基づいて,次のような語彙統計も与えている (137) .これを図示してみよう.

The Growth of the EModE Vocabulary, 1500--1700
Decade15101520153015401550156015701580159016001610162016301640165016601670168016901700
New words4095081415140016091310154818761951330027102281168811221786197313701228974943


 近代英語期のラテン借用について関連する話題は,「#203. 1500--1900年における英語語彙の増加」 ([2009-11-16-1]) や emode loan_word lexicology の各記事を参照.

 ・ Görlach, Manfred. Introduction to Early Modern English. Cambridge: CUP, 1991.
 ・ Finkenstaedt, T., E. Leisi, and D. Wolff, eds. A Chronological English Dictionary. Heidelberg: Winter, 1970.

[ 固定リンク | 印刷用ページ ]

2012-09-03 Mon

#1225. フランス借用語の分布の特異性 [lexicology][statistics][loan_word][french][lexical_stratification]

 「#845. 現代英語の語彙の起源と割合」 ([2011-08-20-1]) や「#1202. 現代英語の語彙の起源と割合 (2)」 ([2012-08-11-1]) でたびたび扱ってきた話題だが,もう1つ似たような統計を Brinton and Arnovick (298) に見つけた.Manfred Scheler に基づいた Angelika Lutz の統計から引用しているものである.General Service List (GSL; [2010-03-01-1]の記事「#308. 現代英語の最頻英単語リスト」ほか,##309,612,1103 を参照),Advanced Learners' Dictionary (ALD), Shorter Oxford English Dictionary (SOED) の3種の語彙リストを語源別に分類し,それぞれの割合を出している.表からグラフを作成してみた.

 SOED (80,096 words)ALD (27,241 words)GSL (3,984 words)
West Germanic22.20%27.43%47.08%
French28.37%35.89%38.00%
Latin28.29%22.05%9.59%
Greek5.32%1.59%0.25%
Other Romance1.86%1.60%0.20%
Celtic0.34%0.25%---
Etymological Breakdown of English Words in Three Word Lists

 この統計のおもしろい点は,左列から右列に向かって対象語彙が小さくなるように並べられていることだ.別の言い方をすれば,語彙の難易度が右列に向かって下がっている.語彙が基本的であればあるほど,本来語の割合が高いことは上記の過去記事でも触れてきたが,意外なことにフランス借用語についても同様の傾向が見られるという.確かに,左列から右列に向かって割合が増えているのは,赤 (West Germanic) と黄色 (French) のみである.それ以外の語種は,むしろ割合が減っている.
 このことから示唆されるのは,フランス借用は,ラテン借用のように文化的で専門的であるばかりではなく,征服者が被征服者に強要した言語接触の結果として,ある程度は基本的でもあるということだ.実際,英語語彙の三層構造 ([2010-03-27-1]) においてフランス語は中層を担っているが,覆う範囲は3層のなかで最も広く,下層へも(そして上層へも)大きくはみ出している.フランス借用語の分布の特異性は,フランス語との接触の歴史の特徴と関連していると考えられる.
 ただし,この統計には不明な点もあり,解釈には注意を要する.本来語は West Germanic という広いくくりのなかに含まれると思われるが,ある程度の数のある北欧語系借用語はどこに納まっているのだろうか.また,上の議論では,特にラテン借用語の割合に対するフランス借用語の割合が鍵を握っているが,[2011-02-09-1][2011-08-23-1]でみたように,フランス借用語とラテン借用語の区別は難しい.語源判定の不確かさをここではどう処理しているのか,判定ミスによって数値はどのくらい変動するのだろうか.直接 Lutz に当たってみる必要がある.

(後記 2012/09/04(Tue): Lutz (147) を参照したところ,上記の北欧語系借用語に関する疑問について,"Other sources of lexical influence have been left out of account here." とあった.詳細は Scheler を参照せよとのことである.)

 ・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
 ・ Lutz, Angelika. "When did English Begin?" Sounds, Words, Texts and Change. Ed. Teresa Fanego, Belén Méndez-Naya, and Elena Seoane. Amsterdam and Philadelphia: John Benjamins, 2002. 145--71.

[ 固定リンク | 印刷用ページ ]

2012-08-24 Fri

#1215. 属格名詞の衰退と of 迂言形の発達 [word_order][syntax][genitive][lexical_diffusion][statistics][synthesis_to_analysis]

 昨日の記事「#1214. 属格名詞の位置の固定化の歴史」 ([2012-08-23-1]) で,中英語における被修飾名詞に対する属格名詞の位置の固定可について見たが,前置であれ後置であれ,属格名詞そのものが同時期に衰退していったという事実を忘れてはならない.属格名詞を用いた A's B の代わりに B of A というof による迂言形が発達し,前者を脅かした.この交替劇は,大局から見れば,総合から分析へ (synthesis_to_analysis) という英語史の潮流に乗った言語変化である.
 Fries (206) に与えられている表は,古英語から中英語にかけて3種類の属格(前置属格,of 迂言形,後置属格)がそれぞれどの程度の割合で用いられれたかを示す統計値である.これをグラフ化してみた.

 Post-positive genitive'Periphrastic' genitivePre-positive genitive
c. 90047.5%0.5%52.0%
c. 100030.5%1.0%68.5%
c. 110022.2%1.2%76.6%
c. 120011.8%6.3%81.9%
c. 12500.6%31.4%68.9%
c. 13000.0%84.5%15.6%


Development of Three Types of Genitive

 グラフからは,3種類の属格の交代劇が一目瞭然である.古英語の終わりにかけて後置属格が衰退するにともなって前置属格が伸長し,その後13世紀中に of 迂言形が一気に拡大して前置属格を置き換えてゆく.of 迂言形の拡大については,Mustanoja (74--76) が詳しい.

 ・ Fries, Charles C. "On the Development of the Structural Use of Word-Order in Modern English." Language 16 (1940): 199--208.
 ・ Mustanoja, T. F. A Middle English Syntax. Helsinki: Société Néophilologique, 1960.

Referrer (Inside): [2015-10-19-1]

[ 固定リンク | 印刷用ページ ]

2012-08-23 Thu

#1214. 属格名詞の位置の固定化の歴史 [word_order][syntax][genitive][lexical_diffusion][statistics]

 「#132. 古英語から中英語への語順の発達過程」 ([2009-09-06-1]) と昨日の記事「#1213. 間接目的語の位置の固定化の歴史」 ([2012-08-22-1]) に引き続き,Fries の研究の紹介.今回は,属格名詞が被修飾名詞に対して前置されるか後置されるかという問題について.
 c900--c1250年の発展について,次のような結果が得られた (Fries 205) .

 c. 900c. 1000c. 1100c. 1200c. 1250
Genitive before its noun52.4%69.1%77.4%87.4%99.1%
Genitive after its noun47.6%30.9%22.6%12.6%0.9%


Development of Genitive Before Its Noun

 早くも13世紀には,属格名詞の前置が固定可されていたことがわかる.
 関連して,17世紀後半に属格名詞ではなく通格名詞(単数でも複数でも)が他の名詞に前置されてそのまま修飾語として用いられる例 (ex. school teacher, examination paper) が現われるが,修飾語と被修飾語の位置関係が固定されていなければ不可能な統語手段である (206) .
 これまでに動詞と直接目的語と間接目的語の位置関係,属格名詞と被修飾名詞の位置関係の歴史について見てきたことになるが,いずれも遅くとも中英語の終わりまでには現代英語的な語順に固定していたことがわかる.中英語は,語順の固定可が著しく進んだ時代と結論づけてよいだろう.

 ・ Fries, Charles C. "On the Development of the Structural Use of Word-Order in Modern English." Language 16 (1940): 199--208.

Referrer (Inside): [2015-10-19-1] [2012-08-24-1]

[ 固定リンク | 印刷用ページ ]

2012-08-22 Wed

#1213. 間接目的語の位置の固定化の歴史 [word_order][syntax][lexical_diffusion][statistics]

 [2009-09-06-1]の記事「#132. 古英語から中英語への語順の発達過程」で取り上げた Fries の調査は,英語の語順の発達に関する重要な研究である.先の記事では,動詞に対する直接目的語の相対的な位置に関する通時的推移のみを取り上げたが,Fries はほかにも直接目的語や動詞に対する間接目的語の相対的な位置や,被修飾名詞に対する形容詞や属格名詞の相対的な位置をも対象としている.今回は前者について紹介する.
 古英語からは,900--1000年の範囲のコーパスより2558例を集めた F. C. Cassidy の調査結果を参照している.間接目的語と直接目的語の位置関係について,前者が名詞か代名詞か両者を含むかにより,次の統計値を得た (202) .

OE Corpus (900--1000)Dative-object before acc-obj.Dative-object after acc-obj.
Nouns249 (64.0%)140 (36.0%)
Pronouns674 (82.8%)141 (17.2%)
Both together923 (76.6%)281 (23.3%)


 全体として間接目的語の前置される傾向が目立ち,とりわけ代名詞の場合には,それが著しい.この傾向は,c1200年の初期中英語コーパスにおいても際立っており(約8割が前置),かなり早い時期から明確なパターンだったことがわかる.
 間接目的語と動詞の位置関係については,古英語および初期中英語のコーパスから次の結果を得た (202) .

OE Corpus (900--1000)Dative-object before the verbDative-object after the verb
Nouns95 (27.6%)249 (72.4%)
Pronouns495 (48.7%)518 (51.3%)
Both together587 (43.4%)767 (56.6%)
EME Corpus (c1200)Dative-object before the verbDative-object after the verb
Nouns26 (23.0%)88 (77.0%)
Pronouns218 (43.0%)288 (57.0%)
Both together244 (39.4%)376 (60.6%)


 古英語では必ずしも明確な傾向を示すわけではないが,動詞の後位置のほうが優勢である.この傾向は,初期中英語で拡大されてゆく.
 上に述べた間接目的語の相対的位置の傾向は後期中英語にかけて強化され,現代英語に見られるような「動詞の後,直接目的語の前」という規則が15世紀後半までに確立していった (203) .

 ・ Fries, Charles C. "On the Development of the Structural Use of Word-Order in Modern English." Language 16 (1940): 199--208.

Referrer (Inside): [2012-08-23-1]

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow