hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 次ページ / page 4 (9)

statistics - hellog〜英語史ブログ

最終更新時間: 2024-04-23 15:39

2015-11-07 Sat

#2385. OED による,古典語およびロマンス諸語からの借用語彙の統計 (2) [oed][statistics][lexicology][loan_word][borrowing][latin][greek][french][italian][spanish][portuguese][romancisation]

 「#2357. OED による,古典語およびロマンス諸語からの借用語彙の統計」 ([2015-10-10-1]),「#2369. 英語史におけるイタリア語,スペイン語,ポルトガル語からの語彙借用の歴史」 ([2015-10-22-1]) で,Culpeper and Clapham (218) による OED ベースのロマンス系借用語の統計を紹介した.論文の巻末に,具体的な数値が表の形で掲載されているので,これを基にして2つグラフを作成した(データは,ソースHTMLを参照).1つめは4半世紀ごとの各言語からの借用語数,2つめはそれと同じものを,各時期の見出し語全体における百分率で示したものである.

Classical and Romance Loanwords in OED

Classical and Romance Loanwords (%) in OED

 関連する語彙統計として,「#2162. OED によるフランス語・ラテン語からの借用語の推移」 ([2015-03-29-1]) で触れた Wordorigins.org"Where Do English Words Come From?" も参照.

 ・ Culpeper Jonathan and Phoebe Clapham. "The Borrowing of Classical and Romance Words into English: A Study Based on the Electronic Oxford English Dictionary." International Journal of Corpus Linguistics 1.2 (1996): 199--218.

[ 固定リンク | 印刷用ページ ]

2015-10-22 Thu

#2369. 英語史におけるイタリア語,スペイン語,ポルトガル語からの語彙借用の歴史 [italian][spanish][portuguese][loan_word][borrowing][statistics][lexicology]

 「#2357. OED による,古典語およびロマンス諸語からの借用語彙の統計」 ([2015-10-10-1]) で少々触れたように,英語史上,フランス語に比して他の3つのロマンス諸語からの語彙借用は影が薄い.イタリア語,スペイン語,ポルトガル語の各言語からの借用語の例は,主に近代以降について「#1411. 初期近代英語に入った "oversea language"」 ([2013-03-08-1]) や「#756. 世界からの借用語」 ([2011-05-23-1]) で触れた.中英語にも,およそフランス語経由ではあるが,イタリア語やポルトガル語に起源をもつ語の借用があった (「#2329. 中英語の借用元言語」 ([2015-09-12-1])) .
 Culpeper and Clapham (210) は,比較的マイナーなこれらのロマンス諸語からの語彙借用の歴史について,OED による語彙統計をもとに,次のように端的にまとめている.

The effect of Italian borrowing can be seen from the 15th century onwards. Italy was, and still is, famous for style in architecture and dress. It was also perceived an authority in matters to do with etiquette. Travellers to Italy --- often young sons dispatched to acquire some manners --- inevitably brought back Italian words. Italian borrowing is strongest in the 18th century (1.7% of recorded vocabulary), and is mostly related to musical terminology. Spanish and Portuguese borrowing commences in the 16th century, reflecting warfare, commerce, and colonisation, but at no point exceeds 1% of vocabulary recorded within a particular period.


 まず,イタリア語からの借用語がある程度著しくなるのは,15世紀からである.「#1530. イングランド紙幣に表記されている Compa」 ([2013-07-05-1]) で言及したように,13世紀後半以降,16世紀まで,イタリアの先進的な商業・金融はイングランド経済に大きな影響を与えてきた.それが言語的余波となって顕われてきたのが,15世紀辺りからと解釈することができる.その後,イタリア借用語は18世紀の音楽用語の流入によってピークを迎えた.
 一方,スペイン語とポルトガル語は,イタリア語よりもさらに目立たず,そのなかで比較的著しいといえるのは16世紀に限定される.当時,海洋国家として名を馳せた両雄の言語的な現われといえるだろう.
 各言語からの語彙借用の様子は,統計的にみれば以上の通りだが,質的な違いを要約すると次の通りになる (Strang 124--26) .

 (1) イタリア人は世界を開拓したり植民したりする冒険者ではなく,あくまでヨーロッパ内の旅人であった.したがって,イタリア語が提供した語彙も,ヨーロッパ的なものに限定されるといってよい.ルネサンスの発祥地ということもあり,芸術,音楽,文学,思想の分野の語彙を多く提供したことはいうまでもないが,文物を通してというよりは広い意味での旅人の口を経由して,それらの語彙が英語へ流入したとみるべきだろう.語形としては,あたかもフランス語を経由したような形態を取っていることが多い.
 (2) 一方,スペイン語の流入は,イングランド女王 Mary とスペイン王 Philip II の結婚による両国の密な関係に負うところが多く,スペイン本土のみならず,新大陸に由来する語彙の少なくないことも特徴である.
 (3) スペイン語以上に世界的な借用語を提供したのは,15--16世紀に航海術を発達させ,世界へと展開したポルトガルの言語である.ポルトガル語は,新大陸のみならず,アフリカやアジアからも多くの語彙をヨーロッパに持ち帰り,それが結果として英語にもたらされた.

 具体的な借用語の例は,「#1411. 初期近代英語に入った "oversea language"」 ([2013-03-08-1]) を参照されたい.

 ・ Culpeper Jonathan and Phoebe Clapham. "The Borrowing of Classical and Romance Words into English: A Study Based on the Electronic Oxford English Dictionary." International Journal of Corpus Linguistics 1.2 (1996): 199--218.
 ・ Strang, Barbara M. H. A History of English. London: Methuen, 1970.

[ 固定リンク | 印刷用ページ ]

2015-10-13 Tue

#2360. 20世紀のフランス借用語 [french][loan_word][borrowing][statistics][norman_french][creole][oed]

 英語のフランス語との付き合いは古英語最末期より途切れることなく続いている.フランス語彙借用のピークは「#2357. OED による,古典語およびロマンス諸語からの借用語彙の統計」 ([2015-10-10-1]) や「#117. フランス借用語の年代別分布」 ([2009-08-22-1]) で見たように1251--1375年だが,その後も,規模こそ縮小しながらも,借用は連綿と続いてきている.中英語以降の各時代のフランス語彙の借用については,「#1210. 中英語のフランス借用語の一覧」 ([2012-08-19-1]),「#1411. 初期近代英語に入った "oversea language"」 ([2013-03-08-1]),「#594. 近代英語以降のフランス借用語の特徴」 ([2010-12-12-1]), 「#678. 汎ヨーロッパ的な18世紀のフランス借用語」 ([2011-03-06-1]) を参照されたい.
 今回は,現代英語におけるフランス借用語の話題を取り上げたい.Schultz は,OED Online を利用して,1900年以降に英語に入ってきたフランス語彙を調査した.Schultz がフランス借用語として取り出し,認定したのは,1677語である.Schultz の論文では,それらを14個の意味分野(とさらなる下位区分)ごとに整理し,サンプル語を列挙しているが,ここでは12分野それぞれに属する語の数と割合のみを示そう (Shultz 4--6) .

 (1) Anthropology (11 borrowings, i.e. 0.7%)
 (2) Metapsychics and parapsychology (11 borrowings, i.e. 0.7%)
 (3) Archaeology (30 borrowings, i.e. 1.8%)
 (4) Miscellaneous (46 borrowings, i.e. 2.7%)
 (5) Technology (62 borrowings, i.e. 3.7%)
 (6) La Francophonie (63 borrowings, i.e. 3.8%)
 (7) Fashion and lifestyle (77 borrowings, i.e. 4.6%)
 (8) Entertainment and leisure activities (86 borrowings, i.e. 5.1%)
 (9) Mathematics and the humanities (92 borrowings, i.e. 5.5%)
 (10) People and everyday life (154 borrowings, i.e. 9.2%)
 (11) Civilization and politics (156 borrowings, i.e. 9.3%)
 (12) Gastronomy (179 borrowings, i.e. 10.7%)
 (13) Fine arts and crafts (260 borrowings, i.e. 15.5%)
 (14) The natural sciences (450 borrowings, i.e. 26.8%)

 20世紀のフランス借用語の特徴は何だろうか.1つは,Schultz が "the vocabulary recently adopted from French is characterized by its great variety, ranging from words related to everyday matters to highly specific terms in technology and science" (8) とまとめているように,意味分野の幅広さが挙げられる.食,芸術,自然科学が相対的に強いが,全体としてはマルチジャンルといってよい.ただし,マルチジャンルであることは中英語期のフランス借用語の特徴にも当てはまることから,これは英語史におけるフランス語彙借用に汎時的にみられる特徴といってもよいかもしれない.
 注目すべきは,借用語のソースとして,標準フランス語のみならず,フランス語の諸変種やクレオール語なども含まれていることだ.カリブ諸島,カナダ,ルイジアナ,アフリカなどのフランス語変種からの借用語が少なくない.中英語期にも,中央フランス語のみならず,とりわけ初期にノルマン・フランス語 (norman_french) からも語彙が流入していたが,近代以降「フランス語」の指す範囲が拡がるとともに,借用元変種も多様化してきたということだろう.
 現代世界の借用元言語としての英語を考えてみても,従来はイギリス標準英語やアメリカ標準英語がほぼ唯一の借用元変種だったかもしれないが,現在ではピジン語やクレオール語も含めた各種の英語変種が借用元変種となっている事実がある.それと同じことが,フランス語についても言えるということなのではないか.

 ・ Schultz, Julia. "Twentieth-Century Borrowings from french into English --- An Overview." English Today 28.2 (2012): 3--9.

[ 固定リンク | 印刷用ページ ]

2015-10-10 Sat

#2357. OED による,古典語およびロマンス諸語からの借用語彙の統計 [oed][statistics][lexicology][loan_word][borrowing][latin][greek][french][italian][spanish][portuguese][romancisation]

 標題に関する,OED2 の CD-ROM 版を用いた本格的な量的研究を発見した.Culpeper and Clapham によるもので,調査方法を見るかぎり,語源欄検索の機能を駆使し,なるべく雑音の混じらないように腐心したようだ.OED などを利用した量的研究の例は少なくないが,方法論の厳密さに鑑みて,従来の調査よりも信頼のおける結果として受け入れてよいのではないかと考える.もっとも,筆者たち自身が OED を用いて語彙統計を得ることの意義や陥穽について慎重に論じており,結果もそれに応じて慎重に解釈しなければいけないことを力説している.したがって,以下の記述も,その但し書きを十分に意識しつつ解釈されたい.
 Culpeper and Clapham の扱った古典語およびロマンス諸語とは,具体的にはラテン語,ギリシア語,フランス語,イタリア語,スペイン語,ポルトガル語を中心とする言語である.数値としてある程度の大きさになるのは,最初の4言語ほどである.筆者たちは,OED 掲載の2,314,82の見出し語から,これらの言語を直近の源とする借用語を77,335語取り出した.これを時代別,言語別に整理し,タイプ数というよりも,主として当該時代に初出する全語彙におけるそれらの借用語の割合を重視して,各種の語彙統計値を算出した.
 一つひとつの数値が示唆的であり,それぞれ吟味・解釈していくのもおもしろいのだが,ここでは Culpeper and Clapham (215) が論文の最後で要約している主たる発見7点を引用しよう.

   (1) Latin and French have had a profound effect on the English lexicon, and Latin has had a much greater effect than French.
   (2) Italian, Spanish, and Portuguese are of relatively minor importance, although Italian experienced a small boost in the 18th century.
   (3) The general trend is one of decline in borrowing from Classical and Romance languages. In the 17th century, 39.3% of recorded vocabulary came from Classical and Romance languages, whereas today the figure is 15%.
   (4) Latin borrowing peaked in 1600--1675, and Latin contributed approximately 7000 words to the English lexicon during the 16th century.
   (5) Greek, coming after Latin and French in terms of overall quantity, peaked in the 19th century.
   (6) French borrowing peaked in 1251--1375, fell below the level of Latin borrowing around 1525, and thereafter declined except for a small upturn in the 18th century. French contributed over 11000 words to the English lexicon during the Middle English period.
   (7) Today, borrowing from Latin may have a slight lead on borrowing from French.


 この7点だけをとっても,従来の研究では曖昧だった調査結果が,今回は数値として具体化されており,わかりやすい.(1) は,フランス語とラテン語で,どちらが量的に多くの借用語彙を英語にもたらしてきたかという問いに端的に答えるものであり,ラテン語の貢献のほうが「ずっと大きい」ことを明示している.(7) によれば,そのラテン語の優位は,若干の差ながらも,現代英語についても言えるようだ.関連して,(6) から,最大の貢献言語がフランス語からラテン語へ切り替わったのが16世紀前半であることが判明するし,(4) から,ラテン語のピークは16世紀というよりも17世紀であることがわかる.
 (3) では,近代以降,新語における借用語の比率が下がってきていることが示されているが,これは「#879. Algeo の新語ソース調査から示唆される通時的傾向」([2011-09-23-1]) でみたことと符合する.(2) と (5) では,ラテン語とフランス語以外の諸言語からの影響は,全体として僅少か,あるいは特定の時代にやや顕著となったことがある程度であることもわかる.
 英語史における借用語彙統計については,cat:lexicology statistics loan_word の各記事を参照されたい.本記事と関連して,特に「#2162. OED によるフランス語・ラテン語からの借用語の推移」 ([2015-03-29-1]) を参照.

 ・ Culpeper Jonathan and Phoebe Clapham. "The Borrowing of Classical and Romance Words into English: A Study Based on the Electronic Oxford English Dictionary." International Journal of Corpus Linguistics 1.2 (1996): 199--218.

[ 固定リンク | 印刷用ページ ]

2015-10-02 Fri

#2349. 英語の復権期にフランス借用語が爆発したのはなぜか (2) [reestablishment_of_english][language_shift][french][loan_word][borrowing][bilingualism][borrowing][lexicology][statistics][contact]

 標記の問題については,以下の一連の記事などで取り上げてきた.

 ・ 「#117. フランス借用語の年代別分布」 ([2009-08-22-1])
 ・ 「#1205. 英語の復権期にフランス借用語が爆発したのはなぜか」 ([2012-08-14-1])
 ・ 「#1209. 1250年を境とするフランス借用語の区分」 ([2012-08-18-1])
 ・ 「#1540. 中英語期における言語交替」 ([2013-07-15-1])
 ・ 「#1638. フランス語とラテン語からの大量語彙借用のタイミングの共通点」 ([2013-10-21-1])
 ・ 「#2069. 言語への忠誠,言語交替,借用方法」 ([2014-12-26-1])

 この問題に関連して,Rothwell の論文を読んだ.Rothwell (50) によると,中英語のあいだに公的な記録の言語が,ラテン語からフランス語へ,フランス語から英語へ目まぐるしく切り替わった言語交替 (language_shift) という社会言語学的な視点を考慮しなければならないという.

If the English language appears to embark on a far more extensive campaign of lexical borrowing from the later fourteenth century, this is because French had become the second official language of record in England, alongside and often in replacement of Latin. This means in effect that from the thirteenth century onwards French is called upon to cover a much wider range of registers than in the earlier period, when it was used in the main for works of entertainment or edification. This change in the role of French took place at a time when English was debarred from use as a language of record, so that when English in its turn began to take on that role in the later fourteenth century, it was only to be expected that it would retain much of the necessary vocabulary used by its predecessor --- French. . . . For successive generations of countless English scribes and officials the administrative vocabulary of French had been an integral part of their daily life and work; it would be unrealistic to expect them to jettison it and re-create an entirely new Germanic set of terms when English came in to take over the role hitherto played by French.


 13--14世紀にかけて,フランス語が法律関係を始めとする公的な言語としての役割を強めていくことは,「#2330. 13--14世紀イングランドの法律まわりの使用言語」 ([2015-09-13-1]) でみた.このようにイングランドにおいてフランス語で公的な記録が取られる慣習が数世代にわたって確立していたところに,14世紀後半,英語が復権してきたのである.書き言葉上のバイリンガルだったとはいえ,多くの写字生にとって,当初この言語交替には戸惑いがあったろう.特に政治や法律に関わる用語の多くは,これまでフランス単語でまかなってきており,対応する英語本来語は欠けていた.このような状況下で,写字生が書き言葉を英語へとシフトする際に,書き慣れたフランス語の用語を多用したことは自然だった.
 後期中英語における各言語の社会言語学的な位置づけと,言語間の語彙借用の様相は,このように密接に結びついている.関連する最近の話題として,「#2345. 古英語の diglossia と中英語の triglossia」 ([2015-09-28-1]) も参照.

 ・ Rothwell, W. "Stratford atte Bowe and Paris." Modern Language Review 80 (1985): 39--54.

[ 固定リンク | 印刷用ページ ]

2015-09-07 Mon

#2324. n-gram [corpus][information_theory][coca][bnc][google_books][statistics][n-gram][collocation][frequency][link]

 情報理論や自然言語処理の分野で用いられる n-gram という分析手法がある.コーパス言語学でもすでにお馴染みの概念であり,共起表現 (collocation) の研究などでは当たり前のように用いられるようになった.種々のコーパスのインターフェースにおいても採用されており,「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) では名前に含まれているほどだし,本ブログでも COCA (Corpus of Contemporary American English) の N-gram データベースを用いて「#956. COCA N-Gram Search」 ([2011-12-09-1]) を実装してきた(その応用は,「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1]),「#954. 脚韻を踏む2項イディオム」 ([2011-12-07-1]),「#955. 完璧な語呂合わせの2項イディオム」 ([2011-12-08-1]) を参照).BNC では,Explore Words and Phrases from the BNC が利用できる.
 コンピュータを用いた分析手法というと難しそうに聞こえるが,n-gram の考え方は至って単純である.文字レベルの 2-gram (bigram) を考えてみよう.最長の英単語といわれる pneumonoultramicroscopicsilicovolcanoconiosis (「#63. 塵肺症は英語で最も重い病気?」 ([2009-06-30-1])) を例にとる.まず,先頭の2文字1組の pn を取り出す.次に,2文字目に進んで同じように ne を取り出す.3文字目に進んで eu を,4文字目に進んで um を得る.同じように,1文字ずつ右にずらしながら,最後の is まで2文字1組を次々と拾っていく.これで44組の2文字を得たことになる.この組のなかで,ic と co という組み合わせは各々3回起こり,os, si, no, on の組み合わせは各々2回現われ,それ以外の組み合わせはいずれも1度きりである.したがって,この単語において最高頻度の2文字1組は ic と co となる.
 n-gram の単位は,このように文字である必要はなく,音素でもよいし,より大きな単位である形態素や語でもよく,さらに大きな句などのより大きな単位でもよい.英語コーパス言語学では,語という単位で考えるのが普通だろう.Martin Luther King, Jr. の I Have a Dream の演説のテキストで語単位の 4-gram を取ると,最も多い4語の組み合わせは,予想通り "I have a dream" の8回だが,"will be able to" も同じく8回現われる."Let freedom ring from" も7回とよく現われる,等々の分析が可能となる.ここでは4語という「窓」を設定したので 4-gram と呼ばれるが,隣接するいくつの文字を考慮するかにより 1-gram (unigram), 2-gram (bigram), 3-gram (trigram),そして 5-gram 以上ももちろん考えることができる(1-gram の場合,得られるリストは,事実上各語の生起頻度表である).
 巨大コーパスから得られた 2-gram や 3-gram の一覧は,それ自体が共起表現の研究などでは基本データとなるため,ウェブ上でもいろいろと公開されている.日本語では「N-gram コーパス - 日本語ウェブコーパス 2010」があるし,現代英語では COCA の n-gram データベース がある.また,Bigram Plus では,歴史英語コーパスを含めた各種英語コーパスから N-Gram Search を行なえる機能を提供している.ほかにも任意のテキストやコーパスを対象に n-gram を取る各種のツールやソフトも,ウェブ上で入手可能だ.
 n-gram 分析の言語分野への応用範囲は広い.次に来る語(音,文字)は何か,という予測可能性とも関係が深いため,機械による音声認識,統語分析,言語判定,自動翻訳,スペルチェック,剽窃探知,全文検索用インデックスの作成などに活用される.もちろん,共起表現の研究では,基本にして不可欠の手段となっている.一方,n-gram はもっぱら言語として表面化されたテキストを対象とし,深層にある構造にまったく触れることがないため,生成文法のような言語理論の方面からは批判があるようだ.詳しくは,n-gram in Wikipedia を参照.
 n-gram は工夫次第で,まだまだ使い道がありそうだ.歴史英語テキストにも,応用していきたい.

(後記 2015/09/12(Sat): Sketch Engine より N-grams も参照.)

Referrer (Inside): [2016-09-07-1]

[ 固定リンク | 印刷用ページ ]

2015-08-25 Tue

#2311. Tristan da Cunha [enl][world_englishes][map][geography][demography][statistics]

 「#2305. 英語を説明する25の地図」 ([2015-08-19-1]) の11番目として挙げられている Tristan da Cunha について付け加える.Tristan da Cunha は,アフリカ南部と南アメリカ大陸のどちらからも遠く離れた絶海の孤島.南アフリカからは約2400キロ,南アメリカからは約3360キロ離れている.6つの小島からなり,有人島は Tristan da Cunha と Gough Island の2つのみである.この群島は,1506年にポルトガル人の海軍将官 Tristão da Cunha によって発見された.17世紀以降,何度かにわたって定住の試みがあったが失敗し,初めて成功したのは1816年のイギリス駐屯軍によるものである.St. Helena に島流しにされたナポレオンの救出を阻止するための派兵とされる.その1816年に英国領として併合されたが,翌1817年に軍は撤退し,それ以降は,島に残った少数の者たちと,難破したヨーロッパ人の漂流者たちが島民人口のほとんどであった.1886年には97人がいたとの報告がある.1938年には St. Helena の保護領となったが,2009年にその地位は解消され,英国海外領 St Helena, Ascension and Tristan da Cunha の一部となっている.2015年現在,人口は259人であり,そのほとんとが英語を母語とする ENL 地域である.

Map of Tristan da Cunha

 以下,関連する外部リンクを張っておく.

 ・ Website of the Tristan da Cunha Government and Tristan Association
 ・ Wikipedia による Tristan da Cunha の記事
 ・ BBC による St Helena, Ascension, Tristan da Cunha profiles
 ・ CIA: The World Factbook による Saint Helena, Ascension, and Tristan da Cunha
 ・ Edgar Allan Poe による The Narrative of Arthur Gordon Pym of Nantucket (1838) の Chapter 15 に,Tristan da Cunha の歴史的,地理的な詳しい記述がある.

 なお,St. Helena については,「#177. ENL, ESL, EFL の地域のリスト」 ([2009-10-21-1]),「#215. ENS, ESL 地域の英語化した年代」 ([2009-11-28-1]),「#1919. 英語の拡散に関わる4つの crossings」 ([2014-07-29-1]) でも軽く触れている.

(後記 2015/09/01(Tue): McArthur, Tom, ed. The Oxford Companion to the English Language. Oxford: OUP, 1992. の "TRISTAN DA CUNHA" (1056) の項も参照.この英語変種は,Highland English と同じ特徴を有すると考えられている.)

 ・ McArthur, Tom, ed. The Oxford Companion to the English Language. Oxford: OUP, 1992.

Referrer (Inside): [2022-04-22-1]

[ 固定リンク | 印刷用ページ ]

2015-08-21 Fri

#2307. 綴字の余剰性 (2) [spelling][redundancy][statistics][information_theory][alphabet][final_e][silent_letter]

 「#2249. 綴字の余剰性」 ([2015-06-24-1]) で取り上げた話題.別の観点から英語綴字の余剰性を考えてみよう.
 Roman alphabet のような単音文字体系にあっては,1文字と1音素が対応するのが原理的に望ましい.しかし,言語的,歴史的,その他の事情で,この理想はまず実現されないといってよい.現実は理想の1対1から逸脱しているのだが,では,具体的にはどの程度逸脱しているのだろうか.
 ここで,「#1159. MRC Psycholinguistic Database Search」 ([2012-06-29-1]) を利用して,文字と音素の対応の度合いをおよそ計測してみることができる.もし理想通りの単音文字体系であれば,単語の綴字を構成する文字数と,その発音を構成する音素数は一致するだろう.英語語彙を構成する各単語について,文字数と音素数の比を求め,その全体の平均値などの統計値を出せば,具体的な指標が得られるはずだ.綴字が余剰的 (redundancy) であるということはこれまでの議論からも予想されるところではあるが,具体的に,文字数対音素数の比は,2:1 程度なのか 3:1 程度なのか,どうなのだろうか.
 まずは,MRC Psycholinguistic Database Search を以下のように検索して,単語ごとの,文字数,音素数,両者の比(=余剰性の指標)の一覧を得る(SQL文の where 以下は,雑音を排除するための条件指定).

select WORD, NLET, NPHON, NLET/NPHON as REDUNDANCY, PHON from mrc2 where NPHON != "00" and WORD != "" and PHON != "";



 この一覧をもとに,各種の統計値を計算すればよい.文字数と音素数の比の平均値は,1.192025 だった.比を0.2刻みにとった度数分布図を示そう.

Letter-Phoneme Ratio in Words

 文字数別に比の平均値をとってみると,興味深いことに3文字以下の単語では余剰性は 1.166174 にとどまり,全体の平均値より小さくなる.一方,4文字から7文字までの単語では平均より高い 1.231737 という値を示す.8文字以上になると再び余剰性は小さくなり,1.157689 となる.文字数で数えて中間程度の長さの単語で余剰性が高く,短い単語と長い単語ではむしろ相対的に余剰性が低いようだ.この理由については詳しく分析していないが,「#1160. MRC Psychological Database より各種統計を視覚化」 ([2012-06-30-1]) でみたように,英単語で最も多い構成が8文字,6音素であるということや,final_e をはじめとする黙字 (silent_letter) の分布と何らかの関係があるかもしれない.
 さて,全体の平均値 1.192025 で示される余剰性の程度がどれくらいのものなのか,ほかに比較対象がないので評価にしにくいが,主観的にいえば理想の値 1.0 から案外と隔たっていないなという印象である.英単語における文字と音素の関係は,「#2292. 綴字と発音はロープでつながれた2艘のボート」 ([2015-08-06-1]) の比喩でいえば,そこそこよく張られた短めのロープで結ばれた関係ともいえるのではないか.
 ただし,今回の数値について注意すべきは,英単語における文字と音素の対応を一つひとつ照らし合わせてはじき出したものではなく,本来はもっと複雑に対応するはずの両者の関係を,それぞれの長さという数値に落とし込んで比を取ったものにすぎないということだ.最終的に求めたい綴字の余剰性そのものではなく,それをある観点から示唆する指標といったほうがよいだろう.それでも,目安となるには違いない.

[ 固定リンク | 印刷用ページ ]

2015-07-08 Wed

#2263. 世界の主要言語の母語話者数の比較 [demography][statistics][world_languages]

 言語の話者人口について,数え方の問題や各種の統計を以下の記事で扱ってきた.

 ・ 「#270. 世界の言語の数はなぜ正確に把握できないか」 ([2010-01-22-1])
 ・ 「#274. 言語数と話者数」 ([2010-01-26-1])
 ・ 「#397. 母語話者数による世界トップ25言語」 ([2010-05-29-1])
 ・ 「#398. 印欧語族は世界人口の半分近くを占める」 ([2010-05-30-1])
 ・ 「#1060. 世界の言語の数を数えるということ」 ([2012-03-22-1])
 ・ 「#1949. 語族ごとの言語数と話者数」 ([2014-08-28-1])
 ・ 「#1375. インターネットの使用言語トップ10」 ([2013-01-31-1])

 今回は,ウェブ上で INFOGRAPHIC: A world of languages - and how many speak them と題する記事と以下のような図を見つけたので,紹介しておきたい.

Top Languages in Infographics

 図示されている母語話者数に関する人口統計は,Ethnologue に基づいているようである.世界で行なわれている7102の言語のうち,5千万人以上の母語話者を擁しているのは23言語のみであり,この23言語だけで41億人をカバーするという.
 大雑把な図なので慎重に読まなければならないが,大言語について内部の諸方言の区分も表現されているなど,よく工夫されている.下方には学習されている言語のランキングもあり,そのうち英語は群を抜いてのトップで15億人の学習者を擁すると見込まれている.

Referrer (Inside): [2016-12-09-1]

[ 固定リンク | 印刷用ページ ]

2015-05-21 Thu

#2215. Niue,英語を公用語としてもつ最小の国(最新版) [map][austronesian][esl][demography][statistics]

 明日5月22日(金)と23日(土)に,福島県いわき市で「いわき太平洋・島サミット2015」が開かれる.日本,オーストラリアを含め,太平洋諸国が参加するサミットで,太平洋地域の相互外交を強化することを狙いとする.ホスト国である日本は,サミット開催に合わせ,一週間前の5月15日に駆け込みでニュージーランド自治領のニウエ (Niue /niˈuːeɪ/; 国民名と形容詞は Niuean /n(j)uːˈ(w)eɪən/) を国家承認することを決定した.日本が承認する国家はこれで195カ国となる.ニュージーランド,中国,インドなどは先だって国家承認しているが,国連には加盟していない.
 ニウエは,ニュージーランドの北東約2400kmに位置し,面積は約259平方km(鹿児島県徳之島とほぼ同じ),人口は約1,500人の島国である.首都は Alofi.以下に,地図と国旗を示す.

Map of Polynesia Map of Niue National Flag of Niue

 この島国の略史を記そう.Captain James Cook が1774年に上陸し,島民の示した敵意にちなんで "Savage Island" と命名.1830年代に宣教団が来島し,1852年に島民がキリスト教化.1900年に英国がサモア分割の一部としてニウエを併合した.翌1901年には,ニュージーランドがクック諸島の一部として同島を併合したが,1904年には島は分離して自治体となった.1974年にニュージーランドと自由連合を組む自治政府が樹立した.内政的にはこのときに事実上独立したいってよいが,島民はニュージーランド市民であり,防衛・外交はニュージーランドに任意で依存してきた.ニュージーランドへの移住者も多い.
 用いられている言語についていえば,EthnologueNiue の項によれば,ニウエ語 (Niuean) と英語が公用語となっている.国民のほとんどがニウエ語を話すが,英語も広く通用する.ニウエ語は,オーストロネシア語族ポリネシア語派に属し,隣接するトンガ語やサモア語に類似する.
 英語史の観点から話題にできることが1つある.ニウエがより広く国際的に国家承認されるのは今後のことになるのかもしれないが,正式に承認されることで,ニウエは「英語を公用語としてもつ最小の国」のタイトルをナウルより奪うことになる.「#1747. 英語を公用語としてもつ最小の国」 ([2014-02-07-1]) で取り上げたナウルは,面積ではニウエよりもずっと小さく,その意味ではいまだ「最小」だが,人口についていえばナウルは約1万人いるのに対し,ニウエは千数百人という規模であるから「最小」と呼ぶことができる.英語とその分布に関連する統計その他の情報を更新する必要が生じてくるだろう.
 関連して,直接ニウエの話題こそ含まれていないが,「#177. ENL, ESL, EFL の地域のリスト」 ([2009-10-21-1]),「#1591. Crystal による英語話者の人口」 ([2013-09-04-1]),「#1676. The Commonwealth of Nations」 ([2013-11-28-1]),「#1700. イギリス発の英語の拡散の年表」 ([2013-12-22-1]) などを参照されたい.英語の拡散との関連では,「#1919. 英語の拡散に関わる4つの crossings」 ([2014-07-29-1]) を参照.
 ニウエに関する外部リンクとしては,以下のものがある.

 ・ 外務省によるニウエ基礎データ
 ・ CIA: The World Factbook による Niue のデータ
 ・ Wikipedia による Niue の記事

Referrer (Inside): [2017-06-07-1]

[ 固定リンク | 印刷用ページ ]

2015-04-29 Wed

#2193. La Francophonie (2) [french][statistics][demography][francophonie][map]

 昨日に引き続き,La Francophonie について.La Francophonie の公式サイト数で見るフランコフォニー に,フランス語に関する人口統計を含む様々な数字が掲載されている.これらの数字は,OIF (Organisation internationale de la Francophonie) による2014年の報告(4年ごとに更新される)に基づくものという.数字をいくつか示そう.

 ・ La Francophonie は80の国・地域が参加する連合(54の加盟国,23のオブザーバー,3の準加盟国)
 ・ フランス語は英語とともに5大陸で話されている言語である
 ・ 世界に2億7400万人のフランス語話者(うち5大陸で2億1200万人が日常言語として使用)
 ・ 世界で1億2500万人のフランス語学習者(7600万人が教育言語として,4900万人が外国語として学習)
 ・ ヨーロッパで7700万人の日常的なフランス語話者,及び5200万人のフランス語能力を有する者
 ・ 世界で5番目によく話される言語
 ・ 世界で3番目の業務用言語(ヨーロッパでは2番目)
 ・ 世界で4番目のインターネット用言語
 ・ 世界で2番目に国際機関で用いられている言語

 上記のサイトにはフランス語に関連する世界地図もいくつか掲載されている.以下に貼り付けよう.

Estimation de francophones

Le monde de la Francophonie

Le monde de la Francophonie et Commonwealth

 上の2つ目の地図にあるように,La Francophonie には54の加盟国 (États de gouvernements membres de l'OIF),23のオブザーバー (États observateurs), 3の準加盟国 (États associés) の計80の国・地域が参加している.地域ごとに名前を挙げよう.

Afrique de l'Ouest

  • Bénin
  • Burkina Faso
  • Cap-Vert
  • Côte d'Ivoire
  • Ghana (État associé)
  • Guinée
  • Guinée Bissau
  • Mali
  • Niger
  • Sénégal
  • Togo
Afrique centrale et océan Indien
  • Burundi
  • Cameroun
  • Centrafrique
  • Congo
  • Congo RD
  • Gabon
  • Guinée équatoriale
  • Rwanda
  • Sao Tomé et Principe
  • Tchad
  • Comores
  • Djibouti
  • Madagascar
  • Maurice
  • Mozanbique (État observateur)
  • Seychelles
Afrique du Nord et Moyen-Orient
  • Egypte
  • Émirats arabes unis (État observateur)
  • Liban
  • Maroc
  • Mauritanie
  • Tunisie
  • Quatar (État associé)
Amérique --- Caraïbe
  • Canada
  • Canada Nouveau-Brunswick
  • Canada Québec
  • Costa Rica (État observateur)
  • Mexique (État observateur)
  • République dominicaine (État observateur)
  • Dominique
  • Haïti
  • Sainte-Lucie
  • Uruguay (État observateur)
Asie --- Pacifique
  • Cambodge
  • Laos
  • Thaïlande (État observateur)
  • Vanuatu
  • Vietnam
Europe
  • Albanie
  • Andorre
  • Arménie
  • Autriche (État observateur)
  • Belgique
  • Bosnie herzégovine (État observateur)
  • Bulgarie
  • Chypre (État associé)
  • Estonie (État observateur)
  • Croatie (État observateur)
  • Ex-Rép. yougoslave de Macédoine
  • France
  • Géorgie (État observateur)
  • Grèce
  • Hongrie (État observateur)
  • Kosovo (État observateur)
  • Lettonie (État observateur)
  • Lituanie (État observateur)
  • Luxembourg
  • Moldavie
  • Monaco
  • Montégnégro (État observateur)
  • Pologne (État observateur)
  • Réep. Tchèque (État observateur)
  • Roumanie
  • Serbie (État observateur)
  • Slovaquie (État observateur)
  • Slovénie (État observateur)
  • Suisse
  • Ukraine (État observateur)
  • Fédération Wallonie-Bruxelles

[ 固定リンク | 印刷用ページ ]

2015-04-01 Wed

#2165. 20世紀後半の借用語ソース [loan_word][statistics][lexicology][french][japanese][borrowing]

 現代英語の新語の導入においては,複合 (compounding) や派生 (derivation) が主たる方法となってきており,借用 (borrowing) の貢献度は相対的に低い.ここ1世紀ほどの推移をみても,借用の割合は全体的に目減りしている (cf. 「#873. 現代英語の新語における複合と派生のバランス」 ([2011-09-17-1]) や「#874. 現代英語の新語におけるソース言語の分布」 ([2011-09-18-1]),「#875. Bauer による現代英語の新語のソースのまとめ」 ([2011-09-19-1]),「#878. Algeo と Bauer の新語ソース調査の比較」([2011-09-22-1]),「#879. Algeo の新語ソース調査から示唆される通時的傾向」([2011-09-23-1])) .
 だが,相対的に減ってきているとはいえ,語彙借用は現代英語でも続いている.#874Algeo の詳細な区分のなかでも示されているように,ソース言語は相変わらず多様である.「#45. 英語語彙にまつわる数値」 ([2009-06-12-1]),「#126. 7言語による英語への影響の比較」 ([2009-08-31-1]),「#142. 英語に借用された日本語の分布」 ([2009-09-16-1]) では,現代英語への語彙提供者として案外日本語が有力であることに触れたが,日本語なども含めたソース言語別のより詳しい割合が知りたいところだ.
 Algeo (78) は,Garland Cannon (Historical Change and English Word-Formation. New York: Peter Lang, 1987. pp. 69--97) の調査に基づいて,20世紀後半に入ってきた借用語彙のソース言語別割合を提示している.具体的には,およそ1963--88年の間に英語に入ってきた借用語を記録する4つの辞書を調査対象とし,ソース言語別に借用語を数え上げ,それぞれの割合を出した.その4つの辞書とは,(1) The Barnhart Dictionary of New English since 1963 (1973), (2) The Second Barnhart Dictionary of New English (1980), (3) Webster's Third (1961), (4) The Barnhart Dictionary Companion Index (1987) である.それぞれから407語, 332語, 523語, 166語を集めた1428語の小さい語彙集合ではあるが,それに基づいて以下の調査結果が得られた.

 (1) BDNE(2) BENE2(3) 81W3(4) BDCRank
French31.4%17.521.212.01
Spanish6.610.86.112.72
Russian3.45.42.124.13
Japanese7.99.36.39.04
African6.17.26.73.05
Italian4.74.510.72.46
German5.95.44.85.47
Greek6.94.88.01.28
Latin5.25.19.4 9
Yiddish5.72.75.03.610
Arabic2.03.91.76.011
Chinese1.74.23.66.012
Portuguese1.02.71.01.813
Hindi2.20.90.22.414
Hebrew0.71.50.41.215
Sanskrit1.71.20.8 16
Persian0.21.2 1.817
Afrikaans0.51.50.4 18
Dutch0.20.3 1.819
Indonesian0.20.30.81.220
Malayo-Polynesian 2.10.2 21
Norwegian0.2 1.50.622
Swedish1.00.31.0 23
Korean 0.60.80.624
Vietnamese1.00.30.6 25
Amerindian 1.20.6 26
Bengali0.50.90.2 27
Danish0.5 1.0 28
Eskimo0.50.30.20.629


 表に記されていない30--56位の言語群は合わせても全体として1%にも満たないが,念のために次のような言語である.Amharic, Annamese, Basque, Bhutanese, Catalan, Czech, Hawaiian, Hungarian, Irish, Khmer, Mongolian, Papuan, Pashto, Pidgin English, Pilipino, Polish, Provençal, Punjabi, Samoan, Scots (Gaelic), Serbo-Croatian, Tahitian, Thai (and Lao), Turkish, Urdu, Welsh, West Indian.
 BDC でロシア語が妙に高い割合を示しているが,これは編集上の偏りに起因する可能性がある.偏りの可能性を差し引いて考えると,ロシア語は順位としてはアラビア語と中国語の間の12位前後に付くと思われる.
 15位までの言語についてグラフ化したのが,下図である.

Source Languages of New Loanwords from 1963 to 1988


 このグラフは,「#874. 現代英語の新語におけるソース言語の分布」 ([2011-09-18-1]) でみた Bauer の調査に基づくグラフの場合とソース言語の設定の仕方が異なるので,比較しにくいところがあるが,フランス語,ギリシア語,ラテン語,ドイツ語などが上位で健闘している様子はいずれのグラフからも見て取ることができる.スペイン語やイタリア語などのロマンス諸語も堅調といってよい.そのなかで,非印欧語として筆頭に立っているのが日本語である.アフリカ諸語,アラビア語,中国語も続いており,英語の cosmopolitan vocabulary 振りは現代においても健在といえるだろう.

 ・ Algeo, John. "Vocabulary." The Cambridge History of the English Language. Vol. 4. Cambridge: CUP, 1998. 57--91.

[ 固定リンク | 印刷用ページ ]

2015-03-31 Tue

#2164. 英語史であまり目立たないドイツ語からの借用 [oed][loan_word][german][lexicology][statistics][lmode][loan_translation][scientific_english]

 ヨーロッパの主要な言語のなかで,ドイツ語は英語の借用語ソースとして意外と目立たない.歴史的にある程度の規模でドイツ借用語が現われるのは後期近代英語からであり,それ以前は僅少である.英語もドイツ語もゲルマン語派 (Germanic) に属し共通の起源をもつということが広く知られている割には,両言語間で借用という横の関係は希薄である.
 英語にドイツ語の語彙的影響が著しくないことは Jespersen (143) や荒木ほか (258) などの英語史概説書でも触れられている通りだが,ドイツ語借用が少ないとはいってもフランス語やラテン語と比べての話しであって,実際にはある程度の数は主として専門用語として入ってきている.近年においても然りのようだ (Algeo 80; 「#874. 現代英語の新語におけるソース言語の分布」 ([2011-09-18-1])) .「#2162. OED によるフランス語・ラテン語からの借用語の推移」 ([2015-03-29-1]) で紹介した Wordorigins.org"Where Do English Words Come From?" でも,次のように述べられている.

Other European languages remain steady, contributing 3--4% of new words throughout the centuries. The exception is German, which starting in the eighteenth century begins to increase its contribution to English vocabulary, reaching 3% of new words all by itself, and nosing ahead of French by the twentieth century.


 上の同じ記事より入手した OED に基づく語種別統計でドイツ借用語の歴史的推移をグラフ化すると,以下のようになる.

Historical Influx of German Loanwords by OED


 宇賀治 (115--17) によれば,ドイツは16世紀に鉱山術や冶金術に長けていたので,その影響が17--18世紀における英語語彙に反映されている(グラフでの若干の高まりも16世紀からである).17世紀以降は食品名の借用も多い.また,ドイツは19世紀に哲学や医学を含む諸学問で飛躍的な発展を遂げたため,専門的な用語や概念が英語へも流れ込んだ(グラフ上も19世紀にピークを迎える).通常の借用のほか,翻訳借用 (loan_translation) が多いのもドイツ語からの借用の特徴といえるかもしれない.以下,分野別にドイツ借用語(翻訳借用も含む)を列挙しよう.

[鉱山・冶金]
cobalt, gneiss, meerschaum, quartz, zinc

[哲学・文芸批評]
folksong, gestalt, leitmotif, nihilism, objective, subjective, superman, transcendental, zeitgeist

[比較言語学]
ablaut, schwa, strong [weak] (declension), Umlaut

[教育制度]
kindergarten, semester, seminar

[物理学・化学]
aniline, dynamo, ohm, protein, relativity, saccharine, sarin, uranium

[医学・薬学]
aspirin, heroin, pepsin, Roentgen-ray [X-ray]

[食品]
delicatessen, frankfurter, hamburger, lager, noodle, pumpernickel, sauerkraut, schnitzel

 ドイツ借用語について紙幅を割いている英語史概説書は多くないが,Carr, Charles T. The German Influence on the English Vocabulary. London: Clarendon, 1934. という研究書があるようである.
 関連して,「#150. アメリカ英語へのドイツ語の貢献」 ([2009-09-24-1]),「#756. 世界からの借用語」 ([2011-05-23-1]) も参照されたい.

(後記 2015/09/06(Sun):Begoña Crespo ("Historical Background of Multilingualism and Its Impact." Multilingualism in Later Medieval Britan. Ed. D. A. Trotter. Cambridge: D. S. Brewer, 2000. p. 29.) によれば,すでに中英語期の15世紀にも,高地ドイツ語からの鉱物学に関する用語がある程度入っていたという.)

 ・ Jespersen, Otto. Growth and Structure of the English Language. 10th ed. Chicago: U of Chicago, 1982.
 ・ 荒木 一雄,宇賀治 正朋 『英語史IIIA』 英語学大系第10巻,大修館書店,1984年.
 ・ Algeo, John. "Vocabulary." The Cambridge History of the English Language. Vol. 4. Cambridge: CUP, 1998. 57--91.

[ 固定リンク | 印刷用ページ ]

2015-03-29 Sun

#2162. OED によるフランス語・ラテン語からの借用語の推移 [oed][loan_word][statistics][french][latin][lexicology]

 Wordorigins.org"Where Do English Words Come From?" と題する記事では,OED をソースとした語種比率の通時的推移の調査報告がある.古英語から現代英語への各世紀に,語源別にどれだけの新語が語彙に加えられたかが解説とともにグラフで示されている.本文中にも述べられているように,見出し語の語源に関して OED の語源欄より引き出された情報は,眉に唾をつけて解釈しなければならない.というのは,語源欄にある言語が言及されていたとしても,それが借用元の語源を表すとは限らないからだ.しかし,およその参考になることは確かであり,通時的な概観のために有用であることには相違ない.
 ここでは,CSV形式あるいはEXCEL形式で公開されている世紀別で語源別の数値を拝借し,フランス語とラテン語から英語語彙へ追加された借用語の推移をグラフ化して並べてみた.

Historical Influx of French Loanwords by OED Historical Influx of Latin Loanwords by OED


 得られた傾向は,一般的な概説書で述べられているものと一致する.フランス語のピークは後期中英語,ラテン語のピークは初期近代英語である.比較すると,ラテン語の規模の著しさがよくわかる.フランス語とラテン語からの借用語に関連する統計については,すでに以下のように多くの記事で取り上げてきたので,そちらも参照されたい.

 [2009-08-22-1]: #117. フランス借用語の年代別分布
 [2009-11-15-1]: #202. 現代英語の基本語彙600語の起源と割合
 [2010-06-30-1]: #429. 現代英語の最頻語彙10000語の起源と割合
 [2010-12-12-1]: #594. 近代英語以降のフランス借用語の特徴
 [2011-02-16-1]: #660. 中英語のフランス借用語の形容詞比率
 [2011-08-20-1]: #845. 現代英語の語彙の起源と割合
 [2011-09-18-1]: #874. 現代英語の新語におけるソース言語の分布
 [2012-08-11-1]: #1202. 現代英語の語彙の起源と割合 (2)
 [2012-08-18-1]: #1209. 1250年を境とするフランス借用語の区分
 [2012-08-20-1]: #1211. 中英語のラテン借用語の一覧
 [2012-09-03-1]: #1225. フランス借用語の分布の特異性
 [2012-09-04-1]: #1226. 近代英語期における語彙増加の年代別分布
 [2012-11-12-1]: #1295. フランス語とラテン語の2重語
 [2014-08-24-1]: #1945. 古英語期以前のラテン語借用の時代別分類

 また,OED の利用に際しては,以下の記事も参照されたい.

 [2010-10-10-1] #:531. OED の引用データをコーパスとして使えるか
 [2010-10-14-1] #:535. OED の引用データをコーパスとして使えるか (2)
 [2010-10-15-1] #:536. OED の引用データをコーパスとして使えるか (3)
 [2011-01-05-1] #:618. OED の検索結果から語彙を初出世紀ごとに分類する CGI
 [2011-01-29-1] #:642. OED の引用データをコーパスとして使えるか (4)

[ 固定リンク | 印刷用ページ ]

2015-01-22 Thu

#2096. SUBTLEX-US Word Frequency List [frequency][statistics][corpus][lexicology][zipfs_law][cgi][web_service]

 従来の英語学研究において,権威ある語彙頻度表といえばアメリカ英語に関する Kucera and Francis (1967) のものや,イギリス英語に比重を置いたより新しいものとして CELEX (1993) やその2版 (cf. 「#1424. CELEX2」 ([2013-03-21-1])) がよく用いられてきた.しかし,最近,これらを批判し,新しい手法に基づいたアメリカ英語の語彙頻度表が現われた.ベルギー,ヘント大学の実験心理学科の提供する SUBTLEXus である.左のHPから,SUBTLEXus の一群の頻度表のファイルや記述がダウンドーロできる.
 SUBTLEXus の基盤にあるコーパスは,8388件の映画の字幕の集成であり,総語数は5100万語に及ぶ.SUBTLEXus の頻度表は,Kucera and Francis や CELEX の頻度表と比べて,いくつかの算出された指標においてすぐれていると主張されている.頻度は,見出し語 (lemma) ごとではなく語形 (word form) ごとに数えられており,例えば名詞であれば単数形と -s 語尾などをもつ複数形は別扱いされる(異なる語形は74,286種類).名詞と動詞など複数の品詞として用いられる語形については,それぞれの品詞ごとの頻度にもアクセスできるし,より優勢な品詞 (Dominant POS) のほうへ合算した頻度へもアクセスできる.データには,ほかに何件の映画に現われているか,小文字として現われているのは何回か,頻度の対数を取った指標,Zipf 指標 (cf. 「#1101. Zipf's law」 ([2012-05-02-1])) なども含まれている.これだけの種類のデータが含まれていると,目的とアイデア次第でおおいに有効に利用できるだろう.話し言葉ベースであることも顕著な特徴だ.
 ダウンロードできるいくつかのデータのなかで "a zipped Excel file of SUBTLEX-US with the Zipf values included" をダウンロードし,少しいじってみた.例えば,(1) 全体的に多く現われ,かつ (2) 多くの映画にも現われる語形は,総合的な意味で頻度が高いと考えられるだろう.そこで (1) と (2) に関する対数の指標を掛け合わせて,それを降順に並べて最初の100語を取ると,正真正銘の最頻単語100語が得られるはずだ.省略形の片割れなども含まれているが,以下がそのリストである.

you, I, the, to, s, a, it, t, that, and, of, what, in, me, is, we, this, he, on, for, my, m, your, don, have, do, re, no, be, know, was, not, can, are, all, with, just, get, here, but, there, ll, so, they, like, right, out, go, up, about, she, if, him, got, at, now, come, oh, one, how, well, want, yeah, her, think, good, see, let, did, why, who, as, going, his, will, from, when, back, time, yes, look, d, take, an, where, man, would, them, been, some, or, tell, us, had, were, say, could, gonna, didn, hey


 ほかには,最頻10語,25語,50語,100語,250語,500語,1,000語,2,500語,5,000語,10,000語,25,000語,50,000語,100,000語について,Dominant POS ごとに数え上げてみることもたやすい.「#666. COCA 最頻5000語で品詞別の割合は?」 ([2011-02-22-1]),「#667. COCA 最頻50万語で品詞別の割合は?」 ([2011-02-23-1]),「#1132. 英単語の品詞別の割合」 ([2012-06-02-1]) の記事でも,別のコーパスにより似たような調査を行ったが,SUBTLEX-US 版の調査結果は次のグラフにまとめられる.

Wordform-Based POS Ratios by SUBTLEXus

 以下はおまけの検索ツール (SUBTLEX-US Word Frequency Extractor) .おまけなので,10例までしか結果が出力されない仕様です.SUBTLEXus の提供する複雑な検索も可能な,SUBTLEXus Online Search もどうぞ.

    

Referrer (Inside): [2020-04-08-1] [2018-01-03-1]

[ 固定リンク | 印刷用ページ ]

2014-09-18 Thu

#1970. 多義性と頻度の相関関係 [polysemy][zipfs_law][information_theory][frequency][statistics]

 基本語彙と呼ばれるものの多面的な性質について「#1960. 英語語彙のピラミッド構造」 ([2014-09-08-1]) で触れた.基本語彙とは,日常的で頻度が高く,早期に習得され,変化しにくく,意味・用法が多岐にわたるなどの特徴をもつ.関連する話題は,「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1]),「#1089. 情報理論と言語の余剰性」 ([2012-04-20-1]),「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]),「#1101. Zipf's law」 ([2012-05-02-1]),「#1874. 高頻度語の語義の保守性」 ([2014-06-14-1]),「#1961. 基本レベル範疇」 ([2014-09-09-1]),「#1965. 普遍的な語彙素」 ([2014-09-13-1]) その他の記事でいろいろと扱ってきた.
 今回は,この問題と関連して,高頻度語は多義的であるという命題について考えてみたい.頻度の高い語ほど語義を多くもち,頻度の低い語は語義を多くもたないということは言語使用の事実に照らして実証されるだろうか.また,理論的にいかに説明されるだろうか.Zipf's law で知られる Zipf は,情報理論の立場からこの課題に挑んだ.
 Zipf は,E. L. Thorndike の英語最頻20,000語と Thorndike-Century Senior Dictionary に基づき,語の頻度と語義数の相関関係を探った.この辞書は,古語や廃語などの特殊な register をもつ語義は掲載しておらず,一般的に用いられる語義のみを掲載している.丹念に調査した結果,ある頻度域と,そこに属する語が示す平均語義数との間に,明らかな相関関係が見いだされた.以下は,Zipf (253) に示されているグラフを再現したものである.両軸ともに対数軸であり,X軸は頻度順位を,Y軸は頻度域の平均語義数を表わす.

Zipf's Correlation between Word Frequency and Number of Senses

 傾きはほぼ0.5に等しく,これは話者の発話と聴者の聴解にかかる費用に関する理論の予測と符合するという.その理論の数学的裏付けは私の理解を超えるので解説できないが,Zipf は結論として語の語義数と頻度(順位)の関係について次のように定式化した (Zipf 255) .

. . . different meanings of a word will tend to be equal to the square root of its relative frequencies (with the possible exception of the few dozen most frequent words)


 背景には,多義の定義やある語の語義をいかに区分するかといった意味論の側で問うべき問題もおおいにあるが,示唆に富んだ結論である.関連して,「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]) や zipfs_law の各記事も参照されたい.

 ・ Zipf, G. K. "The Meaning-Frequency Relationship of Words." Journal of General Psychology 33 (1945): 251--66.

Referrer (Inside): [2018-08-18-1] [2016-08-07-1]

[ 固定リンク | 印刷用ページ ]

2014-09-07 Sun

#1959. 英文学史と日本文学史における主要な著書・著者の用いた語彙における本来語の割合 [statistics][lexicology][literature][style][japanese]

 標題について,Hughes (42) は,Frederic T. Wood (An Outline History of the English Language. London: Heinemann, 1959. p.47) を参照して,数値を挙げている.以下にグラフ化して示そう.

 King James Bible (1611) (94%): ********************************************************************************
Shakespeare (1564--1616) (90%): ****************************************************************************
     Spenser (c1552--99) (86%): *************************************************************************
       Milton (1608--74) (81%): ********************************************************************
    Addison (1672--1719) (82%): *********************************************************************
      Swift (1667--1745) (75%): ***************************************************************
       Pope (1688--1744) (80%): ********************************************************************
      Johnson (1709--84) (72%): *************************************************************
         Hume (1711--76) (73%): **************************************************************
       Gibbon (1737--94) (70%): ***********************************************************
   Macaulay (1881--1958) (75%): ***************************************************************
     Tennyson (1850--92) (77%): *****************************************************************

 最高値を示す The King James Version が94%,最低値を示す Gibbon が70%だが,いずれにせよ相当に高い割合で本来語が用いられていることがわかる.話し言葉において本来語が高いことは容易に予想されるが,上記のような書き言葉において,しかも概して荘厳な文体が好まれた近代英語期に,ここまで本来語比率が高いという事実は注目に値する.特に Milton, Johnson, Gibbon などは難解な語彙を多く用いているという印象が強いが,英語史を通じて中核的であり続けた本来語彙の底力が際立っている.一方,最高値と最低値の間の20%ほどの幅は,それぞれの著者の時代や文体の相対的な差異を浮き彫りにしてくれることも確かである.
 日本語の古典文学についても同様の調査を見てみよう.宮島達夫著『古典対称語い表』に基づいた加藤ほか (68, 73) に挙げられている数値を表にまとめて示す.

 和語漢語混種語語彙量(異なり語数)
万葉集(8世紀後半)99.6%0.3%0.1%6,505
竹取物語(9世紀末?10世紀初め)91.7%6.7%1.6%1,311
伊勢物語(10世紀初め?中ごろ)93.8%5.3%1.0%1,692
古今集(905年)99.9%0.1%0.1%1,994
土佐日記(935年)94.1%4.5%1.4%984
枕草子(1001年ごろ)84.1%12.2%3.6%5,247
源氏物語(11世紀初め)87.1%8.8%4.0%11,423
大鏡(12世紀初めごろ)67.6%27.6%4.8%4,819
方丈記(1212年)78.0%20.1%1.8%1,148
徒然草(1331年頃)68.6%28.1%3.3%4,242


 和語についても,英文学史の場合と同様にグラフ化してみよう.日英語の間で通じるところが多いことに気づくだろう.

            万葉集(8世紀後半) (99%): *******************************************************************************
竹取物語(9世紀末?10世紀初め) (91%): *************************************************************************
 伊勢物語(10世紀初め?中ごろ) (93%): ***************************************************************************
                古今集(905年) (99%): ********************************************************************************
              土佐日記(935年) (94%): ***************************************************************************
           枕草子(1001年ごろ) (84%): *******************************************************************
         源氏物語(11世紀初め) (87%): *********************************************************************
         大鏡(12世紀初めごろ) (67%): ******************************************************
               方丈記(1212年) (78%): **************************************************************
             徒然草(1331年頃) (68%): ******************************************************

 関連して,「#1645. 現代日本語の語種分布」 ([2013-10-28-1]) とそこに張られているリンク,および「#1526. 英語と日本語の語彙史対照表」 ([2013-07-01-1]) を参照されたい.

 ・ Hughes, G. A History of English Words. Oxford: Blackwell, 2000.
 ・ 加藤 彰彦,佐治 圭三,森田 良行 編 『日本語概説』 おうふう,1989年.

Referrer (Inside): [2014-09-08-1]

[ 固定リンク | 印刷用ページ ]

2014-08-28 Thu

#1949. 語族ごとの言語数と話者数 [statistics][world_languages][language_family][demography]

 「#270. 世界の言語の数はなぜ正確に把握できないか」 ([2010-01-22-1]),「#1060. 世界の言語の数を数えるということ」 ([2012-03-22-1]),「#274. 言語数と話者数」 ([2010-01-26-1]),「#398. 印欧語族は世界人口の半分近くを占める」 ([2010-05-30-1]) などの記事で,現代世界の言語の数やそれぞれの話者数を話題にしてきた.この種の統計の難しさは再三指摘してきたが,それを認めた上で,今回は語族 (language_family) ごとの言語数とその話者数の統計を示そう.とはいっても,W. Bright 編の言語学百科事典 (International Encyclopedia of Linguistics. New York and Oxford: OUP, 1992.) に拠っている Crystal (289) の統計値の受け売りにすぎない.1980年代後半現在の推計である.

Language FamilyLanguagesSpeakers
Indo-European3862,500,000,000
Sino-Tibetan2721,088,000,000
Austronesian1212269,000,000
Afro-Asiatic338250,000,000
Niger-Congo1354206,000,000
Dravidian70165,000,000
Japanese12126,000,000
Altaic60115,000,000
Austro-Asiatic17375,000,000
Tai6175,000,000
Korean160,000,000
Nilo-Saharan18628,000,000
Uralic3324,000,000
Amerindian (North, Central, South America)98522,400,000
Caucasian387,800,000
Miao-Yao155,600,000
Indo-Pacific7343,500,000
Khoisan37300,000
Australian aborigine26230,000
Palaeosiberian818,000
Isolates2962,000,000
Total6,5335,022,648,000


 言語数の推計には,310の死滅した言語,71の pidgin/creole,75の手話言語も含まれている.大雑把な推計であることを斟酌しつつも,印欧語族の話者は(当時の)世界人口の約半分を担う大語族であることが知れる.以下は,参考までに,上の図を割合を示す帯グラフにしたものである.

Numbers of Languages and Speakers by the Language Family

 ・ Crystal, David. The Cambridge Encyclopedia of Language. 2nd ed. Cambridge: CUP, 1997.

[ 固定リンク | 印刷用ページ ]

2014-08-24 Sun

#1945. 古英語期以前のラテン語借用の時代別分類 [typology][loan_word][latin][oe][christianity][borrowing][statistics]

 「#32. 古英語期に借用されたラテン語」 ([2009-05-30-1]),「#1437. 古英語期以前に借用されたラテン語の例」 ([2013-04-03-1]) に続いて,古英語のラテン借用語の話題.古英語におけるラテン借用語の数は,数え方にもよるが,数百個あるといわれる.諸研究を参照した Miller (53) は,その数を600--700個ほどと見積もっている.

Old English had some 600--700 loanwords from Latin, about 500 of which are common to Northwest Germanic . . ., and 287 of which are ultimately from Greek, seventy-nine via Christianity . . . .


 個数とともに確定しがたいのはそれぞれの借用語の借用年代である.[2013-04-03-1]の記事では,Serjeantson に従って借用年代を (i) 大陸時代,(ii) c. 450--c. 650, (iii) c. 650--c. 1100 と3分して示した.これは多くの論者によって採用されている伝統的な時代別分類である.これとほぼ重なるが,第4の借用の波を加えた以下の4分類も提案されている.

 (1) continental borrowings
 (2) insular borrowings during the settlement phase [c. 450--600]
 (3) borrowings [600+] from christianization
 (4) learned borrowings that accompanied and followed the Benedictine Reform [c10e]

 この4分類をさらに細かくした Dennis H. Green (Language and History in the Early Germanic World. Cambridge: CUP, 1998.) による区分もあり,Miller (54) が紹介している.それぞれの特徴について Miller より引用し,さらに簡単に注を付す.

 (1a) an early continental phase, when the Angles and Saxons were in Schleswig-Holstein (contact with merchants) and on the North Sea littoral as far as the mouth of the Ems (direct contact with the Romans)
  数は少なく,主として商業語が多い.ローマからの商品,器,道具など.wine が典型例.
 (1b) a later continental period, when the Angles and Saxons had penetrated to the litus Saxonicum (Flanders and Normandy)
  ライン川河口以西でローマ人との直接接触して借用されたと思われる street, tile が典型例.
 (2a) an early phase, featuring possible borrowing via Celtic
  この時期に属すると思われる例は,ガリアで話されていた俗ラテン語と音声的に一致しており,ブリテン島での借用かどうかは疑わしいともいわれる.
 (2b) a later phase, with loans from the continental Franks as part of their influence across the Channel, especially on Kent
 (3) begins "with the coming of Augustine and his 40 companions in 597, and possibly even at an earlier date, with the arrival of Bishop Liudhard in the retinue of Queen Bertha of Kent in the 560s"
  この時期の借用語は古英語期以前の音韻変化をほとんど示さない点で,他の時期のものと異なっている.多くは教会ラテン借用語である.
 (4) of a learned nature, culled from classical Latin texts, and differ little from the classical written form

 実際には,ここまで細かく枠を設定しても,ある借用語をいずれの枠にはめるべきかを確信をもって決することは難しい.continental か insular かという大雑把な分類ですら難しく,さらに曖昧に early か later くらいが精一杯ということも少なくない.

 ・ Miller, D. Gary. External Influences on English: From its Beginnings to the Renaissance. Oxford: OUP, 2012.

[ 固定リンク | 印刷用ページ ]

2014-06-21 Sat

#1881. 接尾辞 -ee の起源と発展 (2) [suffix][pde_language_change][lexicology][statistics][oed][productivity][agentive_suffix]

 昨日の記事「#1880. 接尾辞 -ee の起源と発展 (1)」 ([2014-06-20-1]) に続き,当該接尾辞の現代英語にかけての質的な変化および量的な発展について,Isozaki に拠りながら考える.
 Isozaki は,OED ほかの参考資料に当たり,現代英語から500を超える -ee 語を収集した.そして,これらを初出年代,統語・意味の種別,語幹の語源により分析し,後期近代英語から現代英語にかけての潮流を2点突き止めた.昨日の記事の終わりで述べた,(1) ロマンス系語幹ではなく本来語幹に接続する傾向が生じてきていること,および (2) standee のような動作主(主語)タイプが増えてきていること,の2つである.
 (1) については,OED を用いた調査結果をグラフ化すると以下のようになる (Isozaki 7) .

Origins of -<em>ee</em> Stems Based on <em>OED</em> Data

 フランス語幹に接続する傾向が一貫して強いことは明らかである.しかし,本来語幹に接続する語例が後期近代より現われてきたことは注目に値する.なお,19世紀の爆発期の後で20世紀が地味に見えるのは,OED の語彙収録の特徴によるところが大きいかもしれない.
 次に (2) についてだが,同じく OED を用いて,統語(意味)的な観点から分類した結果は以下の通りである (Isozaki 6) .グラフのなかで,DO は動詞の直接目的語,IO は間接目的語,PO は前置詞目的語,S は主語,Anom. は動詞とは直接に関係しない変則的なものである.

Syntactic Types of -<em>ee</em> Based on <em>OED</em> Data

 従来型の DO タイプが常に優勢であり続けていることが顕著であり,S タイプの拡張は特に目立たないようにみえる.しかし,OED を離れて,1900--2005年の種々の本や参考図書での出現を考慮に入れると,DO が117例,IO が23例,PO が4例,S が32例,Anom. が18例と,S (主語タイプ)の伸張が示唆される (Isozaki 6) .
 -ee 語は臨時語的な使われ方が多いと想像され,使用域の一般化も進んでいるように思われる.今後は語用論的な調査も必要となってくるかもしれない.接辞の生産性 (productivity) という観点からも,アンテナを張っておきたい話題である.

 ・ Isozaki, Satoko. "520 -ee Words in English." Lexicon 36 (2006): 3--23.

Referrer (Inside): [2022-05-10-1]

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow