hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次ページ / page 16 (20)

lexicology - hellog〜英語史ブログ

最終更新時間: 2024-11-22 17:50

2012-09-04 Tue

#1226. 近代英語期における語彙増加の年代別分布 [loan_word][lexicology][statistics][emode][renaissance][inkhorn_term][latin]

 英語史における借用語の最たる話題として,中英語期におけるフランス語彙の著しい流入が挙げられる.この話題に関しては,語彙統計の観点からだけでも,「#117. フランス借用語の年代別分布」 ([2009-08-22-1]) を始めとして,french loan_word statistics のいくつかの記事で取り上げてきた.しかし,語彙統計ということでいえば,近代英語期のラテン借用語を核とする語彙増加のほうが記録的である.
 [2009-08-19-1]の記事「#114. 初期近代英語の借用語の起源と割合」で言及したが,Görlach は初期近代英語の語彙の著しい増大を次のように評価し,説明している.

The EModE period (especially 1530--1660) exhibits the fastest growth of the vocabulary in the history of the English language, in absolute figures as well as in proportion to the total. (136)

. . . the general tendencies of development are quite obvious: an extremely rapid increase in new words especially between 1570 and 1630 was followed by a low during the Restoration and Augustan periods (in particular 1680--1780). The sixteenth-century increase was caused by two factors: the objective need to express new ideas in English (mainly in fields that had been reserved to, or dominated by, Latin) and, especially from 1570, the subjective desire to enrich the rhetorical potential of the vernacular. / Since there were no dictionaries or academics to curb the number of new words, an atmosphere favouring linguistic experiments led to redundant production, often on the basis of competing derivation patterns. This proliferation was not cut back until the late seventeenth/eighteenth centuries, as a consequence of natural selection or a s a result of grammarians' or lexicographers' prescriptivism. (137--38)


Görlach は,A Chronological English Dictionary に基づいて,次のような語彙統計も与えている (137) .これを図示してみよう.

The Growth of the EModE Vocabulary, 1500--1700
Decade15101520153015401550156015701580159016001610162016301640165016601670168016901700
New words4095081415140016091310154818761951330027102281168811221786197313701228974943


 近代英語期のラテン借用について関連する話題は,「#203. 1500--1900年における英語語彙の増加」 ([2009-11-16-1]) や emode loan_word lexicology の各記事を参照.

 ・ Görlach, Manfred. Introduction to Early Modern English. Cambridge: CUP, 1991.
 ・ Finkenstaedt, T., E. Leisi, and D. Wolff, eds. A Chronological English Dictionary. Heidelberg: Winter, 1970.

[ 固定リンク | 印刷用ページ ]

2012-09-03 Mon

#1225. フランス借用語の分布の特異性 [lexicology][statistics][loan_word][french][lexical_stratification]

 「#845. 現代英語の語彙の起源と割合」 ([2011-08-20-1]) や「#1202. 現代英語の語彙の起源と割合 (2)」 ([2012-08-11-1]) でたびたび扱ってきた話題だが,もう1つ似たような統計を Brinton and Arnovick (298) に見つけた.Manfred Scheler に基づいた Angelika Lutz の統計から引用しているものである.General Service List (GSL; [2010-03-01-1]の記事「#308. 現代英語の最頻英単語リスト」ほか,##309,612,1103 を参照),Advanced Learners' Dictionary (ALD), Shorter Oxford English Dictionary (SOED) の3種の語彙リストを語源別に分類し,それぞれの割合を出している.表からグラフを作成してみた.

 SOED (80,096 words)ALD (27,241 words)GSL (3,984 words)
West Germanic22.20%27.43%47.08%
French28.37%35.89%38.00%
Latin28.29%22.05%9.59%
Greek5.32%1.59%0.25%
Other Romance1.86%1.60%0.20%
Celtic0.34%0.25%---
Etymological Breakdown of English Words in Three Word Lists

 この統計のおもしろい点は,左列から右列に向かって対象語彙が小さくなるように並べられていることだ.別の言い方をすれば,語彙の難易度が右列に向かって下がっている.語彙が基本的であればあるほど,本来語の割合が高いことは上記の過去記事でも触れてきたが,意外なことにフランス借用語についても同様の傾向が見られるという.確かに,左列から右列に向かって割合が増えているのは,赤 (West Germanic) と黄色 (French) のみである.それ以外の語種は,むしろ割合が減っている.
 このことから示唆されるのは,フランス借用は,ラテン借用のように文化的で専門的であるばかりではなく,征服者が被征服者に強要した言語接触の結果として,ある程度は基本的でもあるということだ.実際,英語語彙の三層構造 ([2010-03-27-1]) においてフランス語は中層を担っているが,覆う範囲は3層のなかで最も広く,下層へも(そして上層へも)大きくはみ出している.フランス借用語の分布の特異性は,フランス語との接触の歴史の特徴と関連していると考えられる.
 ただし,この統計には不明な点もあり,解釈には注意を要する.本来語は West Germanic という広いくくりのなかに含まれると思われるが,ある程度の数のある北欧語系借用語はどこに納まっているのだろうか.また,上の議論では,特にラテン借用語の割合に対するフランス借用語の割合が鍵を握っているが,[2011-02-09-1][2011-08-23-1]でみたように,フランス借用語とラテン借用語の区別は難しい.語源判定の不確かさをここではどう処理しているのか,判定ミスによって数値はどのくらい変動するのだろうか.直接 Lutz に当たってみる必要がある.

(後記 2012/09/04(Tue): Lutz (147) を参照したところ,上記の北欧語系借用語に関する疑問について,"Other sources of lexical influence have been left out of account here." とあった.詳細は Scheler を参照せよとのことである.)

 ・ Brinton, Laurel J. and Leslie K. Arnovick. The English Language: A Linguistic History. Oxford: OUP, 2006.
 ・ Lutz, Angelika. "When did English Begin?" Sounds, Words, Texts and Change. Ed. Teresa Fanego, Belén Méndez-Naya, and Elena Seoane. Amsterdam and Philadelphia: John Benjamins, 2002. 145--71.

[ 固定リンク | 印刷用ページ ]

2012-08-30 Thu

#1221. 季節語の歴史 [semantic_change][lexicology][metonymy][calendar][onomasiology]

 Fischer が英語の季節語に関する興味深い論文を書いている.要約すると次のようになる.

 ゲルマン文化において,1年は夏と冬の2季に区分されていた.しかし,四季を区分する南欧文化との接触により,早くから春と秋の概念も入ってきてはいた.古英語では,sumerwinter の伝統的な2季区分に加えて,狭義に春の特定の1期間を表わす lencten が 広義に「春」として用いられ,狭義に秋の特定の1期間を表わす hærfest が広義に「秋」として用いられる例があり,現代のように四季の概念も語も揃っていた.ただし,lenctenhærfest のそれぞれの語には相変わらず狭義も併存していたため,専ら広義に季節を表わす現代英語の springautumn, fall と比べると,季節名称としての存在感はやや希薄だった.
 中英語になると,古英語 lencten に対応する語は狭義へと退行する.14--15世紀には広義の「春」を失い,「春」の意味の場を巡る語彙の競合が始まる.「春」の意味の場は不安定となり,かつてのゲルマン的2季区分の記憶ゆえか,sumer が「春」をも含む超広義を発達させる.こうして,13世紀後半には,春の到来を告げる表現 Sumer is icumen in が現われた.
 近代英語に入ると,「春」を巡る競合を制して,spring が台頭してくる.これは,植物が芽吹くイメージに重ね合わせた比喩として,生き生きとした表現に感じられたためかもしれない.spring of the leaf のような metonymy 表現もあれば,spring of the year のような metaphor もあった.同様に,古英語以降長らく「秋」を担当していた hervest も,18世紀の終わりまでには,やはり植物に比喩を取った fall や,フランス借用語の autumn などの類義語に徐々に地位を明け渡した.最終的に,同じように植物に比喩をとった springfall が生き残ったのは偶然ではないだろう.

 Fischer は,以上の結論を得るために,古英語から近代英語にかけての「春」「秋」語彙を詳細に調査し,季節語の多義の消長を示す semasiological diagram と,季節に対応する類義語の消長を示す onomasiological diagram を描いた.結論の一環として,spring の存在は drag-chain によって,harvest の消失は push-chain によって説明されるとしている点も興味深い (86) .

 ・ Fischer, Andreas. "'Sumer is icumen in': The Seasons of the Year in Middle English and Early Modern English". Studies in Early Modern English. Ed. Dieter Kastovsky. Mouton de Gruyter, 1994. 79--95.

[ 固定リンク | 印刷用ページ ]

2012-08-20 Mon

#1211. 中英語のラテン借用語の一覧 [latin][loan_word][lexicology][me][wycliffe][bible][statistics]

 昨日の記事「#1210. 中英語のフランス借用語の一覧」 ([2012-08-19-1]) に続いて,今回は中英語に借用されたラテン語の一覧を掲げたい.「#120. 意外と多かった中英語期のラテン借用語」 ([2009-08-25-1]) でも57語からなる簡単な一覧を示したが,Baugh and Cable (185) を参照して,もう少し長い123語の一覧とした.むろん網羅的ではなくサンプルにすぎない.
 中英語期には,ラテン語は14--15世紀を中心に千数百語ほどが借用されたといわれる.教会関係者や学者を通じて,話し言葉から入ったものもあるが,主として文献から入ったものである.ラテン語から英語への翻訳に際して原語を用いたという背景があり,Wycliffe とその周辺による聖書翻訳が典型例だが,Bartholomew Anglicus による De Proprietatibus Rerum を Trevisa が英訳した際にも数百語のラテン語が入ったという事例がある (Baugh and Cable 184) .

abject, actor, adjacent, adoption, allegory, ambitious, ceremony, client, comet, conflict, conspiracy, contempt, conviction, custody, depression, desk, dial, diaphragm, digit, distract, equal, equator, equivalent, exclude, executor, explanation, formal, frustrate, genius, gesture, gloria, hepatic, history, homicide, immune, impediment, implement, implication, incarnate, include, incredible, incubus, incumbent, index, individual, infancy, inferior, infinite, innate, innumerable, intellect, intercept, interrupt, item, juniper, lapidary, lector, legal, legitimate, library, limbo, lucrative, lunatic, magnify, malefactor, mechanical, mediator, minor, missal, moderate, necessary, nervous, notary, ornate, picture, polite, popular, prevent, private, project, promote, prosecute, prosody, pulpit, quiet, rational, recipe, reject, remit, reprehend, requiem, rosary, saliva, scribe, script, scripture, scrutiny, secular, solar, solitary, spacious, stupor, subdivide, subjugate, submit, subordinate, subscribe, substitute, summary, superabundance, supplicate, suppress, temperate, temporal, testify, testimony, tincture, tract, tradition, tributary, ulcer, zenith, zephyr


 なお,赤字で示した語は,現代英語の頻度順位で1000位以内に入る高頻度語である(Frequency Sorter より).ラテン借用語に意外と身近な側面があることがわかるだろう.

 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.

[ 固定リンク | 印刷用ページ ]

2012-08-19 Sun

#1210. 中英語のフランス借用語の一覧 [french][loan_word][lexicology][me][web_service][cgi]

 中英語にフランス語から借用された単語リストはどの英語史概説書にも掲載されているが,本ブログでも簡便に参照できるように一覧化ツールを作ってみた.
 フランス借用語の簡易データベースを,Baugh and Cable (169--74, 177) に基づいて作成し,意味その他の基準で9個のカテゴリーに分けた (Miscellany; Fashion, Meals, and Social Life; Art, Learning, Medicine; Government and Administration; Law; Army and Navy; Christian Church; 15th-Century Literary Words; Phrases) .954個の語句からなるデータを納めたテキストファイルはこちら.ここから,カテゴリーごとに10語句をランダムに取り出したのが,以下のリストである.このリストに飽き足りなければ,


をクリックすれば,次々にランダムな一覧が生成される.「こんな語句もフランス語だったとは」と驚かせるプレゼン用途にどうぞ.

  1. Miscellany
  2. please, curious, scandal, approach, faggot, push, fierce, double, purify, carpenter

  3. Fashion, Meals, and Social Life
  4. train, pullet, mustard, sugar, enamel, mackerel, sole, fashion, jollity, russet

  5. Art, Learning, Medicine
  6. pulse, color, cloister, pen, pillar, ceiling, base, lattice, cellar, sulphur

  7. Government and Administration
  8. rebel, retinue, reign, duchess, allegiance, treaty, nobility, court, tax, statute

  9. Law
  10. mainpernor, arson, judge, property, culpable, amerce, convict, bounds, innocent, legacy

  11. Army and Navy
  12. arm, array, arms, soldier, chieftain, portcullis, havoc, brandish, stratagem, combat

  13. Christian Church
  14. incense, faith, abbey, passion, immortality, cardinal, friar, legate, virtue, convent

  15. 15th-Century Literary Words
  16. ingenious, appellation, destitution, harangue, prolongation, furtive, sumptuous, combustion, diversify, representation

  17. Phrases
  18. according to, to hold one's peace, without fail, in vain, on the point of, subject to, to make believe, by heart, at large, to draw near



 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.

[ 固定リンク | 印刷用ページ ]

2012-08-18 Sat

#1209. 1250年を境とするフランス借用語の区分 [french][loan_word][me][norman_french][lexicology][statistics][bilingualism]

 英語におけるフランス借用語の話題は,french loan_word などの多くの記事で扱ってきた.特に中英語期にフランス借用語が大量に借用された経緯とその借用の速度について,「#117. フランス借用語の年代別分布」 ([2009-08-22-1]) 及び「#1205. 英語の復権期にフランス借用語が爆発したのはなぜか」 ([2012-08-14-1]) で記述した.借用の速度でみると,13世紀の著しい伸びがフランス語借用史の1つの転換点となっているが,この前後ではフランス語借用について何がどう異なっているのだろうか.Baugh and Cable (168--69) により,それぞれの時代の特徴を概説しよう.
 ノルマン・コンクェストから1250年までのフランス借用語は,(1) およそ900語と数が少なく,(2) Anglo-Norman の音韻特徴を示す傾向が強く,(3) 下流階級の人々が貴族階級との接触を通じて知るようになった語彙,とりわけ位階,文学,教会に関連する語彙が多い.例としては,baron, noble, dame, servant, messenger, feast, minstrel, juggler, largess; story, rime, lay, douzepers など.
 一方,1250年以降のフランス借用語の特徴は次の通り.(1) 1250--1400年に爆発期を迎え,この1世紀半のあいだに英語史における全フランス借用語の4割が流入した.なお,中英語期に限れば1万語を超える語が英語に流れ込み,そのうちの75%が現在にまで残る (Baugh and Cable 178) .(2) フランス語に多少なりとも慣れ親しんだ上流階級が母語を英語へ切り替える (language shift) 際に持ち込んだとおぼしき種類の語彙が多い.彼らは,英語本来語の語彙では満足に表現できない概念に対してフランス語を用いたこともあったろうし,英語の習熟度が低いためにフランス語で代用するということもあったろうし,慣れ親しんだフランス語による用語を使い続けたということもあったろう.(3) 具体的には政治・行政,教会,法律,軍事,流行,食物,社会生活,芸術,学問,医学の分野の語彙が多いが,このような区分に馴染まないほどに一般的で卑近な語彙も多く借用されている.
 要約すれば,1250年を境とする前後の時代は,誰がどのような動機でフランス語を借用したかという点において対照的であるということだ.Baugh and Cable (169) は,鮮やかに要約している.

In general we may say that in the earlier Middle English period the French words introduced into English were such as people speaking one language often learn from those speaking another; in the century and a half following 1250, when all classes were speaking or learning to speak English, they were also such words as people who had been accustomed to speak French would carry over with them into the language of their adoption. Only in this way can we understand the nature and extent of the French importations in this period.


 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.

[ 固定リンク | 印刷用ページ ]

2012-08-11 Sat

#1202. 現代英語の語彙の起源と割合 (2) [lexicology][loan_word][statistics][old_norse]

 [2011-08-20-1]の記事「#845. 現代英語の語彙の起源と割合」で,現代英語の最頻語を借用元言語別に分別した統計値を紹介した.このような語彙統計は,何を資料に使ったか,どのような方法で調査したかなどによって結果が変動しがちであるため,複数の調査結果を照らし合わせて評価するのがよい.Schmitt and Marsden (82) は,Bird による調査結果の統計値を与えている.これをグラフ化してみた.(数値データは,HTMLソースを参照.)

Sources of the most frequent 7,476 words of English

 続けて Schmitt and Marsden (83) は,英語本来語のみで構成された印象深い1節を紹介している.

But with all its manifold new words from other tongues, English could never have become anything but English. And as such it has sent out to the world, among many other things, some of the best books the world has ever known. It is not unlikely, in the light of writings by Englishmen in earlier times, that this would have been so even if we had never taken any words from outside the word hoard that has come down to us from those times. It is true that what we have borrowed has brought greater wealth to our word stock, but the true Englishness of our mother tongue has in no way been lessened by such loans, as those who speak and write it lovingly will always keep in mind.


 [2010-04-20-1]の記事「#358. アイスランド語と英語の関係」のなかで,"Though they are both weak fellows, she gives them gifts." という北欧単語のみで構成された英文(ただし語源について北欧系かどうか疑わしい語も含まれている)を提示したが,これはさすがに不自然で,強引な文だ.しかし,英語本来語で構成された上の文章は十分に自然だ.
 フランス借用語のみで構成された文章は可能だろうか.可能だとしても,どのくらい自然だろうか.

 ・ Schmitt, Norbert, and Richard Marsden. Why Is English Like That? Ann Arbor, Mich.: U of Michigan P, 2006.

[ 固定リンク | 印刷用ページ ]

2012-08-02 Thu

#1193. フランス語に脅かされた英語の言語項目 [me][french][loan_word][suffix][adjective][grammaticalisation][semantic_change][lexicology][french_influence_on_grammar]

 中英語期に,フランス語の影響で,英語の本来的な言語要素が脅かされたり,置き換えられたり,変化を余儀なくされた例は枚挙にいとまがない.語のレベルではもっとも顕著であり,フランス借用語の流入ゆえに古英語語彙の多くが廃用へと追い込まれた.人名についても同じことが言えるし,綴字習慣の多くの部分についても然り,語の意味においてもそうだ ([2009-09-01-1]の記事「#127. deer, beast, and animal」などを参照).
 あまり目立たないところでは,接尾辞についても同じことが言えるという指摘がある.米倉先生の論文 (238) によれば,初期中英語では,本来語要素である名詞を派生する接尾辞 -ness は "action of A", "quality of A", "thing that is A", "place of being A" などの広い意味をもっており,対応するフランス語要素である -ity は "quality of being A" のみだった.ところが,後期中英語になると,-ness は "quality of being A" のみへと意味を限定し,逆に -ity は "quality of being A" と "aggregate of being A" の意味を合わせもつようになった.つまり,意味の広がりという観点からすると,-ness と -ity の立場が逆転したことになる.ただし,対象語の意味を詳しく検討した米倉先生は,必ずしもこの概説は当たっておらず,中英語期中は両接尾辞ともに多義であったのではないかとも述べている.とはいえ,-ness が,近代英語期以降に意味を単純化し,固有の意味を失いながら,ついには名詞を派生するという形態的役割をもつのみとなった事実(=文法化 "grammaticalisation")をみれば,少なくとも意味の範囲という点では,数世紀にわたって,いかにフランス語要素 -ity に脅かされてきたかが知れよう.
 接尾辞における英語とフランス語の対決および逆転現象という議論を読みながら考えていたのは,[2012-05-01-1]の記事「#1100. Farsi の形容詞区分の通時的な意味合い」で述べた,形容詞の意味範囲の語種による差についての仮説である.その仮説を繰り返そう.

古英語では,形容詞はほぼ本来語のみであり,意味にしたがって Class A, B, C の3種類があった.中英語以降,フランス語やラテン語から大量の形容詞が借用され([2011-02-16-1]の記事「#660. 中英語のフランス借用語の形容詞比率」),その多くは記述的語義をもっていたため,Class A や Class C に属していた本来語はその圧力に屈して対応する記述的語義を失っていった.つまり,本来語は主として評価的語義をもった Class B に閉じ込められた.一方,借用語も次第に評価的語義を帯びて Class B や Class C へ侵入し,そこでも本来語を脅かした.その結果としての現在,借用語はクラスにかかわらず広く分布しているが,本来語は主要なものが Class B に属しているばかりである.


 -ness と -ity の意味範囲の対立や deer, beast, animal の意味の場を巡る競合は,特定の語や接尾辞の意味に関する単発的な問題だが,より大きな語彙や語種というレベルでも,英仏語勢力の大規模な逆転現象が起こっているのではないか.

 ・ 米倉 綽 「後期中英語における接尾辞の生産性―-ityと-nessの場合―」『ことばが語るもの―文学と言語学の試み―』米倉 綽 編,英宝社,2012年,213--48頁.

Referrer (Inside): [2015-01-24-1] [2013-02-25-1]

[ 固定リンク | 印刷用ページ ]

2012-07-15 Sun

#1175. ロマンス系動詞借用以前の副詞の役割 [romancisation][lexicology][latin][french][adverb][synonym][japanese][onomatopoeia][lexical_stratification]

 英語語彙の三層構造について,「#334. 英語語彙の三層構造」 ([2010-03-27-1]) を始めとする記事で取り上げてきた.本来語とロマンス系借用語との差は,意味や語法上の微妙な差として現われることが多い.例えば,本来語動詞 beat が "to defeat, to win against sb" であるのに対して,フランス語動詞 vanquish は "to defeat sb completely" である.また,本来語動詞 wet が "to make sth wet" であるのに対して,フランス語形容詞から派生した動詞 moisten は "to make sth slightly wet" である.動詞についていえば,類義語間の差異は,多くの場合,迂言的に言い換えた場合の副詞(相当語句)の差異や有無であることが多い.
 このことを逆からみれば,ロマンス系動詞が借用される以前の時代(古英語や初期中英語)には,類義語は貧弱であり,表現力を求めるのであれば,副詞(相当語句)により迂言的に表現せざるを得なかったということになる.特に文学の文体における副詞の役割は大きかったに違いない.Donner (2) は,次のように指摘している.

In a period of the language antecedent to the influx of Latin verbs that allow modern authors so readily both to designate an act and to characterize its quality within a single word, modal qualifiers are likely to play rather a more important role than they currently do in literary rhetoric, which largely avoids them . . . .


 中英語期以降,法 (mood) を含意する副詞の役割が大きくなっていることは,Killie (127) などの言及している "adverbialization process" として認められるが,それ以前の時代にも,それとは異なる意味においてではあるが,上記の動詞語彙の貧弱さとの関連において,副詞の役割は重要だったと考えられる.
 ここで思い出すのは,日本語における動詞の貧弱さと擬音語様態副詞の豊富さだ.和語の動詞は比較的少なく,多くは漢語に補助動詞「する」を付加した派生的な動詞である.漢語が借用される以前の日本語では,先述の諸期中英語以前の状況と同様に,表現力を求めるかぎり,副詞的な役割をもつ語に依存せざるを得なかった.日本語の場合,副詞的な役割をもつ語として,擬音語が異常に発達していたことは広く知られている.現代の「ゴロゴロ」「スヤスヤ」「ジリジリ」「プンプン」「シトシト」「ベロンベロン」等々.漢語の動詞が大量生産された後もこれらの擬音語は遺産として引き継がれ,拡大すらしたが,動詞の表現力を補う副詞としての役割は,相対的に減じているのかもしれない.同様に,英語の副詞はロマンス系動詞の大量借用後も遺産として引き継がれ,拡大すらしたが,動詞の表現力を補う副詞としての役割は,相対的に減じてきたのではないか.
 ただし,これは,Donner も触れているとおり,"literary rhetoric" というレジスターにおいてのみ有効な議論かもしれない.いや,それすらも危うい.英語の副詞や日本語の擬音語の多用は幼稚な印象を与えかねない一方で,時にこれらの表現は驚くほど印象的な修辞を生み出すこともあるからだ.しかし,この問題は,英語史にとっても,日英語の比較にとっても,エキサイティングなテーマとなるに違いない.

 ・ Killie, Kristin. "The Spread of -ly to Present Participles." Advances in English Historical Linguistics. Ed. Jacek Fisiak and Marcin Krygier. Mouton de Gruyter: Berlin and New York: 1998. 119--34.
 ・ Donner, Morton. "Adverb Form in Middle English." English Studies 72 (1991): 1--11.

[ 固定リンク | 印刷用ページ ]

2012-07-03 Tue

#1163. オンライン語彙データベース DICT.ORG [web_service][dictionary][lexicology][link]

 The DICT Development Group による DICT.ORG は,ウェブ上の様々な語彙データベースや辞書を利用するための統一的な仕様を提供するサービスである.登録されている語彙データベースを利用するインターフェースはこちら
 辞書というよりは語彙データベースと呼ぶ方が適切なのは,ある語の定義や発音などを与えてくれるというよりは,ある条件(主として綴字上の条件)を満たす語の一覧を作成するのが得意だからだ.ある特定の目的で行なわれる語彙研究のために,単語リストを準備するのに役立つ.
 DICT.ORG で利用できる辞書はオンライン上で公開されている無料のものが多いが,語彙データベースとしての使用を前提とすれば,機能的には十分である.条件指定の方法("strategy" と呼ばれる;以下参照)は,電子辞書などでお馴染みの,綴字の完全一致,前方一致,後方一致,部分一致のほか,正規表現も完全にサポートしており,近似した綴字の語を取り出す Levenshtein distance 検索や Soundex algorithm 検索も実装されている.

 Strategy   Description
---------   -----------
    first : Match the first word within headwords
    exact : Match headwords exactly
       re : POSIX 1003.2 (modern) regular expressions
     last : Match the last word within headwords
  nprefix : Match prefixes (skip, count)
  soundex : Match using SOUNDEX algorithm
      lev : Match headwords within Levenshtein distance one
     word : Match separate words within headwords
   suffix : Match suffixes
   regexp : Old (basic) regular expressions
substring : Match substring occurring anywhere in a headword
   prefix : Match prefixes

 出力が非常にシンプルであり,まさに語の一覧という体裁なので,この一覧を拾い上げて,別の語彙ツールに投げ込むという使い方もできる.語彙研究に役立つツールを開発するためのベースとして利用できるのではないか.ウェブ上のインターフェースのほか,ローカルからは,Perl で書かれた dict というクライアントなどを経由して利用できる.
 DICT.ORG からは,英語の語彙データベースや辞書への役立つリンクが張られていて便利.特に Dictionary Database SiteOther Database InformationLinguistic Data Resources on the Internet: Dictionaries, Lexica, and Lexical Resources の情報が有用.

Referrer (Inside): [2018-08-24-1]

[ 固定リンク | 印刷用ページ ]

2012-07-01 Sun

#1161. 英語と日本語における語彙の音節数別割合 [lexicology][statistics][syllable][corpus][japanese]

 昨日の記事「#1160. MRC Psychological Database より各種統計を視覚化」 ([2012-06-30-1]) の (3) で,英語語彙を音節数により分別して,それぞれの頻度を出した.それによると,対象となった92767語の語彙全体における1音節語,2音節語,3音節語,4音節語の占める割合は,それぞれ13.46%,35.40%,29.91%,15.26%であり,合わせて94.03%に達する.とりわけ2音節語と3音節語を合わせて65.31%である.9万余という大規模な語彙で調査する限り,英語語彙の3分の2近くは2--3音節語であるということになる.
 一方,##348,349,355 の記事では,BNC や COLT のコーパスを用いて,最も頻度の高い数百語から数千語を対象に音節数調査を行なった.調査対象となる語彙の規模は格段に小さく,それに従って音節数別の割合も変わる.1音節語と2音節語が優勢であり,最大の6000語規模の調査でもこの2種類だけで68.7%を占める(「#349. BNC Word Frequency List による音節数の分布調査 (2)」 ([2010-04-11-1]) のグラフを参照).対象とする語彙規模により,優勢な占有率を示す音節数が変動することがわかるが,全般的に,英語語彙においては1--3音節語が主要であることは間違いないだろう.
 では,日本語の語彙について,音節数別の割合はどうだろうか.加藤ほか (80) では,林大氏による『日本語アクセント辞典』の見出し語形に基づく拍数の分布の調査結果が要約されている.辞典の見出し語形であるから対称語彙は数万語の規模と思われる.以下のような結果が出た.

1拍2拍3拍4拍5拍6拍7拍8拍9拍10拍
0.34.822.738.817.711.03.31.20.20.1100


 割合のピークは4拍語にあり,その前後の3拍語と5拍語を合わせて79.2%,6拍語を加えれば90.2%になる.英語の語彙の主たる構成要素が1--3音節語とすれば,日本語の語彙の主たる構成要素は3--5拍語となる.音節数でみる限り,英単語は相対的に短く,日本語単語は相対的に長いことがよくわかる.
 両言語間の際だった差異は,音韻数の差と音節構造の差に起因するといってよいだろう.音韻数については,[2012-02-12-1]の記事「#1021. 英語と日本語の音素の種類と数」で見たとおり,著しい差がある.また,音節構造については,日本語の音節がほぼ「子音+母音」の1形式だけであるのに対して,英語の音節は,[2012-02-14-1]の記事「#1023. 日本語の拍の種類と数」で示唆したとおり,数万形式がある.
 日本語の語彙は,2拍語を基本としていると考えられる.和語でも漢語でも2±1拍語が多く,語彙の膨張に従って,その結合が増え,結果として4±1拍語が主流となってきた経緯がある.洋語についても,優勢な4拍語に合わせて「マスコミュニケーション」→「マスコミ」,「ハンガーストライキ」→「ハンスト」,「エンジンストップ」→「エンスト」と省略されることが多い.2拍語を基本とした日本語語彙の成立と,その後の発展については,小松 (48--62) が詳しい.

 ・ 加藤 彰彦,佐治 圭三,森田 良行 編 『日本語概説』 おうふう,1989年.
 ・ 小松 秀雄 『日本語の歴史 青信号はなぜアオなのか』 笠間書院,2001年.

[ 固定リンク | 印刷用ページ ]

2012-06-30 Sat

#1160. MRC Psychological Database より各種統計を視覚化 [lexicology][statistics][syllable][corpus]

 [2012-06-28-1], [2012-06-29-1]と連日紹介してきた MRC Psycholinguistic Database に基づいて,4つの英語語彙統計を図示したい.原データファイルの仕様に示されている統計表をもとにグラフを作成しただけだが,別のコーパスに基づいて類似した調査を行なってきたものもあるので,比較に値するだろう.数値データは,HTMLソースを参照.

(1) 文字数による頻度
Word Frequency by Number of Letters in MRC Psychological Database

(2) 音素数による頻度
Word Frequency by Number of Phonemes in MRC Psychological Database

 (参考)
 ・ [2012-02-13-1]: 「#1022. 英語の各音素の生起頻度」

(3) 音節数による頻度
Word Frequency by Number of Syllables in MRC Psychological Database

 (参考)
 ・ [2010-04-09-1]: 「#347. 英単語の平均音節数はどのくらいか?」
 ・ [2010-04-10-1]: 「#348. BNC Word Frequency List による音節数の分布調査」
 ・ [2010-04-11-1]: 「#349. BNC Word Frequency List による音節数の分布調査 (2)」
 ・ [2010-04-17-1]: 「#355. COLT Word Frequency List による音節数の分布調査」

(4) 品詞による頻度
Word Frequency by Syntactic Category in MRC Psychological Database

 (参考)
 ・ [2012-06-02-1]: 「#1132. 英単語の品詞別の割合」
 ・ [2011-02-23-1]: 「#667. COCA 最頻50万語で品詞別の割合は?」
 ・ [2011-02-22-1]: 「#666. COCA 最頻5000語で品詞別の割合は?」
 ・ [2011-02-16-1]: 「#660. 中英語のフランス借用語の形容詞比率」

 その他,語彙の頻度や,語種別の割合については以下の記事も参照.

 ・ [2010-03-01-1]: 「#308. 現代英語の最頻英単語リスト」
 ・ [2011-08-20-1]: 「#845. 現代英語の語彙の起源と割合」
 ・ [2012-01-07-1]: 「#985. 中英語の語彙の起源と割合」

Referrer (Inside): [2015-08-21-1] [2012-07-01-1]

[ 固定リンク | 印刷用ページ ]

2012-06-29 Fri

#1159. MRC Psycholinguistic Database Search [cgi][web_service][lexicology][frequency][statistics]

 昨日の記事[2012-06-28-1]で紹介した英語語彙データベース MRC Psycholinguistic Database を,本ブログ上から簡易検索するツールを作成した.実際には検索ツールというよりは,MRC Psycholinguistic Database を用いると,こんなことができるということを示すデモ版にすぎず,出力結果は10行のみに限定してある.本格的な使用には,昨日示したページからデータベースと検索プログラムをダウンロードするか,ウェブ上のインターフェース (Online search (answers limited to 5000 entries) or Online search (limited search capabilities)) よりどうぞ.

    


 以下,使用法の説明.SQL対応で,テーブル名は "mrc2" として固定.フィールドは以下の27項目:ID, NLET, NPHON, NSYL, K_F_FREQ, K_F_NCATS, K_F_NSAMP, T_L_FREQ, BROWN_FREQ, FAM, CONC, IMAG, MEANC, MEANP, AOA, TQ2, WTYPE, PDWTYPE, ALPHSYL, STATUS, VAR, CAP, IRREG, WORD, PHON, DPHON, STRESS.各パラメータが取る値の詳細については,原データファイルの仕様を参照のこと(仕様中に示されている各種統計値はそれ自身が非常に有用).select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# 文字数で語彙を分別
select NLET, count(NLET) from mrc2 group by NLET;

# 音素数で語彙を分別
select NPHON, count(NPHON) from mrc2 group by NPHON;

# 音節数で語彙を分別
select NSYL, count(NSYL) from mrc2 group by NSYL;

# -ed で終わる形容詞を頻度順に
select WORD, K_F_FREQ from mrc2 where WTYPE = 'J' and WORD like '%ed' order by K_F_FREQ desc;

# 2音節の名詞,形容詞,動詞を強勢パターンごとに分別 (「#814. 名前動後ならぬ形前動後」 ([2011-07-20-1]) 及び「#801. 名前動後の起源 (3)」 ([2011-07-07-1]) を参照)
select WTYPE, STRESS, count(*) from mrc2 where NSYL = 2 and WTYPE in ('N', 'J', 'V') group by WTYPE, STRESS;

# <gh> の綴字で終わり,/f/ の発音で終わる語
select distinct WORD, DPHON from mrc2 where WORD like '%gh' and DPHON like '%f';

# 不規則複数形を頻度順に
select WORD, K_F_FREQ from mrc2 where IRREG = 'Z' and TQ2 != 'Q' order by K_F_FREQ desc;

# 馴染み深く,具体的な意味をもつ語
select distinct WORD, FAM from mrc2 where FAM > 600 and CONC > 600;

# イメージしやすい語
select distinct WORD, IMAG from mrc2 order by IMAG desc limit 30;

# 「有意味」な語
select distinct WORD, MEANC, MEANP from mrc2 order by MEANC + MEANP desc limit 30;

# 名前動後など品詞によって強勢パターンの異なる語
select WORD, WTYPE, DPHON from mrc2 where VAR = 'O';

[ 固定リンク | 印刷用ページ ]

2012-06-28 Thu

#1158. MRC Psycholinguistic Database [web_service][lexicology][frequency][statistics]

 心理言語学の分野ではよく知られた英語の語彙データベースのようだが,「#1131. 2音節の名詞と動詞に典型的な強勢パターン」 ([2012-06-01-1]) と「#1132. 英単語の品詞別の割合」 ([2012-06-02-1]) で参照した Amano の論文中にて,その存在を知った.MRC Psycholinguistic Database は,150837語からなる巨大な語彙データベースである.各語に言語学的および心理言語学的な26の属性が設定されており,複雑な条件に適合する語のリストを簡単に作り出すことができるのが最大の特徴だ.特定の目的をもった心理言語学の実験に用いる語彙リストを作成するなどの用途に特に便利に使えるが,検索パラメータの組み合わせ方次第では,容易に語彙統計学の研究に利用できそうだ.
 パラメータは実に多岐にわたる.文字数,音素数,音節数の指定に始まり,種々のコーパスに基づく頻度の範囲による絞り込みも可能.心理言語学的な指標として,語の familiarity, concreteness, imageability, meaningfulness なども設定されている.品詞などの統語カテゴリーはもちろん,接頭辞,接尾辞,略語,ハイフン形などの形態カテゴリーの指定もできる.発音や強勢パターンの指定にも対応している.組み合わせによって,およそのことができるのではないかと思わせる精緻さである.
 全データベースと検索プログラムはこちらからダウンロードできるが,プログラムをコンパイルするなど面倒が多いので,ウェブ上のインターフェースを用いるのが便利である.2つのインターフェースが用意されており,それぞれ機能は限定されているが,通常の用途には十分だろう.

 ・ Online search (answers limited to 5000 entries): パラメータの細かい指定が可能だが,出力結果は5000語までに限られる.
 ・ Online search (limited search capabilities): 出力結果の数に制限はないが,言語学的なパラメータの細かい指定(綴字や発音のパターンの直接指定など)はできない.

 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

Referrer (Inside): [2012-06-30-1] [2012-06-29-1]

[ 固定リンク | 印刷用ページ ]

2012-06-18 Mon

#1148. 古英語の豊かな語形成力 [oe][lexicology][derivation][compound][compounding][word_formation][productivity][kenning]

 古英語の語形成 (word formation) が,派生 (derivation) や複合 (compounding) により,著しく豊かであることは,古英語の文法書や英語史の概説書を通じてよく知られている.Baugh and Cable (64--65) では,印象的な例として,古英語 mōd "mood, heart, mind, spirit; boldness, courage, pride, haughtiness" という1つの語根から,100以上の語が形成されるという事実が紹介されている.100個とまではいかないが,そこで挙げられている語を,意味とともに列挙してみよう.

 ・ mōdig "spirited, bold, high-minded, arrogant, stiff-necked"
 ・ mōdiglic "magnanimous"
 ・ mōdiglīce "boldly; proudly"
 ・ mōdignes "magnanimity; pride"
 ・ mōdigian "to bear oneself proudly or exultantly; to be indignant, to rage"
 ・ gemōdod "disposed; minded"
 ・ mōdfull "haughty"
 ・ mōdlēas "spiritless"

 ・ mōdsefa "mind, thought, understanding"
 ・ mōdgeþanc "mind, thought, understanding"
 ・ mōdgeþoht "mind, thought, understanding"
 ・ mōdgehygd "mind, thought, understanding"
 ・ mōdgemynd "mind, thought, understanding"
 ・ mōdhord "mind, thought, understanding"

 ・ mōdcræft "intelligence"
 ・ mōdcræftig "intelligent"

 ・ glædmōdnes "kindness"
 ・ mōdlufu "affection"
 ・ unmōd "despondency"
 ・ mōdcaru "sorrow"
 ・ mōdlēast "want of courage"
 ・ mādmōd "folly"
 ・ ofermōd "pride"
 ・ ofermōdigung "pride"
 ・ ofermōdig "proud"
 ・ hēahmōd "proud; noble"
 ・ mōdhete "hate"

 ・ micelmōd "magnanimous"
 ・ swīþmōd "great of soul"
 ・ stīþmōd "resolute; obstinate"
 ・ gūþmōd "warlike"
 ・ torhtmōd "glorious"
 ・ mōdlēof "beloved"

 Hall の古英語辞書(第2版)で mōdig 周辺をのぞくと,ほかにも関連語のあることがわかる.

MOD in Hall's Dictionary

 確かに古英語の語形成の "resourcefulness" には驚く.複合に関しては,その延長線上に kenning という文飾的技巧のあることを指摘しておこう.
 ただし,この "resourcefulness" が古英語の共時的な生産性を表わすものかどうかという点については熟慮を要する.[2011-05-28-1]の記事「#761. 古英語の derivation は死んでいたか」で考察したように,この "resourcefulness" は,古英語以前からの通時的な派生・複合の結果が累々と蓄積され,豊かな語彙ネットワークとして古英語に共時的に現われているということではないか.synchronic productivity と diachronic productivity とを分けて考える必要があるのではないか.

 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 5th ed. London: Routledge, 2002.
 ・ Hall, John Richard Clark, ed. A Concise Anglo-Saxon Dictionary. 2nd ed. New York: Macmillan, 1916.

[ 固定リンク | 印刷用ページ ]

2012-06-02 Sat

#1132. 英単語の品詞別の割合 [lexicology][corpus][statistics]

 昨日の記事で,MRC Psycholinguistic Database (全150837語を含む)を利用した Amano の研究を参照した.Amano では,名詞と動詞の stress typicality の調査の副産物として,同データベースに基づいた語の品詞別割合の表が示されていたので,今回はそれをメモしておきたい.
 Amano (86) は,データベースより計10894個の2音節語を抜き出した.複数の品詞の機能をあわせもつ語については,それぞれの品詞のもとで1個として加えた(その他,詳しい作業手順は p. 86 に明記されている).結果として得られた品詞別の個数と割合は以下の通りである.

POSFREQ%
noun732657.04%
verb250119.47%
adjective242018.84%
adverb2912.27%
preposition680.53%
conjunction210.16%
pronoun150.12%
interjection370.29%
past participle570.44%
others1080.84%


 品詞別の割合の算出は,用いるデータベースやコーパスの性質や規模,word form で数えるか lemma で数えるかなどの「語」の定義の問題に左右されるが,複数の調査結果を比較すれば,ある程度は信頼できる値が得られるだろう.本ブログ内でこれまでに紹介した品詞別の割合については,以下を参照.

 ・ [2011-02-23-1]: 「#667. COCA 最頻50万語で品詞別の割合は?」
 ・ [2011-02-22-1]: 「#666. COCA 最頻5000語で品詞別の割合は?」
 ・ [2011-02-16-1]: 「#660. 中英語のフランス借用語の形容詞比率」

 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

[ 固定リンク | 印刷用ページ ]

2012-05-30 Wed

#1129. 印欧祖語の分岐は紀元前5800--7800年? [indo-european][archaeology][glottochronology][family_tree][lexicology]

 印欧祖語の故郷と時代について,「#637. クルガン文化印欧祖語」 ([2011-01-24-1]) 及び「#1117. 印欧祖語の故地は Anatolia か?」 ([2012-05-18-1]) の記事で,Gimbutas の唱道する Kurgan expansion hypothesis と Renfrew の唱道する Anatolian farming hypothesis をそれぞれ概観した.印欧祖語の分岐の時期について,前者は紀元前4千年紀,後者は紀元前6000--7500年に遡るとしており,深く対立している.
 昨日の記事「#1128. glottochronology」 ([2012-05-29-1]) で触れたように,統計手法を用いた語彙研究を比較言語学へ応用する試みは様々な批判を受けてきた.しかし,語彙統計学者はその批判をエネルギーに替えて,次々と高度な手法を編み出してきた.近年では,Gray and Atkinson が,印欧語族の87言語について2449語を対象に,進化生物学のモデルに基づいて計算した例がある.
 統計に当たっては常にそうであるように,何が前提とされているかが重要である.Gray and Atkinson の研究でも非常に多くの条件や情報が前提とされており,議論と結論を正しく評価するためには,そのいちいちの前提が妥当かどうかを確認してゆく必要がある.とりわけ,生物学の手法がそのまま比較言語学に応用できるのかどうか,生物と言語の類似点と相違点は何かという本質的な問題を論じる必要があるだろう([2011-07-13-1]の記事「#807. 言語系統図と生物系統図の類似点と相違点」を参照).以上の問題が山積しており,私には Gray and Atkinson の研究を適切に評価することはできないが,結論が興味深いので,少なくとも紹介するには値する.以下に,Gray and Atkinson の得た,分岐年代入りの印欧語系統樹を再掲しよう (437) .

Gray and Atkinson's Family Tree of Indo-European

 この図によると,印欧祖語が Hittite とその他の語群へ2分割したのは8700BP(=6700BC).Anatolia から農業が伝播し始めた時期に相当すると解釈できる.おもしろいのは,Italic, Celtic, Balto-Slavic そしておそらくは Indo-Iranian も含め,主立った語派が急速に分化してゆく時期が,紀元前5--4千年紀に観察されることだ.これは,時期的には Kurgan expansion hypothesis と符合する.とすると,両仮説は対立するものではなく,むしろ補完するものとも捉えられる (Gray and Atkinson 438) .
 先にも述べたように,この結論を正しく評価できる立場にはない.しかし,進化生物学の知見を活かして語彙統計学の新手法を開発するというように,他分野と連係して学際的な難問に挑む試みはエキサイティングである.

 ・ Gray, Russell D. and Quentin D. Atkinson. "Language-Tree Divergence Times Support the Anatolian Theory of Indo-European Origin." Nature 426 (November 2003): 435--39.

[ 固定リンク | 印刷用ページ ]

2012-05-29 Tue

#1128. glottochronology [glottochronology][history_of_linguistics][family_tree][lexicology]

 glottochronology (言語年代学)は,アメリカの言語学者 Morris Swadesh (1909--67) および Robert Lees (1922--65) によって1940年代に開かれた通時言語学の1分野である.その手法は lexicostatistics (語彙統計学)と呼ばれる.
 人類言語学の知見によれば,人類文化の基礎的範疇を表わす語彙 (basic vocabulary) は言語間で共有されており,歴史的変化や外部からの影響を最も受けにくい単語群とされる.しかし,長期的にみれば,これらの基礎語彙もいずれ置換されてゆくものである.複数の関連する言語の間で共有されていた基礎的な同根語 (cognate) が,各言語において一定のゆっくりとした速度で非同根語に置換されてゆくこと (a constant rate of loss) を前提とし,それらの言語が互いに分岐した年代や速度を測ろうとするものが,glottochronology である.明らかに考古学の年代測定法にヒントを得ている.
 glottochronology は上記のものを含む多くの前提の上に成り立っているが,そのいずれの前提もが激しく批判にさらされてきた.論争とされてきたのは次のような点である.

 (1) Swadesh の基礎語彙 (basic vocabulary) 100語(以下に掲載)は,歴史や文化といった社会的な要因による変化を被りにくい語彙として選定されているが,これらは本当に特定の文化に依存しないと言い切れるのか.例えば,sunmoon は,文化によっては宗教的な意味を付されており,その意味において文化語ではないか.

I, you, we, this, that, who, what, not, all, many, one, two, big, long, small, woman, man, person, fish, bird, dog, louse, tree, seed, leaf, root, bark, skin, flesh, blood, bone, grease, egg, horn, tail, feather, hair, head, ear, eye, nose, mouth, tooth, tongue, claw, foot, knee, hand, belly, neck, breasts, heart, liver, drink, eat, bite, see, hear, know, sleep, die, kill, swim, fly, walk, come, lie, sit, stand, give, say, sun, moon, star, water, rain, stone, sand, earth, cloud, smoke, fire, ash, burn, path, mountain, red, green, yellow, white, black, night, hot, cold, full, new, good, round, dry, name


 (2) 年代測定のための "a constant rate of loss" はすべての言語で同じであると前提できるのか.分岐して1000年たった2言語では86%の基礎語彙がいまだ共有されているといわれるが,分岐の歴史が先に分かっている多くの言語で検証すると,この率が当てはまらないケースもある.もし基礎語彙の分析について少数であったとしても誤りがあれば,この率に基づいて計算される年代は,古く溯れば溯るほど,大きな誤差を伴うことになる.
 なお,以下のグラフは,2言語で共有されている基礎語彙のパーセンテージによって,分岐が少なくとも何世紀前にあったかが分かるという,glottochronology の理論的なツールである.例えば,2言語間で7割の基礎語彙が共有されていれば,その分岐の年代は少なくとも約1200年前であり,3割しか共有されていなければ,分岐年代は少なくとも約4000年前である.
Linguistic Divergence by Glottochronology

 (3) cognate の同定に関わる多くの問題がある.異なる言語からの対応するとおぼしき2つの語が cognates であると言えるためには,音声的,意味的にどのような条件が必要だろうか.2語の関係が cognates ではなく loanwords であるという可能性が常にあるのではないか.これは比較言語学でも共有されている問題だが,時代を遡れば遡るほど,判別は難しい.また,古い言語では,基礎語彙のすべての語が文証されるわけではなく,言語間比較に証拠の穴が生じてしまうことがある.

 glottochronology は,言語学史上,興味深い一幕を演出してくれたものの,その理論的妥当性は,現在では,ほとんどの言語学者によって疑われている.
 以上,Crystal (333) などを参照して執筆した.

 ・ Crystal, David. The Cambridge Encyclopedia of Language. 2nd ed. Cambridge: CUP, 1997.

[ 固定リンク | 印刷用ページ ]

2012-05-04 Fri

#1103. GSL による Zipf's law の検証 [lexicology][statistics][frequency][zipfs_law][corpus]

 [2012-05-02-1], [2012-05-03-1]の記事で取り上げてきた Zipf's law を検証(というよりは体験)するために,General Service List (GSL) の最頻2000語余りのデータを利用して計算してみた(データファイルはこちら).

Zipf's Law by GSL (Rank and Frequency)
Zipf's Law by GSL (Rank * Frequency = Constant?)
 最初のグラフは頻度順位と頻度を掛け合わせたグラフで,頻度順で100位ほどまでの語を対象とした.以下はひたすら漸減してゆくのみなので省略.累積頻度のグラフを作成するまでもなく,最頻の数十語ほどで延べ語数のほとんどを覆ってしまう様子がよくわかる.
 次のグラフは,Zipf's law によると定数になるとされる頻度順位と頻度の積を縦軸にとったものである.上位数十語までは「定数」は上下に大きく揺れて安定しないが,以後1000語ぐらいまでは,緩やかな増減はあるものの,落ち着く.その後のグラフ外ではひたすら漸減を続ける.したがって,「定数」を云々できるのは大目に見ても上位1000語ぐらいまでだろう.
 これを法則と呼ぶのはあまりに外れていると考えるか,統計的傾向がよく出ているととらえるかは,観察者の見方ひとつである.Zipf's law における「定数」は「およそ定数」と解釈するのが暗黙の了解だが,「およそ」の幅がどの程度であるのかは明示されていない.また,Zipf's law が主張しているのと異なり,グラフの線は頻度をとるコーパスのサイズにも依存するようだ.

[ 固定リンク | 印刷用ページ ]

2012-05-01 Tue

#1100. Farsi の形容詞区分の通時的な意味合い [adjective][loan_word][lexicology][suffix][semantic_change][prediction_of_language_change][register][lexical_stratification]

 昨日の記事[2012-04-30-1]で Farsi による「#1099. 記述の形容詞と評価の形容詞」の区分を見た.記述的な Class A,評価的な Class B,両性質を兼ね備えた Class C という区分は,共時的な観点からの区分だが,それぞれのクラスに属する形容詞を対照して眺めていると,通時的な意味合いが浮き上がってくる.Farsi は次の2点を指摘する (56--58) .

 (1) Class A から Class C へと所属変更した形容詞がいくつかある.もともとは記述的な "concerning X" ほどの語義を有していた Class A 形容詞が,評価的な "worthy of X" ほどの語義を獲得し,新旧の語義を合わせもつ結果となっている.English, American, Christian, logical, philosophical, scientific などが,このような通時的経過をたどった.
 (2) 上記のような例から推測するに,現在 Class A に属する形容詞が,将来,評価的な意味を獲得して Class C へ移行するということがあり得るのではないか.例えば,phonemic は「音素の」という記述的な語義をもつ典型的な Class A 形容詞だが,音素という考え方を軽視する音韻論を批判的に指して *unphonemic と表現すれば,その裏返しとしての *phonemic も評価的な語義を獲得することになり,Class C と認定されることになる.Class A に属するどの形容詞にも,評価的語義を獲得する機会は開かれている.

 Class A から Class C への通時的移行,あるいは意味の発展は,使用域 (register) に応じてみられる記述的語義と評価的語義のあいだの揺れという共時的な事実として表出してくる.例えば,mental は標準的な用法では記述的だが,非標準的な用法では評価のこもった「精神のおかしい」という意味を帯びる.aesthetic は通常は記述的にも評価的にも用いられるが,美学の文脈では,もっぱら記述的に用いられるだろう.
 Farsi は,Class A から Class C への方向しか取り上げていないが,論理的にはそれ以外の方向の変化もあり得るとは述べている.しかし,非評価的な語が評価的な語義を帯びるという意味変化は,その逆よりも遥かに多いだろうと直感される.客観から主観への方向を主張する文法化 (grammaticalisation) しかり,[2011-03-11-1]の記事「#683. semantic prosody と性悪説」で示唆した人間の批判精神しかり.Hotta (2011) で調査した形容詞接尾辞 -ish の軽蔑的意味の獲得でも,関連する問題を扱った([2009-09-07-1]の記事「#133. 形容詞をつくる接尾辞 -ish の拡大の経路」も参照).Farsi の形容詞の分類は,このように,意味変化の方向の問題,意味変化と使用域の問題などにも示唆を与えてくれる.
 もう1つ,通時態との関連で議論しておきたいのは,Farsi の分類と借用あるいは語種との関係である.昨日の記事の冒頭でも述べたが,「#334. 英語語彙の三層構造」 ([2010-03-27-1]) やその他の三層構造の記事で見てきたとおり,本来語は評価的で,(Greco-Latin 系)借用語は記述的であるような語のペアが多い.このような共時的な分布を通時的な観点から解釈すると,次のような歴史を仮定することができるのではないか.古英語では,形容詞はほぼ本来語のみであり,意味にしたがって Class A, B, C の3種類があった.中英語以降,フランス語やラテン語から大量の形容詞が借用され([2011-02-16-1]の記事「#660. 中英語のフランス借用語の形容詞比率」),その多くは記述的語義をもっていたため,Class A や Class C に属していた本来語はその圧力に屈して対応する記述的語義を失っていった.つまり,本来語は主として評価的語義をもった Class B に閉じ込められた.一方,借用語も次第に評価的語義を帯びて Class B や Class C へ侵入し,そこでも本来語を脅かした.その結果としての現在,借用語はクラスにかかわらず広く分布しているが,本来語は主要なものが Class B に属しているばかりである.
 以上が大雑把な仮説である.「本来語」や「借用語」は,より正確には「本来形態素」や「借用形態素」と呼ぶほうがよいかもしれないし,behaviouralmannerly などの混種語 ( hybrid ) の扱いを仮説内でどのように位置づけるべきかも考える必要がある.昨日掲げた Farsi の形容詞リストがどのように作成されたもので,どの程度網羅的なのかなども検証する必要があろう.
 評価的語義の獲得,使用域,本来語と借用語―――このような問題の交差点として,Farsi の形容詞分類をとらえなおすことができるように思われる.英語語彙の三層構造を理解するためにも,そして日本語語彙の三層構造([2010-03-28-1]の記事「#335. 日本語語彙の三層構造」)の理解のためにも,魅力あるテーマとなりそうだ.

 ・ Farsi, A. A. "Classification of Adjectives." Language Learning 18 (1968): 45--60.
 ・ Hotta, Ryuichi. "The Suffix -ish and Its Derogatory Connotation: An OED Based Historical Study." Journal of the Faculty of Letters: Language, Literature and Culture 108 (2011): 107--32.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow