hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 / page 3 (3)

frequency - hellog〜英語史ブログ

最終更新時間: 2019-10-15 07:51

2012-09-20 Thu

#1242. -ate 動詞の強勢移行 [frequency][lexical_diffusion][stress][suffix][-ate]

 [2012-09-17-1]の記事「#1239. Frequency Actuation Hypothesis」で,接尾辞 -ate をもつ動詞の強勢が移動してきているという言語変化に触れた.名前動後 (diatone と同様に現在も進行中の強勢移行であり,語彙拡散 (lexical_diffusion) の例としても注目に値する.
 この移行については Phillips が語彙拡散の観点から研究しているが,OED の "contemplate, v" にまとまった解説があるので,それを紹介しよう.Danielsson (271--72) でも,OED のこの箇所が触れられている.

In a few rare cases (Shakes., Hudibras) stressed 'contemplate in 16--7th c.; also by Kenrick 1773, Webster 1828, among writers on pronunciation. Byron, Shelley, and Tennyson have both modes, but the orthoepists generally have con'template down to third quarter of 19th c.; since that time 'contemplate has more and more prevailed, and con'template begins to have a flavour of age. This is the common tendency with all verbs in -ate. Of these, the antepenult stress is historical in all words in which the penult represents a short Latin syllable, as ac'celerate, 'animate, 'fascinate, 'machinate, 'militate, or one prosodically short or long, as in 'celebrate, 'consecrate, 'emigrate; regularly also when the penult has a vowel long in Latin, as 'alienate, 'aspirate, con'catenate, 'denudate, e'laborate, 'indurate, 'personate, 'ruinate (L. aliēno, aspīro, etc.). But where the penult has two or three consonants giving positional length, the stress has historically been on the penult, and its shift to the antepenult is recent or still in progress, as in acervate, adumbrate, alternate, compensate, concentrate, condensate, confiscate, conquassate, constellate, demonstrate, decussate, desiccate, enervate, exacerbate, exculpate, illustrate, inculcate, objurgate, etc., all familiar with penult stress to middle-aged men. The influence of the noun of action in -ation is a factor in the change; thus the analogy of ,conse'cration, 'consecrate, etc., suggests ,demon'stration, 'demonstrate. But there being no remonstration in use, re'monstrate, supported by re'monstrance, keeps the earlier stress.


 つまり,3音節以上の語においては,歴史的には penult の構成に応じて強勢が penult か antepenult に落ちた.具体的には,penult に子音群が現われる場合には,歴史的にはその音節に強勢が落ちた.ところが,近現代英語において,対応する名詞形 -ation の強勢パターンにもとづく類推が働くためか,該当する語の強勢がさらに一つ左へ,antepenult へと移行してきているというのである.
 Danielsson や OED には3音節以上の語についての言及しかないが,Phillips は2音節語についても調査した.興味深いことに,2音節語の -ate 動詞(ただし penult が閉音節のもの)では,正反対の方向の強勢移行が起こっているという.frustrate, dictate, prostrate, pulsate, stagnate, truncate などの語では,歴史的には penult に強勢が落ちたが,現代英語にかけて ultima に強勢が落ちる異形が現われてきている(最初の3語については定着した).そして,いずれの方向の強勢移行についても,Phillips は頻度の高いものから順に変化してきているという事実を突き止めた (226--28) .
 これは頻度の低いものから順に変化してきたと Phillips の主張する名前動後の例と,対立する結果である.頻度と語彙拡散の進行順序との問題に,新たな一石が投じられている.

 ・ Phillips, Betty S. "Word Frequency and Lexical Diffusion in English Stress Shifts." Germanic Linguistics. Ed. Richard Hogg and Linda van Bergen. Amsterdam: John Benjamins, 1998. 223--32.
 ・ Danielsson, Bror. Studies on the Accentuation of Polysyllabic Latin, Greek, and Romance Loan-Words in English. Stockholm: Almqvist & Wiksell, 1948.

[ | 固定リンク | 印刷用ページ ]

2012-09-17 Mon

#1239. Frequency Actuation Hypothesis [frequency][phonetics][language_change][lexical_diffusion][stress][diatone][-ate]

 語彙拡散 (lexical diffusion) として進行する音韻変化の道筋や順序が語の頻度と相関しているらしいことは,古くは19世紀末から指摘されてきた.実際に,Phillips (1984: 321) に挙げられているように,頻度の高い語から順に変化を遂げるという音韻変化は数々例証されてきた.一方で,頻度の低い語から順に変化を遂げる例も確認されており,頻度と語彙拡散の順序の関係については,いまだに疑問が多い.この問題について,Phillips は,南部アメリカ英語における glide deletion ,中英語の unrounding ,近代英語の名前動後(diatonic stress shift; diatone の記事を参照)という,頻度の低い順に進行するとされる3つの音韻変化を取り上げて,"Frequency Actuation Hypothesis" を提唱した.これは,"physiologically motivated sound changes affect the most frequent words first; other sound changes affect the least frequent words first" (1984: 336) というものである(前者は surface phonetic form に働きかける変化,後者は underlying phonetic form に働きかける変化を指す).
 しかし,Phillips は1998年の -ate で終わる動詞の強勢位置の移動に関する研究において,この生理的に動機づけられていない音韻変化が,予想されるように頻度の低い順には進まず,むしろ頻度の高い順に進んでいることを明らかにした.そこで,改訂版 Frequency Actuation Hypothesis を唱えた.

[F]or segmental changes, physiologically motivated sound changes affect the most frequent words first; other sound changes affect the least frequent words first. For suprasegmental changes, changes which require analysis (e.g., by part of speech or by morphemic element) affect the least frequent words first, whereas changes which eliminate or ignore grammatical information affect the most frequent words first. (1998: 231)


 つまり,強勢の移動のような超分節の音韻変化に関しては,話者による分析が入るか入らないかで,頻度と順序の関係が逆転するというわけである.なぜそうなるのかについて,Phillips は Bybee (117--19) の "lexical strength" という考え方を持ち出している.
 私は必ずしもこの議論に納得していない.また,Phillips の主張とは異なり,名前動後が頻度の高い順に進行したことを示すデータも独自に得ている.頻度と変化の順序についての研究は緒に就いたばかりであり,研究の余地は多分に残されている.

 ・ Phillips, Betty S. "Word Frequency and the Actuation of Sound Change." Language 60 (1984): 320--42.
 ・ Phillips, Betty S. "Word Frequency and Lexical Diffusion in English Stress Shifts." Germanic Linguistics. Ed. Richard Hogg and Linda van Bergen. Amsterdam: John Benjamins, 1998. 223--32.
 ・ Bybee, Joan L. Morphology: A Study of the Relation between Meaning and Form. Amsterdam: John Benjamins, 1985.

[ | 固定リンク | 印刷用ページ ]

2012-09-05 Wed

#1227. 情報理論と意味作用 [information_theory][frequency][sign][semantics]

 「#1108. 言語記号の恣意性,有縁性,無縁性」 ([2012-05-09-1]) や「#1110. Guiraud による言語学の構成部門」 ([2012-05-11-1]) で参照した意味論学者の Guiraud は,情報理論 (information_theory) の言語学への応用にも関心が深く,言語体系や言語記号のもつ余剰性,頻度,費用などの問題を考察している.
 1954年の論文を読み,多くの示唆的な洞察が得られた.例えば,シニフィアン,シニフィエ,頻度,長さの関係について次のように述べられている (128) .最初はシニフィエがシニフィアンを「選ぶ」,言い換えれば最も短いシニフィアンが最も頻度の高いシニフィエに割り当てられる.それから,シニフィアンが語の用法を「駆動し」,それに「変更を加える」.
 このシニフィアンとシニフィエの相互関係が含意するのは,何らかの理由で頻度や意味や形態が変化してゆくと,それまで保たれていた両者の間の均衡が崩れるために,記号体系の調整機能が発動し,均衡を取り戻そうとするということである.別の見方をすれば,言語変化は,情報伝達の効率が最大限に保たれ得る限りにおいて起こるということになる.言語体系も情報体系の1つである以上,情報に関わる一般原理である「効率」に従わざるを得ないという結論になろう.
 情報理論では「効率」が論じられ,「意味」は捨象されるのが普通だが,意味論の専門家としての Guiraud は,次のような方法で情報理論の知見を意味作用の問題に活かそうと考えている.客観的に数字で表わされる頻度と長さという指標を利用して,目に見えないシニフィアンとシニフィエの関係を探れるのではないか.

La relation coût/information (ou forme/fréquence) traduit objectivement ces rapports entre le signe et le concept et permet de poser en termes objectifs le problème de la signification. (128)

費用/情報(あるいは形態/頻度)の関係はシニフィアンとシニフィエの間のこれらの関係を客観的に表わすものであり,意味作用の問題を客観的に提示することを可能にしてくれる.


 ・ Guiraud, P. "Langage et communication. Le substrat informationnel de la sémantisation." ''Bulletin de la société de linguistique de Paris 50 (1954): 119--33.

[ | 固定リンク | 印刷用ページ ]

2012-06-29 Fri

#1159. MRC Psycholinguistic Database Search [cgi][web_service][lexicology][frequency][statistics]

 昨日の記事[2012-06-28-1]で紹介した英語語彙データベース MRC Psycholinguistic Database を,本ブログ上から簡易検索するツールを作成した.実際には検索ツールというよりは,MRC Psycholinguistic Database を用いると,こんなことができるということを示すデモ版にすぎず,出力結果は10行のみに限定してある.本格的な使用には,昨日示したページからデータベースと検索プログラムをダウンロードするか,ウェブ上のインターフェース (Online search (answers limited to 5000 entries) or Online search (limited search capabilities)) よりどうぞ.

    


 以下,使用法の説明.SQL対応で,テーブル名は "mrc2" として固定.フィールドは以下の27項目:ID, NLET, NPHON, NSYL, K_F_FREQ, K_F_NCATS, K_F_NSAMP, T_L_FREQ, BROWN_FREQ, FAM, CONC, IMAG, MEANC, MEANP, AOA, TQ2, WTYPE, PDWTYPE, ALPHSYL, STATUS, VAR, CAP, IRREG, WORD, PHON, DPHON, STRESS.各パラメータが取る値の詳細については,原データファイルの仕様を参照のこと(仕様中に示されている各種統計値はそれ自身が非常に有用).select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# 文字数で語彙を分別
select NLET, count(NLET) from mrc2 group by NLET;

# 音素数で語彙を分別
select NPHON, count(NPHON) from mrc2 group by NPHON;

# 音節数で語彙を分別
select NSYL, count(NSYL) from mrc2 group by NSYL;

# -ed で終わる形容詞を頻度順に
select WORD, K_F_FREQ from mrc2 where WTYPE = 'J' and WORD like '%ed' order by K_F_FREQ desc;

# 2音節の名詞,形容詞,動詞を強勢パターンごとに分別 (「#814. 名前動後ならぬ形前動後」 ([2011-07-20-1]) 及び「#801. 名前動後の起源 (3)」 ([2011-07-07-1]) を参照)
select WTYPE, STRESS, count(*) from mrc2 where NSYL = 2 and WTYPE in ('N', 'J', 'V') group by WTYPE, STRESS;

# <gh> の綴字で終わり,/f/ の発音で終わる語
select distinct WORD, DPHON from mrc2 where WORD like '%gh' and DPHON like '%f';

# 不規則複数形を頻度順に
select WORD, K_F_FREQ from mrc2 where IRREG = 'Z' and TQ2 != 'Q' order by K_F_FREQ desc;

# 馴染み深く,具体的な意味をもつ語
select distinct WORD, FAM from mrc2 where FAM > 600 and CONC > 600;

# イメージしやすい語
select distinct WORD, IMAG from mrc2 order by IMAG desc limit 30;

# 「有意味」な語
select distinct WORD, MEANC, MEANP from mrc2 order by MEANC + MEANP desc limit 30;

# 名前動後など品詞によって強勢パターンの異なる語
select WORD, WTYPE, DPHON from mrc2 where VAR = 'O';

[ | 固定リンク | 印刷用ページ ]

2012-06-28 Thu

#1158. MRC Psycholinguistic Database [web_service][lexicology][frequency][statistics]

 心理言語学の分野ではよく知られた英語の語彙データベースのようだが,「#1131. 2音節の名詞と動詞に典型的な強勢パターン」 ([2012-06-01-1]) と「#1132. 英単語の品詞別の割合」 ([2012-06-02-1]) で参照した Amano の論文中にて,その存在を知った.MRC Psycholinguistic Database は,150837語からなる巨大な語彙データベースである.各語に言語学的および心理言語学的な26の属性が設定されており,複雑な条件に適合する語のリストを簡単に作り出すことができるのが最大の特徴だ.特定の目的をもった心理言語学の実験に用いる語彙リストを作成するなどの用途に特に便利に使えるが,検索パラメータの組み合わせ方次第では,容易に語彙統計学の研究に利用できそうだ.
 パラメータは実に多岐にわたる.文字数,音素数,音節数の指定に始まり,種々のコーパスに基づく頻度の範囲による絞り込みも可能.心理言語学的な指標として,語の familiarity, concreteness, imageability, meaningfulness なども設定されている.品詞などの統語カテゴリーはもちろん,接頭辞,接尾辞,略語,ハイフン形などの形態カテゴリーの指定もできる.発音や強勢パターンの指定にも対応している.組み合わせによって,およそのことができるのではないかと思わせる精緻さである.
 全データベースと検索プログラムはこちらからダウンロードできるが,プログラムをコンパイルするなど面倒が多いので,ウェブ上のインターフェースを用いるのが便利である.2つのインターフェースが用意されており,それぞれ機能は限定されているが,通常の用途には十分だろう.

 ・ Online search (answers limited to 5000 entries): パラメータの細かい指定が可能だが,出力結果は5000語までに限られる.
 ・ Online search (limited search capabilities): 出力結果の数に制限はないが,言語学的なパラメータの細かい指定(綴字や発音のパターンの直接指定など)はできない.

 ・ Amano, Shuichi. "Rhythmic Alternation and the Noun-Verb Stress Difference in English Disyllabic Words." 『名古屋造形大学名古屋造形芸術大学短期大学部紀要』 15 (2009): 83--90.

Referrer (Inside): [2012-06-30-1] [2012-06-29-1]

[ | 固定リンク | 印刷用ページ ]

2012-05-04 Fri

#1103. GSL による Zipf's law の検証 [lexicology][statistics][frequency][zipfs_law][corpus]

 [2012-05-02-1], [2012-05-03-1]の記事で取り上げてきた Zipf's law を検証(というよりは体験)するために,General Service List (GSL) の最頻2000語余りのデータを利用して計算してみた(データファイルはこちら).

Zipf's Law by GSL (Rank and Frequency)
Zipf's Law by GSL (Rank * Frequency = Constant?)
 最初のグラフは頻度順位と頻度を掛け合わせたグラフで,頻度順で100位ほどまでの語を対象とした.以下はひたすら漸減してゆくのみなので省略.累積頻度のグラフを作成するまでもなく,最頻の数十語ほどで延べ語数のほとんどを覆ってしまう様子がよくわかる.
 次のグラフは,Zipf's law によると定数になるとされる頻度順位と頻度の積を縦軸にとったものである.上位数十語までは「定数」は上下に大きく揺れて安定しないが,以後1000語ぐらいまでは,緩やかな増減はあるものの,落ち着く.その後のグラフ外ではひたすら漸減を続ける.したがって,「定数」を云々できるのは大目に見ても上位1000語ぐらいまでだろう.
 これを法則と呼ぶのはあまりに外れていると考えるか,統計的傾向がよく出ているととらえるかは,観察者の見方ひとつである.Zipf's law における「定数」は「およそ定数」と解釈するのが暗黙の了解だが,「およそ」の幅がどの程度であるのかは明示されていない.また,Zipf's law が主張しているのと異なり,グラフの線は頻度をとるコーパスのサイズにも依存するようだ.

[ | 固定リンク | 印刷用ページ ]

2012-05-03 Thu

#1102. Zipf's law と語の新陳代謝 [information_theory][frequency][statistics][zipfs_law][shortening][language_change]

 昨日の記事[2012-05-02-1]Zipf's law について概説した.Zipf's law には派生した「法則」が多くあり,その1つに,[2012-04-22-1]の記事「#1091. 言語の余剰性,頻度,費用」でも指摘した「言語要素は,頻度が高ければ音形が短い」というものがある.これを,より動的に,通時的に表現すると「言語要素は,頻度が高くなれば音形が短くなる」となる.ある語の頻度が高くなってゆくと,ある程度の遅延はあるものの,その音形が短くされてゆく傾向のあることは,私たちも経験的によく知っていることである.「#878. Algeo と Bauer の新語ソース調査の比較」([2011-09-22-1]) や「#879. Algeo の新語ソース調査から示唆される通時的傾向」([2011-09-23-1]) で見たとおり,現代英語の新語ソースとして短縮 (shortening) による語形成が増加しており,例には事欠かない.
 この Zipf's law の派生法則のもつ共時的意義と通時的意義を合わせて考えると,語の頻度と長さによって,それが老いゆく語 (senescent word) なのか,生まれつつある語 (nascent word) なのかを区別できるという可能性が生じる.Zipf 著 Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology の書評を著わした Chao (399) より,関連箇所を引用しよう.

A very interesting application of the tool analogy is that of senescent and nascent tools in connection with the Principle of Economical Specialization. Reasoning from tool efficiency yields the result that 'whenever we find a tool (or word) whose magnitude is smaller than that of its neighbors in the frequency range, we may conclude that the tool (or word) of below-average size is an older tool (or word) whose usage is on the decrease (hereinafter we shall call this a senescent tool)', and 'whenever we find a tool (or word) whose magnitude is above average for its frequency, we may conclude not only that it is a newer tool (or word), but that its usage may well be directed toward an increase (hereinafter we shall call this a nascent tool)' (72). The application to words is verified to a fair degree for English of various periods (111). By regarding all behavior as work and words as tools, the analogy becomes a case and the qualifier 'or word' can be omitted.


 音形の比較的短いある単語 A を考える.Zipf's law によれば,A は比較的頻度の高い語だと予想されるが,実際には同程度の頻度を示す他の多くの語に比べると音形が短すぎたとする.この場合,おそらく A はさかりを過ぎて頻度が徐々に低まってきた senescent word と考えてよいだろう.反対に,音形の比較的長いある単語 B を考える.Zipf's law によれば,B は比較的頻度の低い語だと予想されるが,実際には同程度の頻度を示す他の多くの語に比べると音形が長すぎたとする.この場合,おそらく B はこれから頻度がますます増してゆき,短縮を起こしてゆくと予想される nascent word と考えてよいだろう.これは,Zipf's law に,冒頭に述べた時間的遅延とを掛け合わせた応用法則といってよい.
 通常 Zipf's law は静的で共時的な統計的法則ととらえられているが,動的で通時的な観点から,語の新陳代謝の法則として再解釈してみるとおもしろい.

 ・ Chao, Y. R. "Review of Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology by George Kingsley Zipf." Language 26 (1950): 394--401.

[ | 固定リンク | 印刷用ページ ]

2012-05-02 Wed

#1101. Zipf's law [information_theory][frequency][statistics][language_change][zipfs_law][shortening][pragmatics][zipfs_law]

 ##1089,1090,1091,1098 の記事で,情報理論 (information theory) が言語学に与えてくれる知見について,いくつか見てきた.情報理論からの貢献として,最もよく知られているものの1つに,アメリカの言語学者 George Kingsley Zipf (1902--50) が1949年に Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology において提唱した Zipf's lawジップの法則)がある.語の頻度についての経験的な法則であり,語の頻度を f とし,その頻度の順位を r とすると,その積 C はほぼ定数となるという.

r × f = C


 この法則は,言語,テキストの主題,著者,その他の言語的な変数にかかわらず成り立つとされるが,実際には頻度が最高および最低の語群については誤差の大きいことがわかっており,信頼性は高くないとして批判も多い.また,r (頻度順位)は当然ながら f (頻度)に依存しており,f が増えれば r が減るのは自明であるから,その積が近似値をとるということは驚くべき帰結ではない,一種のトートロジーであるという批判がある.しかし,経験的事実に照らして法則とまではいわずとも傾向をよく表わしているということはでき,これを明示的に指摘した意義は大きい.
 Zipf's law の波及効果は多岐にわたる.例えば,この法則によれば,使用頻度の高い語からその使用頻度の累計を求めて行くと比較的少数の語で延べ語数の大部分を占めることから,学習基本語彙の設定に根拠を与えるものとなる.また,この法則に適合しない頻度分布を示す語彙があるとすれば,他の特殊な要因が関与している可能性が疑われるとされる(少数の語の頻度があまりに高すぎれば語彙の貧弱化が生じていると診断されるし,頻度の低いはずの語が高頻度で用いられている場合には爆発的な新造語彙や精神分裂症が原因と想定される等々).
 Zipf's law は,人間の行動を司るとされるより大きな原則,the Principle of Least Effort (最小努力の原則)の一部であり,その言語への応用は,上記の最もよく知られた頻度と頻度順の関係の公式化のみならず,他の公式の提案にも及んでいる.例えば,語の頻度と語の長さは反比例の関係にある,というものもある.最頻語は単音節であることが多いという事実(音節数の分布調査については ##348,349,355 を参照)や,頻度が高くなると頭字語などのように短縮・省略されることが多いという事実も,この公式で説明される.ほかには,ある頻度範囲とそれに属する語の数の関係を表わす公式,調音の難しい音素は頻度が低いとする原則など,派生した法則は数多い.語用論の cooperative principle (協調の原則)における量の格律「(その状況において)必要とされている(だけの)情報を与えよ」とも関与するだろう."effort" の定義などの難しい問題が残っており,また最小努力が人間の行動を司る唯一の原則であるとは考えることもできないが,真理の一面をついたものとして重要な学説であることは間違いない.
 なお,諸文献では,上記のいずれの原則も Zipf's law として言及されることがあり,また Zipf's laws と複数形でまとめられたり,the Principle of Least Effort と総括されたりすることもあるので注意が必要である.Zipf の著書の書評としては Chao を参照.類似の統計的法則については,Crystal (86--87) を参照.

 ・ Chao, Y. R. "Review of Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology by George Kingsley Zipf." Language 26 (1950): 394--401.
 ・ Crystal, David. The Cambridge Encyclopedia of Language. 2nd ed. Cambridge: CUP, 1997.

[ | 固定リンク | 印刷用ページ ]

2012-04-22 Sun

#1091. 言語の余剰性,頻度,費用 [redundancy][information_theory][frequency][shortening][grammaticalisation][idiom][intensifier][language_change]

 本ブログでも度々取り上げている André Martinet (1908--99) は,情報理論の知見を言語学に応用し,独自の地平を開いた構造言語学者である.[2012-04-20-1], [2012-04-21-1]の記事で,言語の余剰性 (redundancy) の問題に触れてきたが,Martinet は余剰性と関連させて確率 (probability) ,情報 (information) ,頻度 (frequency) ,費用 (cost) といった概念をも導入し,これらの関係のなかに言語変化の原因を探ろうとした.以下は,これらの用語を導入した後の一節である(拙訳つきで).

Ce qu'il convient de retenir de tout ceci pour comprendre la dynamique linguistique se ramène aux constatations suivantes : il existe un rapport constant et inverse entre la fréquence d'une unité et l'information qu'elle apporte, c'est-à-dire, en un certain sens, son efficacité ; il tend à s'établir un rapport constant et inverse entre la fréquence d'une unité et son coût, c'est-à-dire que représente d'énergie consommée chaque utilisation de cette unité. Un corollaire de ces deux constatations est que toute modification de la fréquence d'une unité entraîne une variation de son efficacité et laisse prévoir une modification de sa forme. Cette dernière pourra ne se produire qu'à longe échéance, car les condition réelles du fonctionnement des langues tendent à freiner les évolutions. (189--90)

言語の力学を理解するために,このこと全体について理解すべきことは,次の確認事項である.ある単位の頻度とそれがもつ情報(すなわちある意味ではその効果)のあいだには一定にして反比例の関係がある;それは,ある単位の頻度とその費用(すなわちその単位を使用することで消費されるエネルギー)のあいだの一定にして反比例の関係となる傾向がある.この2つの確認事項の当然の帰結として,ある単位の頻度が変わればその効果も変化するし,その形態の変化も予想されることになる.この後者の変化はあくまで長期間をかけて生じるものである.というのは,言語作用の現実の状況は発達を抑制する傾向があるからだ.


 Martinet は,引用した節よりも前の箇所で,余剰性が高いということは予測可能性が高いということであり,それは言語要素の出現確率あるいは頻度とも密接に関連するということを論じている.一般に,言語要素は頻度が高ければ余剰性も高く,情報価値は低い: "plus une unité (mot, monème, phonème) est fréquente, moins elle est informative" (188) .そして,ここに費用という要素を持ち込むことによって,新たな洞察が得られた.話者にとって,頻度が高ければ高いほど,その1回の発音に必要とされるエネルギーの量は少ないほうが都合がよい.多くのエネルギーを要する発音を何度も繰り返すのは不経済だからだ.逆に,頻度の低い表現は,たとえ発音に大きなエネルギーが必要だとしてもあまり困らない.いずれにせよ,発音する機会が稀だからだ.
 このように,「費用」を発音にかかるエネルギー量と解釈する場合,厳密には個々の音の発音がどのくらいの費用を要するかを知る必要があるが,その計測は難しい.しかし,仮にすべての単音の発音が同じ程度の費用を要すると仮定すれば,特定の表現に要する費用はその音形の長さに依存するはずである.費用を単純に音形の長さと同値とすれば,次の関係が想定できる:「言語要素は,頻度が高ければ音形が短い」.これを言語変化に当てはめれば「言語要素は,頻度が高くなれば音形が短くなる」となろう.
 頻度と費用の反比例の関係は,経験的によく理解できる.よく使われる語句は発音においても表記においても短縮・省略される傾向がある.場合によっては,短縮・省略の究極の結末として,無に帰すことすらある.文法的な慣用表現が短縮した上で固定化する例もよく見られ,これは文法化 (grammaticalisation) として扱われる話題にほかならない.また,[2012-01-14-1]の記事で取り上げた「#992. 強意語と「限界効用逓減の法則」」も,頻度と費用の関係という観点からとらえなおすことができるだろう.
 ただし,上の引用の最後にある通り,頻度と費用の関係から言語変化を説明しようとする際には,時間差を考慮する必要がある.ある語の頻度が増してきてからその語形が短縮されるまでには,当然,ある程度の時間が必要だからだ.また,頻度と費用の負の相関関係は,あくまで緩やかなものであることにも注意しておく必要がある.上の一節に先行する標題が "Laxité du rapport entre fréquence et coût" (頻度と費用の関係の緩やかさ)であることを付け加えておこう.

 ・ Martinet, André. Éléments de linguistique générale. 5th ed. Armand Colin: Paris, 2008.

[ | 固定リンク | 印刷用ページ ]

2012-02-13 Mon

#1022. 英語の各音素の生起頻度 [phoneme][frequency][statistics]

 昨日の記事「#1021. 英語と日本語の音素の種類と数」 ([2012-02-12-1]) で,音素一覧を掲げた.では,英語の音素のなかでもっとも多く使われる音素は何だろうか.そして,もっとも使われないのは何だろうか.
 その統計をとった研究がある.Fry, D. B. "The Frequency of Occurrence of Speech Sounds in Southern English." Archives Néerlandaises de Phonétique Expérimentale 20 (1947) で出された統計が Crystal (239, 242) に掲載されているので,ここに再掲する.一定の長さの談話における延べ音素で数えたものである.

1234567891011121314151617181920    total
/iː//ɪ//e//æ//ʌ//ɑː//ɒ//ɔː//ʊ//uː//ɜː//ə//eɪ//aɪ//ɔɪ//əʊ//aʊ, ɑʊ//ɪə//eə//ʊə/     
1.658.332.971.451.750.791.371.240.861.130.5210.741.711.830.141.510.610.210.340.06    39.21
212223242526272829303132333435363738394041424344 
/p//b//t//d//k//g//ʧ//ʤ//f//v//θ//ð//s//z//ʃ//ʒ//h//m//n//ŋ//l//r//w//j/ 
1.781.976.425.143.091.050.410.601.792.000.373.564.812.460.960.101.463.227.581.153.663.512.810.8860.78


 母音が39.21%,子音が60.78%.頻度の高い順にソートすると,以下のようになる.
 /ə/ (10.74), /ɪ/ (8.33), /n/ (7.58), /t/ (6.42), /d/ (5.14), /s/ (4.81), /l/ (3.66), /ð/ (3.56), /r/ (3.51), /m/ (3.22), /k/ (3.09), /e/ (2.97), /w/ (2.81), /z/ (2.46), /v/ (2.00), /b/ (1.97), /aɪ/ (1.83), /f/ (1.79), /p/ (1.78), /ʌ/ (1.75), /eɪ/ (1.71), /iː/ (1.65), /əʊ/ (1.51), /h/ (1.46), /æ/ (1.45), /ɒ/ (1.37), /ɔː/ (1.24), /ŋ/ (1.15), /uː/ (1.13), /g/ (1.05), /ʃ/ (0.96), /j/ (0.88), /ʊ/ (0.86), /ɑː/ (0.79), /aʊ, ɑʊ/ (0.61), /ʤ/ (0.60), /ɜː/ (0.52), /ʧ/ (0.41), /θ/ (0.37), /eə/ (0.34), /ɪə/ (0.21), /ɔɪ/ (0.14), /ʒ/ (0.10), /ʊə/ (0.06).
 上位9音素までが,弛緩母音あるいは歯・歯茎を用いる音である.最下位の2重母音や摩擦音も覚えておきたい.音声変化を考える上で,このように音素別の頻度を頭に入れておくと役立つことがあるだろう.主要なものだけでも音節別の頻度でこのようなランキング表はないだろうか.

(後記 2012/04/22(Sun):石橋 幸太郎 編 『現代英語学辞典』の "Frequency of occurrence of phonemes" (323--24) に類似した他の統計値あり.)

 ・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.

[ | 固定リンク | 印刷用ページ ]

2011-12-28 Wed

#975. 3人称代名詞の斜格形ではあまり作用しなかった異化 [personal_pronoun][dissimilation][homonymic_clash][case][frequency]

 昨日の記事「#974. 3人称代名詞の主格形に作用した異化」([2011-12-27-1]) で,子音を違えるという異化作用によって homonymic clash を回避した可能性について論じたが,それは3人称代名詞の主格に限っての議論だった.では,斜格はどうだったかというと,状況は異なっていた.
 3人称複数代名詞の th- 形の受容のタイミングが格により異なっていたことは,英語史上,よく知られている.複数主格形 they の受容は初期中英語だが,斜格形の theirthem などは後期中英語の Chaucer でも一般的ではなかった.そして,この受容の時間差は,通常,頻度の差と関係していると説明される.主格は斜格に比べて使用頻度が高く,それだけ区別する必要性も大きい.homonymic clash を回避すべき機会が多い分,主格のほうが早く刷新形を受け入れた,というわけだ.
 主格と斜格の頻度の差による説明は,3人称複数の th- 形についてなされるのが普通だが,同じ議論は3人称複数以外の代名詞形態についても適用できそうだ.古英語の人称代名詞体系では,昨日取り上げた主格だけではなく,斜格においても homonymy がみられた.例えば,Late West-Saxon 方言の標準的なパラダイム ([2009-09-29-1]) に従えば,his は男性単数属格かつ中性単数属格,him は男性単数与格かつ中性単数与格かつ複数与格,hīe は女性単数対格かつ複数対格であり,衝突の機会は確かにあった.近代英語以降の観点からみれば,結論としてはこれらの衝突も回避されたことになるが,これら斜格での刷新形の受容のタイミングは,主格に比べれば遅かったようである.一例として,中性単数属格の hisits に置換されたのは,[2009-11-11-1]の記事「#198. its の起源」で見たとおり,近代英語になってからだ.
 斜格では,中英語期に対格と与格の融合 (syncretism) という一大変化が進行しており,単純に主格の発達と比べることはできない.斜格は,主格にみられるような異化作用によってではなく,格の融合によってそのパラダイムを再編成したといってしかるべきだろう.とはいえ,やはり主格に比べれば衝突が許容されやすい傾向,換言すれば刷新形の受容が(あったとすればの話しだが)遅れる傾向は強いといえそうだ.その際に考えられる理由は,やはり頻度の差ということ以外には考えつかない.

Referrer (Inside): [2015-09-14-1] [2014-05-14-1]

[ | 固定リンク | 印刷用ページ ]

2011-11-18 Fri

#935. 語形成の生産性 (1) [productivity][morphology][word_formation][affix][frequency][mental_lexicon]

 語形成の生産性 (productivity) については,productivity の各記事で話題にしてきた.そこでは,生産性をどのように定義するか,どのように測定するかは,形態理論における難問であると述べるにとどまったが,今回は,この問題にもう少し踏み込みたい.
 まずは,Lieber (61) による,"productive" と "unproductive" の日常語による定義を挙げよう.

Processes of lexeme formation that can be used by native speakers to form new lexemes are called productive. Those that can no longer be used by native speakers, are unproductive; so although we might recognize the -th in warmth as a suffix, we never make use of it in making new words. The suffixes -ity and -ness, on the other hand, can still be used, although perhaps not to the same degree.


 この定義により,生産性の指し示している概念は直感的に理解できるが,より専門的に定義しようとするとなかなか難しい.生産性に関与する要因としては,3点が考えられる (Lieber 61--64) .

 (1) transparency: 音韻と意味の透明性が確保されており,基体と接辞が明確に区別される語形成は productive である.例えば,candidnesscrudity において,それぞれ形態上 candid + -ness, crude + -ity と明確に線引きできるだけでなく,その意味も基体と接辞(「〜である状態」)の純粋な和 (compositional) として解釈できる.この点で,-ness や -ity を用いた語形成は透明度が高いと言える.
 しかし,-ity は -ness に比べて透明度が低い.1つには,rusticity において,綴字上は rustic + -ity と透明的に分析されるが,発音上は基体の最後の子音が /k/ から /s/ へ変化しており,その分だけ透明性が低くなる.別の例では,timid の強勢は第1音節だが,timidity の強勢は基体の第2音節へ移動しており,透明性が低くなっている.さらに,oddity は,odd + -ity から容易に想像されるとおり,透明的に「異常であること」を意味するのみならず,「変人」をも意味する.後者の語義については,予測可能性(=透明性)が低いとみなすことができる.最後に,dexterity では,基体として *dexter が予想されるところだが,これは実際には存在しない基体である.ここでは,透明性が確保されていない.
 oddity (変人)の例で触れた意味の予測(不)可能性という指標は,その派生語が mental lexicon に登録されているかどうかという問題,語彙化 (lexicalization) の問題に関連する.この場合,「異常であること」の語義での oddity は語彙化されていないが,「変人」の意味でのoddity は語彙化されているということになる.したがって,透明性が高いほど語彙化されにくく,透明性が低いほど語彙化されやすいという関係が成り立つ.

 (2) frequency of base type: 接辞の付加しうる基体の数や範囲が大きければ大きいほど,その語形成は生産的であるとみなすことができる.接尾辞 -esque (〜風の)は名詞に付加されるが,主として固有名詞に限定される.単音節の基体には付加されにくいという条件もあるため,どんな名詞にも付加される接尾辞に比べれば,基体の範囲が狭い分,生産性が低いということになる.([2009-11-29-1]の記事「#216. 人名から形容詞を派生させる -esque の特徴」を参照.)

 (3) usefulness: 語形成の有用性.常識的に,すべての形容詞について対応する名詞があることは有用であり,便利であると考えられる.この場合,形容詞を名詞化する接尾辞 -ness, -ity は有用であり,生産的であるということになる.反対に,女性を表わす接尾辞 -ess は,現代の性差別廃止の社会的な風潮により有用性が失われてきており,その分だけ生産性も低くなってきていると考えられる.

 語形成の生産性は,少なくともこの3点に基づいて論じる必要がある.
 音韻形態変化や意味変化によって (1) が,語彙の増加などによって (2) が,社会的な価値観の変化によって (3) が影響を受けるということを考えると,語形成の生産性もまた通時的な変化に晒されているということは明らかだろう.

 ・ Lieber, Rochelle. Introducing Morphology. Cambridge: CUP, 2010.

[ | 固定リンク | 印刷用ページ ]

2011-03-22 Tue

#694. 高頻度語と不規則複数 [plural][analogy][kyng_alisaunder][frequency]

 英語に限らず言語において頻度の高い語は妙な振る舞いをする ([2009-09-20-1]) .現代英語では,動詞の過去・過去分詞,名詞の複数,形容詞・副詞の比較級・最上級で不規則な振る舞いをするものには,高頻度語が確かに多い.名詞の複数形に話を絞ると,借用語は別にして本来語で考えると men, children, feet, teeth などがすぐに思い浮かぶ.しかし,geese, mice, oxen, sheep などははたしてそれほど高頻度語といえるだろうか.[2010-03-01-1]で紹介した高頻度語リストから BNC lemma を眺めた限り,gooseox などは上位6318語に入っていない.( oxen については[2010-08-22-1]を参照.)
 しかし,geeseoxen もかつては現代よりも身近な動物であり,使用頻度も高かったと思われる.それが,身近でなくなってからも一種の惰性により不規則形を保持してきたものと考えられるだろう.もちろん,現代あるいは過去における高頻度だけを根拠に,不規則な現象を体系的に説明することはできない.しかし,頻度と規則性の関係が無視しえないことは確かである.関連する議論を McMahon (73) より引用する.

It has been suggested that residual words are often the most frequently occurring, which will be heard and learned earliest by the child and which are furthermore most susceptible to correction if the child does produce a regularised form like **foots. Some objections can be raised; for instance, ox is not a particularly common noun in modern English - although it probably occurred rather frequently in Middle English. Ox might have been expected to regularise as it became less common, but this decrease in frequency probably overlapped with the rise of literacy, which tends to slow down analogical change. In general, the connection of resistance to analogy with frequency seems to hold.


 名詞複数形の研究をしていると,古い英語(特に中英語)のテキストに現われる動物名詞の羅列に敏感に反応してしまう.先日も Kyng Alisaunder を読んでいて,次のような文章に出くわした.マケドニア王が,Alisaunder と Philippe のうち荒馬 Bulcifal を操れる者を世継ぎとすることを決め,その競技の前に神に捧げ物をするという場面である.昨日の記事[2011-03-21-1]と同様,Smithers 版から B (MS. Laud Misc. 622 of the Bodleian Library, Oxford) と L (MS. 150 of the Library of Lincoln's Inn, London) の2バージョンを比較しながら引用する(動物複数名詞を赤字とした).

Oxen, sheep, and ek ken,
many on he dude slen,
And after he bad his goddes feyre
He most wyte of his eyre,
Of Alisaunder and Philippoun,
Who shulde haue þe regioun. (B 759--64)

Oxen schep and eke kuyn
Monyon he dude slen
And after he bad his godus faire
He moste y witen of his aire
Of Alisaundre or of Philipoun
Whiche schold haue þe regioun (L 756--61)


 もう1つは,Alexander 軍が Darius 軍と戦うために準備をしている場面.

Hij charged many a selcouþe beeste
Of olifauntz, and ek camayles,
Wiþ armure and ek vitayles,
Longe cartes wiþ pauylounes,
Hors and oxen wiþ venisounes,
Assen and mulen wiþ her stouers; (B 1860--65)

Y chargid mony a selcouþ beste
Olifauns and eke camailes
Wiþ armure and eke vitailes
Long cartes wiþ pauelouns
Hors and oxen wiþ vensounes
Assen and muylyn wiþ heore stoueris (L 1854--59)


 さらにもう1つ,Darius 軍の進軍の場面より.

Ycharged olifauntz and camaile,
Dromedarien, and ek oxen,
Mo þan ȝe connen asken. (B 3402--04)

And charged olifans and camailes
Dromedaries assen and oxen
Mo þan ȝe can askyn (L 3385--87)


 このように動物名詞が列挙されると,中英語期にはこうした動物が(少なくとも物語の設定において)いかに身近であったかを確認できるとともに,当時の規則複数化の攻勢と不規則複数保持の守勢を具体的に把握することができる.

 ・ McMahon, April M. S. Understanding Language Change. Cambridge: CUP, 1994.
 ・ Smithers, G. V. ed. Kyng Alisaunder. 2 vols. EETS os 227 and 237. 1952--57.

[ | 固定リンク | 印刷用ページ ]

2010-12-25 Sat

#607. Google Books Ngram Viewer [corpus][web_service][ame_bre][google_books][n-gram][statistics][frequency][lexicology]

 Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
 規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burntburned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
 次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American EnglishBritish English のそれぞれのサブコーパスから出力されたグラフは以下の通り.

in the street and on the street by Google Books Ngram Viewer

 inon の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
 [2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
 コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
 他のオンラインコーパスについては[2010-11-16-1]を参照.

[ | 固定リンク | 印刷用ページ ]

2010-10-06 Wed

#527. 不規則変化動詞の規則化の速度は頻度指標の2乗に反比例する? [verb][conjugation][statistics][lexical_diffusion][speed_of_change][frequency]

 言語進化論の立場からの驚くべき論文を読んだ.古英語の強変化動詞(不規則変化動詞)が時間とともに現在・未来に向かって規則化してゆく速度は,その動詞の頻度指標の2乗に反比例するというのである.不規則形の規則化と頻度に相関関係があることは多くの関連研究で明らかにされてきているが,この研究で驚かされるのは具体的な数式を挙げてきたことである.
 古英語から取り出した177の不規則動詞(現在にまで廃語となっていないもののみ)のうち,中英語でも不規則のまま残ったのは145個,近代英語でも不規則のままなのは98個だという.また,未来に計算式を当てはめると西暦2500年までに不規則のまま残っているのは83個であると予測している.
 この論文には計算に関わる数々の前提が説明されているが,細かくみればいろいろと疑問点がわき出てくる.

 ・ 現代英語における各動詞の頻度をコーパスで求めているのはよいとして,古英語と中英語における頻度の求め方は適切か.著者たちは中英語に関しては The Penn-Helsinki Parsed Corpus of Middle English を利用したと述べているが,現代英語の頻度を流用して計算している箇所もあった.もっとも,この流用による値の乱れは大きくないという議論は論文内で展開されてはいるが.
 ・ 現代英語については標準変種を想定して動詞を数えているが,過去の英語についてはどの変種を選んでいるのかが不明.おそらくは雑多な変種を含めたコーパスを対象としているのだろう.
 ・ 古英語から現代英語にかけておよそ一定の速度で規則化が起こっているという結果だが,近代期以降は「自然な」言語変化に干渉を加える規範文法の成立や教育の普及という社会的な出来事があった.こうした事情を考え合わせたうえで一定の速度であるということは何を意味するのか.
 ・ 規則形が現われだした時点ではなく,不規則形が最後に現われた(のちにもう現われないことになる)時点をカウントの基準にしているが,両形が共存している時期の長さについては何か言えることはあるのか.

 ただ,非常に大きな視点からの研究なので,あまり細かい点を持ち出して評するのもどうかとは思う.そこで,細かいことは抜きにしてこのマクロな研究結果を好意的に受け入れてみることにして,次にこの研究の後に生じるはずの大きな課題を考えてみたい(論文中には特に further studies が示されていないかったので).
 「規則化の速度が動詞の頻度指標の2乗に反比例する」という結果が出たが,この公式は英語の動詞の規則化だけに適用される単発の公式と考えてよいのだろうか.他のいくつかの(望むらくは多くの)言語的規則化にも一般的に適用できるのであればとても有意義だが,おそらくそれほどうまくは行かないだろう.そうすると,今回のように綺麗に公式が導き出される「理想的な」規則化の例は,逆に言うとどのような条件を備えているのだろうか.この条件を一般化することはできるのだろうか,また意味があるのだろうか.
 私も「理想的な言語変化の推移」には関心があり,言語変化は slow-quick-quick-slow のパターンのS字曲線を描くとする語彙拡散 ( lexical diffusion ) という理論に注目しているが,上記と同じ課題を抱えている.現実には,理想的な言語変化の推移の起こることは稀だからである.この問題については今後もじっくり考えていきたい.

 ・ Lieberman, Erez, Jean-Baptiste Michel, Joe Jackson, Tina Tang, and Martin A. Nowak. "Quantifying the Evolutionary Dynamics of Language." Nature 449 (2007): 713--16.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow