hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 3 4 次ページ / page 1 (4)

frequency - hellog〜英語史ブログ

最終更新時間: 2024-03-19 07:57

2024-01-18 Thu

#5379. blend は形態理論や韻律理論にとっても有意義な現象である [blend][morphology][frequency][word_formation][prosody][analogy]

 近年,英語語彙に blend (混成語)が激増している事実については,すでに hellog でも繰り返し取り上げてきた.

 ・ 「#631. blending の拡大」 ([2011-01-18-1])
 ・ 「#876. 現代英語におけるかばん語の生産性は本当に高いか?」 ([2011-09-20-1])
 ・ 「#4369. Brexit --- 現代の病理と遊びの語形成」 ([2021-04-13-1])

 一見すると blend は人目を引く言葉遊びにすぎず,形態論上あくまで周辺的な現象にとどまると思われるかもしれない.しかし,近年の英語語形成におけるその生産性の高さは,従来の見方を変えつつある.例えば,Fertig (70) は,混成という語形成が理論的な意義をもつことを次のように力説している.

   Blends are often treated as a marginal phenomenon (Haspelmath and Sims 2010:40). Aronoff discusses them under the heading 'oddities' and considers them 'words which have no recognizable internal structure or constituents'; they are 'opaque, and hence uncommon' (1976: 20). Recent developments suggest that Aronoff may have had the relationship between opacity and frequency backwards here. Blends may have been rather opaque in 1976 precisely because they were still relatively uncommon. Today, at least in English, blends (of certain types) can hardly be called uncommon, and we generally seem to have little trouble parsing and processing them. As we will see in §7.3.8, this issue of the relationship between the frequency of a morphological pattern and its transparency/opacity has implications for some fundamental theoretical issues of great relevance to morphological change.
   To the extent that some types of blending have become productive and predictable morphological operations in present-day English, it is no longer accurate to classify them as non-proportional. They amount to a kind of compounding with the two elements overlapping in accordance with well defined constraints. Within Paul's proportional theory, they could thus be handled by an extension of the (syntagmatic) proportional equations that he proposes for syntax (see §6.2 below). Blending as a type of word formation would fit even more easily into certain other theories of morphology. Insights and analytical tools from Prosodic Morphology (McCarthy and Prince 1995) have made it clear that (most) blends absolutely do have 'recognizable internal structure'. They are a type of non-concatenative morphology. Instead of combining two words into a linear string as in compounding, blends superimpose one word onto the prosodic structure of another (Piñeros 1998, 2004).


 従来,混成語は形態論的には内部構造が不透明とみなされてきた.しかし,それは混成による語形成の生産性がまだ低かったために十分に解明されておらず,「不透明」とのレッテルを貼られてきただけなのではないか.混成語が横溢している現在,使用者もすっかり慣れ,むしろ透明性が高くなってきたといえるのではないか.そして,遅ればせながら,形態理論や音韻理論による解明のメスが入り始めたのではないか,とそのような議論である.
 韻律形態論 (Prosodic Morphology) という分野が提唱されているようであり,さらに「#3722. 混成語は右側主要部の音節数と一致する」 ([2019-07-06-1]) でみた通り,混成語に特徴的な韻律上の制限も確かにあるようだ.今後の混成語言語学の展開に期待したい.

 ・ Fertig, David. Analogy and Morphological Change. Edinburgh: Edinburgh UP, 2013.

[ 固定リンク | 印刷用ページ ]

2023-11-12 Sun

#5312. 「ゆる言語学ラジオ」最新回は「不規則動詞はなぜ存在するのか?」 [yurugengogakuradio][verb][inflection][conjugation][sobokunagimon][frequency][voicy][heldio][youtube][link][notice][numeral][suppletion][analogy]

 昨日,人気 YouTube/Podcast チャンネル「ゆる言語学ラジオ」の最新回が配信されました.今回は英語史ともおおいに関係する「不規則動詞はなぜ存在するのか?【カタルシス英文法_不規則動詞】#280」です.



 ゆる言語学ラジオの水野太貴さんには,拙著,Voicy 「英語の語源が身につくラジオ」 (heldio),および YouTube チャンネル「井上逸兵・堀田隆一英語学言語学チャンネル」のいくつかの関連コンテンツに言及していただきました.抜群の発信力をもつゆる言語学ラジオさんに,この英語史上の第一級の話題を取り上げていただき,とても嬉しいです.このトピックの魅力が広く伝わりますように.
 概要欄に掲載していただいたコンテンツ等へのリンクを,こちらにも再掲しておきます.

 ・ 拙著 『英語の「なぜ?」に答えるはじめての英語史』(研究社,2016年)
 ・ 拙著 『英語史で解きほぐす英語の誤解 --- 納得して英語を学ぶために』(中央大学出版部,2011年)
 ・ heldio 「#58. なぜ高頻度語には不規則なことが多いのですか?」
 ・ YouTube 「新説! go の過去形が went な理由」 (cf. 「#4774. go/went は社会言語学的リトマス試験紙である」 ([2022-05-23-1]))
 ・ YouTube 「英語の不規則活用動詞のひきこもごも --- ヴァイキングも登場!」 (cf. hellog 「#4810. sing の過去形は sang でもあり sung でもある!」 ([2022-06-28-1]))
 ・ YouTube 「昔の英語は不規則動詞だらけ!」 (cf. 「#4807. -ed により過去形を作る規則動詞の出現は革命的だった!」 ([2022-06-25-1]))
 ・ heldio 「#9. first の -st は最上級だった!」
 ・ heldio 「#10. third は three + th の変形なので準規則的」
 ・ heldio 「#11. なぜか second 「2番目の」は借用語!」

 「不規則動詞はなぜ存在するのか?」という英語に関する素朴な疑問から説き起こし,補充法 (suppletion) の話題(「ヴィヴァ・サンバ!」)を導入した後に,不規則形の社会言語学的意義を経由しつつ,全体として言語における「規則」あるいは「不規則」とは何なのかという大きな議論を提示していただきました.水野さん,堀元さん,ありがとうございました! 「#5130. 「ゆる言語学ラジオ」周りの話題とリンク集」 ([2023-05-14-1]) もぜひご参照ください.

[ 固定リンク | 印刷用ページ ]

2022-05-01 Sun

#4752. which vs that --- 関係代名詞の選択の陰にひそむ使用域 [relative_pronoun][frequency][corpus][youtube][syntax][genre][ame_bre]

 4月27日(水)に公開された YouTube 番組「井上逸兵・堀田隆一英語学言語学チャンネル」では「受験生のみなさーん!関係代名詞の文法問題を間違えた時の対処法ですよー【井上逸兵・堀田隆一英語学言語学チャンネル # 18 】」と題して関係代名詞の話題を取り上げました.なかなか多く視聴されているようで,ありがたい限りですが,実際に2人でおもしろいことをしゃべっています(笑).ぜひご覧ください.



 標準英語で関係代名詞といえば which, who, whom, that, そしてゼロ(いわゆる関係代名詞の省略)辺りが挙げられますが,このいずれが用いられるかという選択には,複数のパラメータが複雑に関わってきます.関係代名詞節の内部での役割が主格なのか目的格なのかということはもちろん,制限/非制限用法の違い,先行詞が有性か無性かなどの統語意味論的パラメータが複雑に関与してきます.さらに,あまり注目されませんが,実は使用域 (register) という語用論的パラメータこそが,関係代名詞の選択にとても重要や役割を果たしているのです.
 Longman Grammar of Spoken and Written English (608--21) には,コーパスを用いた関係代名詞選択に関する調査結果が詳細に示されています.今回はそちらを参照しながら,全体として最も使用頻度の高いとされる whichthat に焦点を当て,両者の分布を比べてみましょう.
 whichthat は多くの場合入れ替え可能ですが,学校文法で教わるとおり,原則として which は先行詞が無性の場合に限られ,また制限用法のみならず非制限用法としても使えるという特徴がみられます.一方,that は先行詞を選びませんが,制限用法に限定されます.
 しかし,whichthat の分布の違いについておもしろいのは,そのような統語意味論的な要因と同じくらい使用域という要因も効いているということです.which は保守的で学術的な含みがあり,学術散文での非制限用法に限定すれば,70%を占め,that を圧倒しています.一方,that は口語的でくだけた含みがあり,例えばフィクションでの非制限用法に限定すると,75%を占めます.
 また,アメリカ英語かイギリス英語かという違いも,which vs that に絡んできます.ニュースでの非制限用法に注目すると,アメリカ英語のほうが明らかに that を好み,イギリス英語では which を好みます.会話で比べると,ますますアメリカ英語では that が好まれ,イギリス英語の2倍の頻度で用いられます.
 全体として,LGSWE (616) は which vs that 対決について次のように総括しています.

The AmE preference for that over which reflects a willingness to use a form with colloquial associations more widely in written contexts than BrE.


 関係代名詞の選択の陰には使用域というファクターがひそんでいたのです.
 ちなみに,今晩18:00に公開される YouTube #19 は関係代名詞の話題の続編となります.お楽しみに!

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan, eds. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.

[ 固定リンク | 印刷用ページ ]

2022-02-17 Thu

#4679. 言語における塊現象とゆらぎ [complex_system][computational_linguistics][statistics][frequency][1/f][terminology][keyword]

 昨日の記事「#4678. 言語における塊現象と長相関」 ([2022-02-16-1]) で,言語における塊現象を「長相関」の観点からみたが,今回はもう1つの観点である「ゆらぎ」に注目しよう.ゆらぎ解析について,田中 (112) は次のように説明している.

このような塊現象を捉える自然な方法の一つとして,ある一定の範囲内に出現する単語の頻度の分散を調べることが挙げられる.ある単語の出現にゆらぎがあるのであれば,ある一定の範囲内にその単語が出現しない場合があり,また一方でその単語が数多く出現する場合もあり,その頻度の分散は大きくなるはずである.


 解析原理としては分かりやすい.ある文章中に表われる語彙を念頭におく場合,ゆらぎ方は語によって異なるが,おもしろいことに,いわゆるキーワードはしばしばゆらぎが大きいという(田中,p. 118).これは,機械的なキーワードの同定などに貢献しそうな興味深い傾向である.
 また,人間言語による文章とランダム文字列の文章とでゆらぎを比べると,明らかに前者の方がゆらぎが大きく,このことは人間言語の特徴の一端を示唆する.さらに,文章のジャンルによってもゆらぎは異なるために(田中,p. 120),ゆらぎの度合いは文体論的な指標ともなり得る.
 様々な可能性を秘めた言語における「ゆらぎ」にアンテナを張っておきたい.関連して「1/f ゆらぎ」 (1/f) も要注目.

 ・ 田中 久美子 『言語とフラクタル --- 使用の集積の中にある偶然と必然』 東京大学出版会,2021年.

[ 固定リンク | 印刷用ページ ]

2022-02-16 Wed

#4678. 言語における塊現象と長相関 [complex_system][computational_linguistics][statistics][frequency][information_structure][article][terminology]

 言語には,他の多くの自然・社会現象にもみられる「塊現象」というものが観察される.田中 (98) の説明を引用する.

その傾向は一言で言えば「塊現象」,つまり単語が固まって現れること,ある単語が一旦現れるとしばらくの間は頻繁に出現する一方で,それを過ぎるとほとんど出現しなくなる傾向があることとして直感的に捉えることができる.塊現象が見られる系列では,短い間隔が続いた後には短い間隔が現れ,また逆に長い間隔が続いた後には長い間隔が現れる可能性が高い.このような言語の塊現象の要因の一つは,当然のことながら文脈の変化にある.
 塊現象は,自然,金融など,さまざまな複雑系においてはよく知られる〔中略〕.たとえば,大雨や地震が固まって現れることは経験を通して誰しも知っているだろう.社会的な対象においても,たとえば,株取引には,ある取引が引き金となって,関連する取引が行われるため,やはり塊現象が生じることが知られる.同様に,単語もある単語が引き金となり,その単語ならびに関連する単語の塊が出現する.


 説明されてみれば,もっともという現象ではある.この塊現象の一般的な研究には歴史があるが,言語に応用した研究は少ないようだ.解析法としては,大きく分けて「長相関」と「ゆらぎ」に着目する2種類があるという.ここでは前者を見ていこう.
 「長相関」による解析は,「ある系列中の,二つの部分列の相関が,その部分列の距離 s に依存してどのように変化するかを調べる解析」である(田中,p. 99).互いに離れた2つの部分列の内部構造が類似していれば長相関があるということになる(cf. 「#4675. 言語と複雑系」 ([2022-02-13-1]) で言及した「長期記憶」).
 英語における最頻語である定冠詞 the について,長い文章で長相関解析を試みると,どうやら弱い長相関があるようだ(田中,p. 105).しかし,あくまで弱い長相関があるにとどまり,細かくみれば the にすらある程度の塊現象がみられることが判明する.驚くことに,the も現われるときは固まって現われ,現われないときにはしばらく現われない,ということがある程度観察されるのである.田中 (109)は,先行研究に従い,この事実を次のように解釈している.

k 個の短い間隔があると,続く k + 1番目の間隔も短く,k 個の長い間隔があると,それに続く k + 1番目の間隔も長い傾向にある.短い間隔が続くことは,対象となる単語が固まって現れることを示している.〔中略〕このような塊現象の背景には文脈の変化がある.the については,まず不定冠詞を中心として一般的な概念を導入し,その後,導入された概念について議論が行われ,その際は the が多用される.


 これは,談話における情報構造 (information_structure) に着目した,the についての塊現象の読み解きといってよいだろう.

 ・ 田中 久美子 『言語とフラクタル --- 使用の集積の中にある偶然と必然』 東京大学出版会,2021年.

Referrer (Inside): [2022-02-17-1]

[ 固定リンク | 印刷用ページ ]

2021-08-01 Sun

#4479. 不規則動詞の過去形は直接記憶保存されている [frequency][suppletion][verb][inflection][be][preterite]

 形態的不規則性を示す語は高頻度語に集中している.その典型が不規則動詞である.規則的に -ed を付して過去形を作る圧倒的多数の動詞に対して,不規則動詞は数少ないが,たいてい相対的に頻度の高い動詞である.不規則中の不規則といえる gobe の過去形 went, was/were などは,補充法 (suppletion) によるものであり,暗記していないかぎり太刀打ちできない.これは,いずれも超高頻度語であることが関係している.この辺りの事情は以下の記事でも取り上げてきた.

 ・ 「なぜ高頻度語には不規則なことが多いのですか?」 (去る7月29日付の「英語の語源が身につくラジオ」にて音声解説)
 ・ 「#3859. なぜ言語には不規則な現象があるのですか?」 ([2019-11-20-1])
 ・ 「#43. なぜ go の過去形が went になるか」 ([2009-06-10-1])
 ・ 「#1482. なぜ go の過去形が went になるか (2)」 ([2013-05-18-1])
 ・ 「#3284. be 動詞の特殊性」 ([2018-04-24-1])

 では,なぜ頻度の高い動詞には不規則活用を示すものが多いのだろうか.記憶 (memory) や形態の心的表象 (mental representation) に訴える説明が一般的である.Smith (1535) の解説を引用する.

The relationship between high frequency and irregularity has to do with memory in so far as those verbs that are used frequently have strong mental representations such that the irregular past forms are stored autonomously and thus accessed independently of the present stem. Such items are said to have become "entrenched" in storage . . . . On the other hand, a low frequency form does not necessarily have its past form stored autonomously and does not allow for direct access to that past form. Thus, its use in the past involves access to the present stem and rule application . . . .


 頻度の高い動詞の過去形は,頻繁に使用するために,記憶のなかで直接アクセスできる引き出しにしまっておくのが便利である.go という現在形を足がかりにして went にたどり着くようでは,遅くて役に立たない.go を経由せずに,直接 went の引き出しにたどり着きたい.一方,頻度の低い動詞であれば,現在形を足がかりにして,それに -ed を付すという規則適用の計算も,たまのことにすぎないので耐えられる.つまり,引き出す頻度に応じて直接アクセスと間接アクセスの2種類に分けておくのが効率的である.
 では,-ed を付して過去形を作る規則動詞は常に計算を伴う間接アクセスなのかというと,必ずしもそうではないようだ.Smith (1535) で紹介されているある研究によると,同音語である kneadedneeded を被験者に発音してもらったところ,相対的に頻度の低い前者の -ed 語尾のほうが,頻度の高い後者の語尾よりも,平均して数ミリ秒長く発音されたという.これは,needed のほうがアクセスが容易であること,おそらくより直接に記憶保存されていることを示唆する.

 ・ Smith, K. Aaron. "New Perspectives, Theories and Methods: Frequency and Language Change." Chapter 97 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1531--46.

Referrer (Inside): [2022-12-02-1]

[ 固定リンク | 印刷用ページ ]

2021-07-31 Sat

#4478. 頻度でみる be 完了の衰退の歴史 [perfect][be][verb][aspect][tense][auxiliary_verb][frequency]

 英語史では,早くも古英語期より,完了を表わすのに have 完了と be 完了の2種類が行なわれてきた.ただし,be 完了は自動詞,およそ移動動詞に限定され,have 完了に比べればもとより目立たない存在ではあった.近代英語期にかけて have 完了がますます勢いを増すにおよび,移動動詞も have 完了へと乗り換えていった.
 上記は,be 完了の衰退の歴史の教科書的な概観である.関連する記事として「#1653. be 完了の歴史」 ([2013-11-05-1]),「#1814. 18--19世紀の be 完了の衰退を CLMET で確認」 ([2014-04-15-1]),「#3031. have 完了か be 完了か --- Auxiliary Selection Hierarchy」 ([2017-08-14-1]) も参照されたい.
 最近 be 完了と have 完了の比率の通時的推移を明らかにした Smith (2012: 1537) の調査をみつけたので,紹介しておこう.時代ごとに type 頻度と token 頻度の比率(および括弧内に頻度)が示されている(基となっているのは Smith の別の2001年の "Role" 論文).

TypeToken
BehaveBehave
OE16% (11)84% (57)21% (18)79% (85)
EME11% (12)89% (92)24% (69)76% (214)
LME11% (9)89% (70)11% (12)89% (96)
EModE8% (10)92% (115)4% (13)96% (319)
19th C3% (8)97% (311)4% (38)96% (839)


 have 完了をとる動詞の種類も生起頻度も,もとより圧倒的多数派だったことが分かるが,時代が下るにつれて徐々に増えてきたこともよく分かる.あくまで徐々に増えてきたという点が重要である.逆からみれば,もともと be 完了をとっていた少数の動詞が,have 完了化にそれだけ頑強に抵抗していたということになるからだ.
 現代までに be 完了は be gone のような定型句として用いられるにとどまり,事実上ほぼ完全に衰退してしまったといってよい.ちなみに,He is gone.He has gone. の違いについてだが,前者の be 完了では,行ってしまった現在の結果,すなわち「今はもういない」という側面に焦点が当てられるとされる.一方,後者の have 完了は,時間的に先行する行くという動作そのもの,およびその現在への関与という側面に焦点が当てられられ,およそ「行ったことがある」に近い意味となる.完了相のもともとの意味は「結果」であり,その点では形式的に古い be gone が意味的に古い「結果」を担っており,形式的に新しい have gone が意味的に新しい「先行性」を担っているという平行性はおもしろい (Smith, "New" 1537--38) .関連して「#3631. なぜ「?に行ったことがある」は have gone to . . . ではなく have been to . . . なのか?」 ([2019-04-06-1]) も参照.

 ・ Smith, K. Aaron. "New Perspectives, Theories and Methods: Frequency and Language Change." Chapter 97 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1531--46.
 ・ Smith, K. Aaron. "The Role of Frequency in the Specialization of the English Anterior." Frequency and the Emergence of Linguistic Structure. Ed. by Joan Bybee and Paul Hopper. Amsterdam/Philadelphia: Benjamins, 2001. 361--82.

[ 固定リンク | 印刷用ページ ]

2021-01-07 Thu

#4273. the --- 英語で最も重要な語 [article][frequency][hellog_entry_set]

 英語で最も頻度の高い語は,定冠詞 the である.「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1]) のどの頻度表をみても,圧倒的な1位である.ところが,これほど重要な語でありながら「語彙的な意味」はない.あるのは「文法的な機能」のみである.the は,一般には特定のものや既知のものを指示する役割を担っているとされ,文法的であると同時に談話的・語用的な語でもある.
 一般に定冠詞に対置されるのは不定冠詞 a(n) や無冠詞の用法だが,これらの間の使い分けが難しいことはつとに知られている.規則でくくることができず,常に例外が存在する.また,同じ英語でも変種間で使い分けが異なる.「ギターを弾く」は play the guitar なのか play guitar なのか.「入院して」は in hospital なのか in the hospital なのか.
 変種間(そして話者個人間)で異なるのは,使い方にとどまらない.発音も [ðə], [ði], [ðiː] などと変異する.このような語がダントツの超高頻度語であるというのも,考えてみればたいへん困った話しである.
 歴史についてはどうか.古英語や,その祖先であるゲルマン祖語,そして究極の先祖に当たる印欧祖語でも,冠詞に相当するものはなかった.英語の歴史をみても,(定・不定)冠詞という語類は,古英語期には存在せず,中英語期以降に発達してきた新参者である.古英語には thisthat に相当する指示詞は存在しており,後に後者から派生する形で冠詞が生まれてきたという経緯がある.それが,近代英語以降には,なくてはならない中核的な語類へと登り詰めてきたわけだから,不思議な話だ.
 the について注目した30分弱のラジオ番組を紹介しよう.BBC Radio 4's Word of Mouth: The Most Powerful Word である.英語史の専門家たちが,the の不思議と魅力を余すところなく語っている.番組の内容をまとめた記事も一読をお勧めしたい.英語史の観点からは,とりわけ後半の "Origins" の節が有用.
 なお,本ブログでも the について様々に扱ってきた.是非##3831,154,156,2144,2855,2856,906,907,2236,4132の記事セットをどうぞ.

[ 固定リンク | 印刷用ページ ]

2020-12-10 Thu

#4245. 頻度と漸近双曲線 (A-curve) [lexical_diffusion][zipfs_law][frequency][statistics][language_change][uniformitarian_principle]

 variationist の立場を高度に押し進めた言語(変化)観を提案する,Kretzschmar and Tamasi の論考を読んだ."A-curve", "asymptotic hyperbolic distribution", "power law", "S-curve" などの用語が連発し思わず身構えてしまう論文だが,言わんとしていることは Zipf's Law (cf. zipfs_law) の発展版のように思われる.低頻度の言語項は多く,高頻度の言語項は少ないということだ.
 ある英語コーパスにおいて,1度しか現われない語は相当数ある.一方,the, of, have などは超高頻度で現われるが,主として機能語であり種類数でいえば相当に限定される.例えば,1回しか現われない語 ( x = 1 ) は1000個 ( y = 1000 ) あるが,1000回も現われる語 ( x = 1000 ) は the の1語しかない ( y = 1 ) とすると,これを座標上にプロットしてみれば第1象限の左上と右下に点が打たれることになる.この2点を両端として,その間の点を次々と埋めていくと,y = 1/x で表わせるような漸近双曲線 (asymptotic hyperbolic curve) の片割れに近づくだろう.これを Kretzschmar and Tamasi は "A-curve" と呼んでおり,背後にある法則を "power law" (べき乗則)と呼んでいる.後者は "few realizations that occur very frequently and many realizations that occur infrequently" (384) ということである.
 Kretzschmar and Tamasi は,アメリカ方言における訛語や調音の variants を調査し,各種の変異形について頻度の分布を取った.結果として,いずれのケースについても "A-curve" が観察されることを示した.
 また,Kretzschmar and Tamasi は,語彙拡散 (lexical_diffusion) との関連でしばしば言及される "S-curve" と,彼らの "A-curve" との関係についても議論している.同一の言語変化を異なる軸に着目してプロットすると "S-curve" にも "A-curve" にもなり,両者は矛盾しないどころか,親和性が高いという.
 私の拙い言葉使いでは上手く解説することができないのだが,言語体系や言語変化を徹底的に variationist に眺めようとすると,このような言語観あるいは言語理論になるのかと感心した.Kretzschmar and Tamasi (394) より,とりわけ重要と思われる箇所を引用する.

Our second observation, about the distribution of variants according to Zipf's Law, has the strongest set of implications for historical study of language. If we take the A-curve as the model for the frequency distribution of variants for any linguistic feature of interest to us at any moment in time, then we should expect that any particular variant of interest to us will have a particular rank along the A-curve. Therefore, one of the things that we should try to do for any given moment in time is to determine the place of our variant of interest on the curve; we need to know whether it is the most frequent variant in the set of possible realizations (at the top of the curve), or an infrequent variant (in the tail of the curve). Then, for any subsequent moment in time, we can again try to determine the location of our variant of interest along the curve, and so try to make a statement about whether the location of the variant has changed in the intervening time (see Figure 14). Since we hypothesize that an A-curve will exist for every feature at any moment in time (i.e., that language will not suddenly become invariant), we can define the notion "linguistic change" itself as the change in the location of the target variant at different heights along the curve. If a particular variant occurs at a higher place on the curve than it did before, it has become more frequent and so we can say that the direction of change for that variant is positive; if a variant occurs at a lower place on the curve than it did before, it has become less frequent and the direction of change is negative.


A-curves at different moments in time (Kretzschmar and Tamasi 395)

 ・ Kretzschmar, Jr.,William A and Susan Tamasi. "Distributional Foundations for a Theory of Language Change." World Englishes 22 (2003): 377--401.

[ 固定リンク | 印刷用ページ ]

2019-12-22 Sun

#3891. 現代英語の様々な句読記号の使用頻度 [punctuation][alphabet][diacritical_mark][net_speak][brown][corpus][frequency][statistics][exclamation_mark]

 英語は同じローマン・アルファベットを用いる文字圏のなかでも,句読法 (punctuation) に関しては比較的単純な部類に入る.現代的な句読記号が出そろったのは500年前くらいであり,その数も多くない (cf. 「#575. 現代的な punctuation の歴史は500年ほど」 ([2010-11-23-1])) .また,文字そのものが26文字しかない上に,フランス語やドイツ語などにみられる,文字の周辺に付す特殊な発音区別符(号) (diacritical mark; cf. 「#870. diacritical mark」 ([2011-09-14-1])) も原則として用いられない.さらに,現代の印刷文化では句読記号が控えめに使われるようになってきているとも言われる.一方,net_speak などでは,新たな句読記号の使用法が生み出されていることも確かであり,句読法の発展が止まってしまったわけではないようだ (cf. 「#808. smileys or emoticons」 ([2011-07-14-1])) .
 さて,約100万語のアメリカ英語の書き言葉コーパス Brown Corpus を用いた調査によると,英語の主要な句読記号の使用頻度 (%) は次の通りだという (Cook 92) .

Commas47
Full stops45
Dashes2
Parentheses2
Semi-colons2
Question marks1
Colons1
Exclamation marks1


 用いられている句読記号の9割以上が <,> か <.> であるというのは,英語の読み手・書き手の直感としてうなづける.英語の読み書き学習の観点からいえば,まずはこの2つの句読記号に習熟することに努めればよいことになる.
 ローマン・アルファベット文字圏の句読記号の変異について関心のある方は,Character design standards - Punctuation for Latin 1 などを参照されたい.

 ・ Cook, Vivian. The English Writing System. London: Hodder Education, 2004.

Referrer (Inside): [2023-08-26-1] [2022-12-21-1]

[ 固定リンク | 印刷用ページ ]

2019-12-15 Sun

#3884. 文字解読の「2経路」の対比 [spelling][grammatology][alphabet][reading][writing][psycholinguistics][kanji][frequency]

 「#3881. 文字読解の「2経路モデル」」 ([2019-12-12-1]) の記事でみたように,文字解読には「音韻ルート」 (phonological route) と「語ルート」 (lexical route) の2経路があると想定されている.典型的には各々アルファベットと漢字(訓読み)に結びつけるのが分かりやすいが,アルファベットで綴られた単語が語ルートで読解されることもあれば,形声文字の漢字が音韻ルートで読解されることもあり得るので,そう単純ではない.Cook (25) は,2つのルートを以下のように対比している.

 Phonological routeLexical route
Converts written unitsTo phonemesTo meanings
Also known asAssembled phonologyAddressed phonology
NeedsMental rulesMental lexicon of items
Works byCorrespondence rulesMatching
Can handleAny novel combinationOnly familiar symbols
Used withAny wordsHigh frequency words


 最後の2行の指摘が興味深い.語ルートは,すでに知っている語,とりわけ頻度の高い語と相性がよいという点だ.逆にいえば,未知の語や低頻度の語とは相性が悪いということだ.確かに漢字は先に学んでいない限り読むことはできないし,低頻度の漢字はなかなか定着しないので読み書きも忘れがちである.一方,アルファベットで書かれた語は,たとえ未知で意味不明であっても,およそ読むことはできる.また,アルファベットで書かれているとはいえ,thevery などの高頻度語は,おそらく語ルートで読解されているだろう.
 算術に喩えれば,音韻ルートは筆算して答えを得ることに,語ルートは暗記しているかけ算九九で直接解答にアクセスすることに相当するといったらよいだろうか.

 ・ Cook, Vivian. The English Writing System. London: Hodder Education, 2004.

Referrer (Inside): [2020-01-26-1] [2019-12-18-1]

[ 固定リンク | 印刷用ページ ]

2019-11-20 Wed

#3859. なぜ言語には不規則な現象があるのですか? [sobokunagimon][frequency][suppletion]

 英語史や英語学の講義でリアクション・ペーパーを書いてもらうと「なぜ英語には○○のような不規則な現象が多いのですか」という疑問が多く寄せられます.確かに英語学習においては,不規則な動詞活用,不規則な名詞の複数形,不規則なスペリングなどが立て続けに現われ,そのたびに暗記を強いられます.すべてが規則的であればいいのにと思うのも無理からぬことです.英語を第2言語として学ぶ際にそのような不満を感じることは,まったくもって普通の感覚でしょう.
 しかし,すでに第1言語として苦労なく習得してしまっている日本語を考えても,やはり不規則性に満ちています.日本語母語話者は,五段活用,上一段活用,下一段活用,ラ行変格活用,サ行変格活用を何の苦労もなく使いこなしていますが,外国語として日本語を学んでいる学習者にとっては,なぜすべての動詞が五段活用であってくれないのかと不満かもしれません.ラ変やサ変は「変格」すなわち「不規則」なわけですから,学習者にとっては迷惑でしょう.英語学習者にとっての thing -- thought -- thoughtgo -- went -- gone と大差ありません.
 言語には不規則は付きものです.不規則性は古今東西の諸言語に普遍的な現象なのです.さらに外国語学習者にとって気の滅入る事実を明言すれば,基本的,日常的,高頻度の項目であればあるほど不規則性が高いのです.つまり,あらゆる外国語学習において初級レベルほど暗記すべき不規則性が多く,中級・上級レベルに近づいてくると規則性が現われてきます.絶望的ともいえる事実ですが,これが言語というものです.
 問題は,なぜ不規則性があるかということです.ある程度の不規則性が古今東西の諸言語を通じて普遍的であるとすれば,言語においては,すべてが規則的だとむしろ都合の悪いことがあるのだと想定せざるをえません.ある程度の不規則性があったほうが,便利な何かがあるということです.では,それは何なのでしょうか.
 この問題について考えを巡らせながら「作業机と文房具」の比喩に思い至りました.今,この文章を書いている自宅の机付近には様々な文房具があります.すぐに手を伸ばしたところにある机上のペン立ての中には,各種のペンのほか,はさみ,カッター,定規,ホッチキスの芯外しがあります.同じく手近なところには,ポストイットとメモパッドがあります.一方,目の前には様々な文房具を収納できる引き出し棚があり,そこには糊,セロテープ,消しゴム,クリップ類,ホッチキス,画鋲などが入っています.机に備え付けの引き出しは,どうも使いにくいためにあまり利用していませんが,開けてみると万年筆用のインク,大型ホッチキス,穴あけパンチ,長い定規などが入っています.
 振り返ってみると,最初から上のような配置で文房具を整理したわけではありませんでした.長い時間をかけて,私にとって事務作業上都合のよい配置になってきたものと思われます.はさみやホッチキスの芯外しは,私にとって使用頻度が高いので手近にあったほうが便利だということで,常に至近のペン立てに定住するに至ったのでしょう.一方,穴あけパンチはほとんど使わないので,机に付属の引き出しの最も奥に眠っているのでしょう.使用頻度の高い文房具は,とにかくすぐに手に届く場所にないと役に立ちません.一方,ほとんど使用しない文房具は,むしろ引き出しの奥深くであってもきちんと整理・収納されているほうが精神衛生上気持ちよいですし,たまに使うくらいであればむしろ便利なのです.
 使用頻度の低い文房具であれば「あそこの引き出し」の「奥の方」という2段構えの検索方法でも十分用を足します.たまの使用ですから,探すのに少々の時間と工程数がかかっても我慢できます.しかし,使用頻度の高い文房具はそうもいきません.きれいに収納されていなくとも,ペンやポストイットは,やはりすぐ手元になければ役に立たないのです.無造作でかまわない,とにかくアクセスするのに時間と工程数が少ないほうがよいのです.
 言語使用における単語も,この文房具と同じことです.現代英語社会において一般に go (行く)と locomote (自力で動く)とでは頻度が明らかに異なります.たまにしか使わない動詞については,規則的に活用させる,すなわち locomote + ed のように計算させるという面倒にも耐えられますが,高頻度の動詞について,同じようにいちいち工程数をかけて計算させるのは,明らかに効率が悪いでしょう.go といえば went というように,かけ算九九のようにすぐに答えが出るほうが便利です.確かに最初に暗記するコストは高くつきますが,いったんそれをクリアしてしまえば,その後の毎回の使用に際して効率のよいパフォーマンスを得られます.また,語形が大きく異なることにより,言い間違いや聞き間違いの可能性が低くなるという利点もあります.不規則だからこそ便利ということもあるのです.
 すべての単語が同頻度で用いられるような言語はありませんし,そのような言語が用いられる人間社会も想像できません.よく使わない単語とほとんど使わない単語が同居しているのが言語というものです.もし上に述べた仮説の通り,単語による頻度の差と不規則性が関係しているのだとすれば,なぜ古今東西の言語において不規則な現象がみられるのかが理解できます.

[ 固定リンク | 印刷用ページ ]

2019-05-07 Tue

#3662. "Recency Illusion" と "Frequency Illusion" [language_myth][language_change][frequency]

 現在進行中の言語変化を語るときに,よく「新しい変化」「最近の変化」と呼ぶことがある.日本語でいえば「ら抜き言葉」が典型例だが,この言語変化は決して新しくはない.「#2132. ら抜き言葉,ar 抜き言葉,eru 付け言葉」 ([2015-02-27-1]) で触れたように,東京では昭和初期から記録があり,おそらく大正期から起こり始めていた.英語に関しても,たとえば often の /t/ が発音されるようになってきたことが現在進行中の変化として注目されるが,/t/ 入りの発音そのものは中世以来連綿と続いてきたのであり,厳密にいえば「新しい変化」とは呼びにくい.いずれの例も,現在も進行中の変化ではあるには違いないが,現代に始まった変化ではない.数十年以上,場合によっては数世紀以上前から継続している変化ともいえ,前史をもっているのである(cf. 「#860. 現代英語の変化と変異の一覧」 ([2011-09-04-1])).
 一般的にいえば,多くの人々が新しい変化とみなしているものは,たいていすでにそれなりの歴史のある古い変化である.言語変化に常にアンテナを張っている言語学者ですら,しばしばこの罠の餌食になる.Arnold Zwicky はこの罠を "the Recency Illusion" と呼んだ.実に言い得て妙だ.Denison (158) が Zwicky による"Just Between Dr. Language and I" と題する記事から次の一節を引いている.

[...] the Recency Illusion, the belief that things YOU have noticed only recently are in fact recent. This is a selective attention effect. Your impressions are simply not to be trusted; you have to check the facts. Again and again---retro not, double is, speaker-oriented hopefully, split infinitives, etc.---the phenomena turn out to have been around, with some frequency, for very much longer than you think. It's not just Kids These Days. Professional linguists can be as subject to the Recency Illusion as anyone else.


 関連して,Zwicky は "Frequency Illusion" にも言及している.

[...] Another selective attention effect, which tends to accompany the Recency Illusion, is the Frequency Illusion: once you've noticed a phenomenon, you think it happens a whole lot, even "all the time." Your estimates of frequency are likely to be skewed by your noticing nearly every occurrence that comes past you. People who are reflective about language---professional linguists, people who set themselves up as authorities on language, and ordinary people who are simply interested in language---are especially prone to the Frequency Illusion.


 言語においてはしばしば「新しい変化は思ったより古い変化」であり,「頻繁な現象は思ったより稀な現象」(これについては,逆もまた真なり)であることを銘記しておきたい.

 ・ Denison, David. "Word Classes in the History of English" Chapter 13 of Approaches to Teaching the History of the English Language: Pedagogy in Practice. Introduction. Ed. Mary Heyes and Allison Burkette. Oxford: OUP, 2017. 157--71.
 ・ Zwicky, Arnold. "Just between Dr. Language and I." Language Log. 2005. Accessed May 4, 2006, http://itre.cis.upenn.edu/~myl/languagelog/archives/002386.html .

Referrer (Inside): [2022-12-06-1]

[ 固定リンク | 印刷用ページ ]

2019-01-27 Sun

#3562. may 祈願文の生産性 [optative][productivity][frequency][bnc][auxiliary_verb][may]

 may 祈願文の歴史や現代での事例について mayoptative の記事で扱ってきた.松瀬 (78) が引用している Declerck (416) によると,may 祈願文の特徴として4点が指摘されている.

 a. In a main clause, a wish (malediction or benediction) is introduced by may.
 b. This use of may is very formal and rarely found in modern English, except in standing expressions.
 c. May always expresses a present wish with future actualisation.
 d. Might cannot be used in a similar way.


 a, c, d については問題なく受け入れられるが,b についてはどうだろうか.誤りとはいわずとも,補足が必要なように思われる.
 may 祈願文の現状をみるために,BNCweb で例を集めてみた.ただし,助動詞の may (検索式に "may_VM0" と指定)は,3,537のテキストから112,397例がヒットし,そのなかから少数派の祈願用法の例を漏れなく探すのにはあまりに骨が折れる.そこで,may 祈願文の典型的な統語パターンや感嘆符の存在などを頼りに,なるべく多くの例が網にかかるはずという次善の策で今回は満足することにした.その上で,手作業にて確かな文例を拾い出した.
 結果として取り出せたのは100個ほどの例文である(結果をまとめたテキストファイルはこちら).取り残しも相当数あるだろうが,1億語からなるコーパスから100例ということは,頻度として相当に貧弱とはいえる.また,定型表現 (Declerck の "standing expressions")に多いということも確認された.もっとも,上述のように定型表現などの「型」を頼りに検索しているので,この結果は当然といえば当然である.たとえば May God bless/forgive/rest . . .Long may it flourish/continue/last . . .May . . . be with you . . .Much good may it do . . . などは,明らかなパターンを示している.
 しかし,これらの型にはまりきったものばかりではない.may 祈願文は,上のようなお決まりのパターンに基づいて語句を入れ替えただけの「パロディ」の枠をはみ出し,数は多くないとはいえ,新たなタイプの文を確かに生産しているのである.その意味で,「頻度」は低くとも「生産性」は必ずしも衰えていないと言えるのではないか.次のような例を挙げておこう.

 ・ Happy days, Jack, and may all your troubles be little ones!' (A73 91)
 ・ AN OLD CAMBRIDGE toast is, 'Here's to pure mathematics - may she never be of any use to anyone!' (B7C 2026)
 ・ St Augustine taught that God had created man in his own image and so it was by looking at his own soul that man would discover God: 'May I know myself! may I know thee!' he had cried. (CD4 417)
 ・ May you be doing so well into the next century! (CGB 37)
 ・ With joy may we burn and cleanse!' (CM4 255)
 ・ May all dealers have this problem! (EBU 2407)
 ・ May you take that knowledge to your grave!' (HGV 6054)

 もう1つ authentic な例を.1ヶ月ほど前,年始に海外から次のような文で始まるメールを受け取った.

We hope this email finds you all well and settling in to the New Year. May it be a productive and enjoyable one for one and all!


 ・ 松瀬 憲司 「"May the Force Be with You!"――英語の may 祈願文について――」『熊本大学教育学部紀要』64巻,2015年.77--84頁.
 ・ Declerck, R. A Comprehensive Descriptive Grammar of English. Tokyo: Kaitaku-sha, 1991.

Referrer (Inside): [2019-01-28-1]

[ 固定リンク | 印刷用ページ ]

2018-12-08 Sat

#3512. 認識動詞の種類と頻度の通時的変化 [frequency][verb][comment_clause][semantic_field]

 秋元 (162) より「中英語から現代英語における認識動詞の種類と頻度」の表を掲げよう.表中 (p) は "personal",(i) は "impersonal" の用法を示す.なお,この表は「各時代で扱われた動詞を頻度順におおざっぱに示したもの」とのことである.

14th15th16th17th18th19th20th
knowesupposeknowknowthinkthinkthink
witentrustthinkthinkbelievesupposeknow
thinke (p)trowtrowfind supposeknowsuppose 
semeunderstandtrust/wotbelieveknowbelievebelieve
wenewotbelievesupposeguessguessguess
trowehopewenefancy   
thinke (i)knowsupposeguess   
understondedeme/think/weneguesstrust   
demedeme     
menedoubt     
trustbelieve     
hopeguess     
gessen      
leve      
undertake      
suppose      
beleven      


 通時的な傾向としては,次の点が認められる(秋元,p. 162--63).

1. think と know が一貫して多く使われている.
2. suppose は15世紀には最も多く使われたが,その後再び18世紀以降に多くなっていった.
3. believe は中英語 (Chaucer),15世紀にはほとんど使われなかったが,17世紀以降多く使われるようになった.
4. guess は一貫してそれほど多くはない.
5. witen, wene, wot は17世紀ごろを境に使われなくなった.
6. trowe も17世紀ごろを境に使われなくなった.またこの動詞はほとんど as ? の形で使われた.
7. 表にははっきりとは表れていないが,fancy は現代英語では使われなくなった.


 秋元 (170) は,これらの動詞の通時的な盛衰を,意味場 (semantic_field) を巡る競合と位置づけている.

witan, wene の衰退は think の増大が関係し,また know の増大の結果でもあると考えられる.Fancy は17世紀ごろからしばらく使われていたが,20世紀に入ると,epistemic phrase として使われなくなったのは,imagine などの動詞に追いやられたり,あるいはその語自身が他の用法(fancy restaurant のような名詞,形容詞的用法)を発達させたからであると考えられる.逆に競合関係が保たれているのは,語同士がいわば棲み分けを行っており,そのバランスの上に機能しているからだと考えられる.Think, believe, suppose, know, guess の comment cl はそのような棲み分けられた状態において機能しているからであろう.


 認識動詞という高頻度の形式だけをとっても,通時的に種類や頻度を追ってみることで,意味の場の競合というダイナミックな現象が観察されることに感心した.

 ・ 秋元 実治 「第8章 Comment clause のまとめ」『Comment Clause の史的研究 ――その機能と発達――』秋元 実治(編) 英潮社フェニックス,2010年.161--72頁.

[ 固定リンク | 印刷用ページ ]

2018-03-25 Sun

#3254. 高頻度がもたらす縮小効果と保存効果 [frequency][grammaticalisation][auxiliary_verb][suppletion][zipfs_law]

 言語項目は,高頻度であればあるほど形態がすり減って縮小するということはよく知られている.一方,言語項目は高頻度であればあるほど,新たな形態に取って代わられることが少なく,古い形態を保持しやすいこともしられている.高頻度性がもたらすそれぞれの効果は,"Reduction Effect" (縮小効果),"Conservation Effect" (保存効果)と呼ばれている (Hopper and Traugott 127--28) .
 縮小効果は,文法化 (grammaticalisation) と関連が深い.代表的な例は,「#64. 法助動詞の代用品が続々と」 ([2009-07-01-1]) で示したような新種の法助動詞群である.used to [ju:stə], have to [hæftə], have got to [hævgɑtə], (be) supposed to [spoʊstə], (be) going to [gɑnə] などの音形が,オリジナルの音形からすり減って縮小しているのが確認される.この効果は,「#1101. Zipf's law」 ([2012-05-02-1]) や「#1102. Zipf's law と語の新陳代謝」 ([2012-05-03-1]) で取り上げた Zipf's law とも関係するだろう (cf. zipfs_law) .頻度と音形の長さには相関関係があるのだ(ただし,頻度と文法化の間には予想されるほどの関係はないと論じる,「#2176. 文法化・意味変化と頻度」 ([2015-04-12-1]) で紹介したような立場もあることを付け加えておこう).縮小効果の一般論としては,「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]) も参照されたい.
 保存効果は,共時的には究極の不規則性を体現する形態,とりわけ補充法 (suppletion) の形態が,あちらこちらに残存していることから確認できる.人称代名詞の変化や be 動詞の活用など,超高頻度語においては古い形態がよく保持され,共時的にきわめて予測不可能な形態を示す.この点については,「#43. なぜ go の過去形が went になるか」 ([2009-06-10-1]),「#1482. なぜ go の過去形が went になるか (2)」 ([2013-05-18-1]),「#2090. 補充法だらけの人称代名詞体系」 ([2015-01-16-1]),「#2600. 古英語の be 動詞の屈折」 ([2016-06-09-1]),「#694. 高頻度語と不規則複数」 ([2011-03-22-1]) を参照.もちろん保存効果は形態のみならず語順などの統語現象にも見られるので,言語について一般にいえることだろう.

 ・ Hopper, Paul J. and Elizabeth Closs Traugott. Grammaticalization. 2nd ed. Cambridge: CUP, 2003.

Referrer (Inside): [2021-05-17-1]

[ 固定リンク | 印刷用ページ ]

2018-01-10 Wed

#3180. 徐々に高頻度語の仲間入りを果たしてきたフランス・ラテン借用語 [french][latin][loan_word][borrowing][frequency][statistics][lexicology][hc][bnc]

 英語史では,中英語から初期近代英語にかけて,フランス語とラテン語から大量の語彙借用がなされた.それらのうち現在常用されるものについては,おそらく借用時点からスタートして時間とともに使用頻度が増してきたものと想像される.というのは,借用された当初から高頻度で用いられたとは考えにくく,徐々に英語に同化し,日常化してきたととらえるのが自然だからだ.
 この仮説を実証するのにいくつかの方法がありそうだが,Durkin があるやり方で調査を行なっている.中英語,初期近代英語,現代英語のそれぞれにおいてコーパスに基づく最高頻度語リストを作り,そのなかにフランス・ラテン借用語がどのくらいの割合で含まれているかを調べ,その割合の通時的推移を比較するという手法だ.古い時代のコーパスでは綴字の変異という問題が関わるため,厳密に調査しようとすれば単純にはいかないが,Durkin はとりあえずの便法として,中英語と初期近代英語については Helsinki Corpus の 1150--1500年と1500--1710年のセクションを用いて,現代英語については BNC を用いて異綴字ベースで調査した.それぞれ頻度ランキングにして900--1000位ほどまでの単語(綴字)リストを作り,そのなかでフランス・ラテン語借用語が占める割合をはじき出した.
 結果は,中英語セクションでは7%ほどだったものが,初期近代英語セクションでは19%まで上昇し,さらに現代英語セクションでは38%までに至っている.粗い調査であることは認めつつも,フランス・ラテン借用語で現在頻用されているものの多くについては,歴史のなかで徐々に頻度を上げてきた結果として,現在の日常的な性格を示すことがよくわかった.
 さらにおもしろいことに,初期近代英語のセクション(1500--1710年)に関する数値について,高頻度語リストに含まれるフランス・ラテン借用語のすべてが1500年より前に借用されたものであり,しかもその2/3ほどは確実にフランス借用語であるという事実が確認される (Durkin 338--39) .
 また,中英語と初期近代英語の高頻度語リストに含まれるフランス・ラテン借用語の多くが,現代英語の高頻度語リストにも再現されている事実にも触れておこう.古い2期には現われるが現代期からは漏れている語群を眺めると,なんとも時代の変化を感じさせてくれる.例えば,honour, justice, manner, noble, parliament, pray, prince, realm, religion, supper, treason, usury, virtue である (Durkin 340) .
 時代によって最頻語リストやキーワードが異なることは当然といえば当然だが,歴史英語コーパスを用いて様々な時代を比較してみるとおもしろそうだ.例えば,初期近代英語コーパスに基づくキーワード・リストについて「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.また,頻度と歴史の問題については「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) も参照されたい.

 ・ Durkin, Philip. Borrowed Words: A History of Loanwords in English. Oxford: OUP, 2014.

Referrer (Inside): [2022-06-05-1] [2020-08-25-1]

[ 固定リンク | 印刷用ページ ]

2018-01-04 Thu

#3174. 高頻度語はスペリングが短い (2) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

 昨日の記事 ([2018-01-03-1]) と同じ頻度とスペリングの長さに関するデータを,もう少し分析してみた.以下は,頻度ランキングのトップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について,それぞれ最低値,第1四分位数,中央値,平均値,第3四分位数,最大値を示した表である.英語の正書法を論じる上での基礎データとしてどうぞ.

 Min.1st Qu.MedianMean3rd Qu.Max.
Top_1001.02.03.03.14.05.0
Top_2001.003.004.003.774.0010.00
Top_5001.0004.0004.0004.4985.00010.000
Top_1K 1.0004.0005.0004.9686.00015.000
Top_2K 1.0004.0005.0005.4067.00015.000
Top_5K 1.0005.0006.0006.0147.00016.000
Top_10K1.0005.0006.0006.4888.00016.000
Top_20K1.0005.0007.0006.9548.00017.000
Top_50K1.0006.0007.0007.6229.00020.000


 これをもとに視覚化したのが,以下の箱ひげ図.

Boxplot for Length of Spelling of High-Frequency Words by SUBTLEXus


 当然予想されたことだが,語数が増えるにしたがってスペリングの平均の長さは徐々に大きくなっていき,バラツキも広がっていく.しかし,トップ数万語でみても平均して7文字程度となっており,さほど長くないのだなという印象を受けた.

[ 固定リンク | 印刷用ページ ]

2018-01-03 Wed

#3173. 高頻度語はスペリングが短い (1) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus][three-letter_rule]

 標題は特に目新しい指摘ではなく,英語を読み書きする者には直感されていることだと思われる.「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]) や「#1102. Zipf's law と語の新陳代謝」 ([2012-05-03-1]) でも指摘したように,よく読み書きする単語のスペリングは短いほうが効率がよいと考えられるからだ.逆に,滅多に読み書きしない単語であれば少々長くても我慢できる.単語のスペリングに限らず,単語の音形についても同様の原理が作用していると思われる.
 また,英語の正書法には内容語は3文字以上で綴られなければならないという「#2235. 3文字規則」 ([2015-06-10-1]) がある.これは機能語という頻度のきわめて高い語類については適用されない.したがって,この規則は上記の効率の問題とも関わる実用的な側面をもつといえる.
 高頻度語であればあるほど,そのスペリングが平均的に短いことを示す方法の1つに,頻度ランキングのトップ100語,1000語,10000語などのリストに基づき,文字数別に単語を数え上げるというやり方がある.「#2096. SUBTLEX-US Word Frequency List」 ([2015-01-22-1]) から引き出した頻度ランキングを利用して,トップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について調査した.トップ100語のリストについては先の記事でリストを掲載している通りであり,なかには s, ll などコーパスの仕様に由来するとおぼしき怪しい「語」もあるが,結果の大勢には影響を及ぼさないだろう.
 以下にグラフで整理した通り,結果は明白である(数値データはソースHTMLを参照).トップ100語の超高頻度語群では62.00%までが3文字以下のスペリングである.3文字以下の割合(下から3つ分のオレンジの帯まで)ということで比べていくと,トップ200語から50000語の調査結果まで,順に41.50%, 24.60%, 17.00%, 12.65%, 8.06%, 6.01%, 4.55%, 3.20%と目減りしていく.

Length of Spelling of High-Frequency Words by SUBTLEXus

Referrer (Inside): [2018-01-04-1]

[ 固定リンク | 印刷用ページ ]

2017-03-12 Sun

#2876. 英語語彙の頻度分布に関する格差上位1%のシェア [lexicology][statistics][frequency][corpus]

 昨日の記事「#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる」 ([2017-03-11-1]) に引き続き,英語語彙頻度の格差について考えてみたい.昨日扱ったジニ係数よりも直感的に格差を認識できる指標として,格差上位1%のシェアというものがある.経済学でいえば,トマス・ピケティも愛用している「トップ富裕層の所得シェア」である.大金持ちがどのくらい金持ちか,という指標と理解すればよい.英語語彙について言えば,生起頻度でトップ1%に入るそれほど多くない語によって,全体のどのくらいのシェアが占められているかを示す指標となる.
 昨日と同じように,総頻度数が81.5万ほどの比較的小規模な GSL の語彙頻度表と,1850万ほどの巨大コーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づく語彙頻度表で計算してみた.トップ1%とトップ0.1%での値は,以下の通り.

 GSLCELEX2
1%47.05%69.36%
0.1%14.60%43.57%


 実際,ここまで高い値になるとは予想していなかった.英語学習という観点からみると,極端な話し,高頻度語のトップ1%を暗記すれば,5?7割ほどの語が認識できることになる.それでテキストを理解できるかというと,それはまったく別問題ではあるが,語彙学習の効率について再考させられる.
 参考までに,2000年の時点での日米の所得シェアを見てみると,アメリカではトップ0.1%の富裕層が所得全体の7%ほど,日本では2%ほどである(吉川,p. 226).近年,両国ともに格差は開いてきているようだが,さすがに語彙の世界ほどの格差に至ることはないだろう.語彙の社会は,あらためて不平等な社会である.

 ・ 吉川 洋 『人口と日本経済』 中央公論新社〈中公新書〉,2016年.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow