hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 3 次ページ / page 1 (3)

frequency - hellog〜英語史ブログ

最終更新時間: 2019-07-19 09:36

2019-05-07 Tue

#3662. "Recency Illusion" と "Frequency Illusion" [language_myth][language_change][frequency]

 現在進行中の言語変化を語るときに,よく「新しい変化」「最近の変化」と呼ぶことがある.日本語でいえば「ら抜き言葉」が典型例だが,この言語変化は決して新しくはない.「#2132. ら抜き言葉,ar 抜き言葉,eru 付け言葉」 ([2015-02-27-1]) で触れたように,東京では昭和初期から記録があり,おそらく大正期から起こり始めていた.英語に関しても,たとえば often の /t/ が発音されるようになってきたことが現在進行中の変化として注目されるが,/t/ 入りの発音そのものは中世以来連綿と続いてきたのであり,厳密にいえば「新しい変化」とは呼びにくい.いずれの例も,現在も進行中の変化ではあるには違いないが,現代に始まった変化ではない.数十年以上,場合によっては数世紀以上前から継続している変化ともいえ,前史をもっているのである(cf. 「#860. 現代英語の変化と変異の一覧」 ([2011-09-04-1])).
 一般的にいえば,多くの人々が新しい変化とみなしているものは,たいていすでにそれなりの歴史のある古い変化である.言語変化に常にアンテナを張っている言語学者ですら,しばしばこの罠の餌食になる.Arnold Zwicky はこの罠を "the Recency Illusion" と呼んだ.実に言い得て妙だ.Denison (158) が Zwicky による"Just Between Dr. Language and I" と題する記事から次の一節を引いている.

[...] the Recency Illusion, the belief that things YOU have noticed only recently are in fact recent. This is a selective attention effect. Your impressions are simply not to be trusted; you have to check the facts. Again and again---retro not, double is, speaker-oriented hopefully, split infinitives, etc.---the phenomena turn out to have been around, with some frequency, for very much longer than you think. It's not just Kids These Days. Professional linguists can be as subject to the Recency Illusion as anyone else.


 関連して,Zwicky は "Frequency Illusion" にも言及している.

[...] Another selective attention effect, which tends to accompany the Recency Illusion, is the Frequency Illusion: once you've noticed a phenomenon, you think it happens a whole lot, even "all the time." Your estimates of frequency are likely to be skewed by your noticing nearly every occurrence that comes past you. People who are reflective about language---professional linguists, people who set themselves up as authorities on language, and ordinary people who are simply interested in language---are especially prone to the Frequency Illusion.


 言語においてはしばしば「新しい変化は思ったより古い変化」であり,「頻繁な現象は思ったより稀な現象」(これについては,逆もまた真なり)であることを銘記しておきたい.

 ・ Denison, David. "Word Classes in the History of English" Chapter 13 of Approaches to Teaching the History of the English Language: Pedagogy in Practice. Introduction. Ed. Mary Heyes and Allison Burkette. Oxford: OUP, 2017. 157--71.
 ・ Zwicky, Arnold. "Just between Dr. Language and I." Language Log. 2005. Accessed May 4, 2006, http://itre.cis.upenn.edu/~myl/languagelog/archives/002386.html .

[ | 固定リンク | 印刷用ページ ]

2019-01-27 Sun

#3562. may 祈願文の生産性 [optative][productivity][frequency][bnc][auxiliary_verb][may]

 may 祈願文の歴史や現代での事例について mayoptative の記事で扱ってきた.松瀬 (78) が引用している Declerck (416) によると,may 祈願文の特徴として4点が指摘されている.

 a. In a main clause, a wish (malediction or benediction) is introduced by may.
 b. This use of may is very formal and rarely found in modern English, except in standing expressions.
 c. May always expresses a present wish with future actualisation.
 d. Might cannot be used in a similar way.


 a, c, d については問題なく受け入れられるが,b についてはどうだろうか.誤りとはいわずとも,補足が必要なように思われる.
 may 祈願文の現状をみるために,BNCweb で例を集めてみた.ただし,助動詞の may (検索式に "may_VM0" と指定)は,3,537のテキストから112,397例がヒットし,そのなかから少数派の祈願用法の例を漏れなく探すのにはあまりに骨が折れる.そこで,may 祈願文の典型的な統語パターンや感嘆符の存在などを頼りに,なるべく多くの例が網にかかるはずという次善の策で今回は満足することにした.その上で,手作業にて確かな文例を拾い出した.
 結果として取り出せたのは100個ほどの例文である(結果をまとめたテキストファイルはこちら).取り残しも相当数あるだろうが,1億語からなるコーパスから100例ということは,頻度として相当に貧弱とはいえる.また,定型表現 (Declerck の "standing expressions")に多いということも確認された.もっとも,上述のように定型表現などの「型」を頼りに検索しているので,この結果は当然といえば当然である.たとえば May God bless/forgive/rest . . .Long may it flourish/continue/last . . .May . . . be with you . . .Much good may it do . . . などは,明らかなパターンを示している.
 しかし,これらの型にはまりきったものばかりではない.may 祈願文は,上のようなお決まりのパターンに基づいて語句を入れ替えただけの「パロディ」の枠をはみ出し,数は多くないとはいえ,新たなタイプの文を確かに生産しているのである.その意味で,「頻度」は低くとも「生産性」は必ずしも衰えていないと言えるのではないか.次のような例を挙げておこう.

 ・ Happy days, Jack, and may all your troubles be little ones!' (A73 91)
 ・ AN OLD CAMBRIDGE toast is, 'Here's to pure mathematics - may she never be of any use to anyone!' (B7C 2026)
 ・ St Augustine taught that God had created man in his own image and so it was by looking at his own soul that man would discover God: 'May I know myself! may I know thee!' he had cried. (CD4 417)
 ・ May you be doing so well into the next century! (CGB 37)
 ・ With joy may we burn and cleanse!' (CM4 255)
 ・ May all dealers have this problem! (EBU 2407)
 ・ May you take that knowledge to your grave!' (HGV 6054)

 もう1つ authentic な例を.1ヶ月ほど前,年始に海外から次のような文で始まるメールを受け取った.

We hope this email finds you all well and settling in to the New Year. May it be a productive and enjoyable one for one and all!


 ・ 松瀬 憲司 「"May the Force Be with You!"――英語の may 祈願文について――」『熊本大学教育学部紀要』64巻,2015年.77--84頁.
 ・ Declerck, R. A Comprehensive Descriptive Grammar of English. Tokyo: Kaitaku-sha, 1991.

Referrer (Inside): [2019-01-28-1]

[ | 固定リンク | 印刷用ページ ]

2018-12-08 Sat

#3512. 認識動詞の種類と頻度の通時的変化 [frequency][verb][comment_clause][semantic_field]

 秋元 (162) より「中英語から現代英語における認識動詞の種類と頻度」の表を掲げよう.表中 (p) は "personal",(i) は "impersonal" の用法を示す.なお,この表は「各時代で扱われた動詞を頻度順におおざっぱに示したもの」とのことである.

14th15th16th17th18th19th20th
knowesupposeknowknowthinkthinkthink
witentrustthinkthinkbelievesupposeknow
thinke (p)trowtrowfind supposeknowsuppose 
semeunderstandtrust/wotbelieveknowbelievebelieve
wenewotbelievesupposeguessguessguess
trowehopewenefancy   
thinke (i)knowsupposeguess   
understondedeme/think/weneguesstrust   
demedeme     
menedoubt     
trustbelieve     
hopeguess     
gessen      
leve      
undertake      
suppose      
beleven      


 通時的な傾向としては,次の点が認められる(秋元,p. 162--63).

1. think と know が一貫して多く使われている.
2. suppose は15世紀には最も多く使われたが,その後再び18世紀以降に多くなっていった.
3. believe は中英語 (Chaucer),15世紀にはほとんど使われなかったが,17世紀以降多く使われるようになった.
4. guess は一貫してそれほど多くはない.
5. witen, wene, wot は17世紀ごろを境に使われなくなった.
6. trowe も17世紀ごろを境に使われなくなった.またこの動詞はほとんど as 〜 の形で使われた.
7. 表にははっきりとは表れていないが,fancy は現代英語では使われなくなった.


 秋元 (170) は,これらの動詞の通時的な盛衰を,意味場 (semantic_field) を巡る競合と位置づけている.

witan, wene の衰退は think の増大が関係し,また know の増大の結果でもあると考えられる.Fancy は17世紀ごろからしばらく使われていたが,20世紀に入ると,epistemic phrase として使われなくなったのは,imagine などの動詞に追いやられたり,あるいはその語自身が他の用法(fancy restaurant のような名詞,形容詞的用法)を発達させたからであると考えられる.逆に競合関係が保たれているのは,語同士がいわば棲み分けを行っており,そのバランスの上に機能しているからだと考えられる.Think, believe, suppose, know, guess の comment cl はそのような棲み分けられた状態において機能しているからであろう.


 認識動詞という高頻度の形式だけをとっても,通時的に種類や頻度を追ってみることで,意味の場の競合というダイナミックな現象が観察されることに感心した.

 ・ 秋元 実治 「第8章 Comment clause のまとめ」『Comment Clause の史的研究 ――その機能と発達――』秋元 実治(編) 英潮社フェニックス,2010年.161--72頁.

[ | 固定リンク | 印刷用ページ ]

2018-03-25 Sun

#3254. 高頻度がもたらす縮小効果と保存効果 [frequency][grammaticalisation][auxiliary_verb][suppletion][zipfs_law]

 言語項目は,高頻度であればあるほど形態がすり減って縮小するということはよく知られている.一方,言語項目は高頻度であればあるほど,新たな形態に取って代わられることが少なく,古い形態を保持しやすいこともしられている.高頻度性がもたらすそれぞれの効果は,"Reduction Effect" (縮小効果),"Conservation Effect" (保存効果)と呼ばれている (Hopper and Traugott 127--28) .
 縮小効果は,文法化 (grammaticalisation) と関連が深い.代表的な例は,「#64. 法助動詞の代用品が続々と」 ([2009-07-01-1]) で示したような新種の法助動詞群である.used to [ju:stə], have to [hæftə], have got to [hævgɑtə], (be) supposed to [spoʊstə], (be) going to [gɑnə] などの音形が,オリジナルの音形からすり減って縮小しているのが確認される.この効果は,「#1101. Zipf's law」 ([2012-05-02-1]) や「#1102. Zipf's law と語の新陳代謝」 ([2012-05-03-1]) で取り上げた Zipf's law とも関係するだろう (cf. zipfs_law) .頻度と音形の長さには相関関係があるのだ(ただし,頻度と文法化の間には予想されるほどの関係はないと論じる,「#2176. 文法化・意味変化と頻度」 ([2015-04-12-1]) で紹介したような立場もあることを付け加えておこう).縮小効果の一般論としては,「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]) も参照されたい.
 保存効果は,共時的には究極の不規則性を体現する形態,とりわけ補充法 (suppletion) の形態が,あちらこちらに残存していることから確認できる.人称代名詞の変化や be 動詞の活用など,超高頻度語においては古い形態がよく保持され,共時的にきわめて予測不可能な形態を示す.この点については,「#43. なぜ go の過去形が went になるか」 ([2009-06-10-1]),「#1482. なぜ go の過去形が went になるか (2)」 ([2013-05-18-1]),「#2090. 補充法だらけの人称代名詞体系」 ([2015-01-16-1]),「#2600. 古英語の be 動詞の屈折」 ([2016-06-09-1]),「#694. 高頻度語と不規則複数」 ([2011-03-22-1]) を参照.もちろん保存効果は形態のみならず語順などの統語現象にも見られるので,言語について一般にいえることだろう.

 ・ Hopper, Paul J. and Elizabeth Closs Traugott. Grammaticalization. 2nd ed. Cambridge: CUP, 2003.

[ | 固定リンク | 印刷用ページ ]

2018-01-10 Wed

#3180. 徐々に高頻度語の仲間入りを果たしてきたフランス・ラテン借用語 [french][latin][loan_word][borrowing][frequency][statistics][lexicology][hc][bnc]

 英語史では,中英語から初期近代英語にかけて,フランス語とラテン語から大量の語彙借用がなされた.それらのうち現在常用されるものについては,おそらく借用時点からスタートして時間とともに使用頻度が増してきたものと想像される.というのは,借用された当初から高頻度で用いられたとは考えにくく,徐々に英語に同化し,日常化してきたととらえるのが自然だからだ.
 この仮説を実証するのにいくつかの方法がありそうだが,Durkin があるやり方で調査を行なっている.中英語,初期近代英語,現代英語のそれぞれにおいてコーパスに基づく最高頻度語リストを作り,そのなかにフランス・ラテン借用語がどのくらいの割合で含まれているかを調べ,その割合の通時的推移を比較するという手法だ.古い時代のコーパスでは綴字の変異という問題が関わるため,厳密に調査しようとすれば単純にはいかないが,Durkin はとりあえずの便法として,中英語と初期近代英語については Helsinki Corpus の 1150--1500年と1500--1710年のセクションを用いて,現代英語については BNC を用いて異綴字ベースで調査した.それぞれ頻度ランキングにして900--1000位ほどまでの単語(綴字)リストを作り,そのなかでフランス・ラテン語借用語が占める割合をはじき出した.
 結果は,中英語セクションでは7%ほどだったものが,初期近代英語セクションでは19%まで上昇し,さらに現代英語セクションでは38%までに至っている.粗い調査であることは認めつつも,フランス・ラテン借用語で現在頻用されているものの多くについては,歴史のなかで徐々に頻度を上げてきた結果として,現在の日常的な性格を示すことがよくわかった.
 さらにおもしろいことに,初期近代英語のセクション(1500--1710年)に関する数値について,高頻度語リストに含まれるフランス・ラテン借用語のすべてが1500年より前に借用されたものであり,しかもその2/3ほどは確実にフランス借用語であるという事実が確認される (Durkin 338--39) .
 また,中英語と初期近代英語の高頻度語リストに含まれるフランス・ラテン借用語の多くが,現代英語の高頻度語リストにも再現されている事実にも触れておこう.古い2期には現われるが現代期からは漏れている語群を眺めると,なんとも時代の変化を感じさせてくれる.例えば,honour, justice, manner, noble, parliament, pray, prince, realm, religion, supper, treason, usury, virtue である (Durkin 340) .
 時代によって最頻語リストやキーワードが異なることは当然といえば当然だが,歴史英語コーパスを用いて様々な時代を比較してみるとおもしろそうだ.例えば,初期近代英語コーパスに基づくキーワード・リストについて「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.また,頻度と歴史の問題については「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) も参照されたい.

 ・ Durkin, Philip. Borrowed Words: A History of Loanwords in English. Oxford: OUP, 2014.

[ | 固定リンク | 印刷用ページ ]

2018-01-04 Thu

#3174. 高頻度語はスペリングが短い (2) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

 昨日の記事 ([2018-01-03-1]) と同じ頻度とスペリングの長さに関するデータを,もう少し分析してみた.以下は,頻度ランキングのトップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について,それぞれ最低値,第1四分位数,中央値,平均値,第3四分位数,最大値を示した表である.英語の正書法を論じる上での基礎データとしてどうぞ.

 Min.1st Qu.MedianMean3rd Qu.Max.
Top_1001.02.03.03.14.05.0
Top_2001.003.004.003.774.0010.00
Top_5001.0004.0004.0004.4985.00010.000
Top_1K 1.0004.0005.0004.9686.00015.000
Top_2K 1.0004.0005.0005.4067.00015.000
Top_5K 1.0005.0006.0006.0147.00016.000
Top_10K1.0005.0006.0006.4888.00016.000
Top_20K1.0005.0007.0006.9548.00017.000
Top_50K1.0006.0007.0007.6229.00020.000


 これをもとに視覚化したのが,以下の箱ひげ図.

Boxplot for Length of Spelling of High-Frequency Words by SUBTLEXus


 当然予想されたことだが,語数が増えるにしたがってスペリングの平均の長さは徐々に大きくなっていき,バラツキも広がっていく.しかし,トップ数万語でみても平均して7文字程度となっており,さほど長くないのだなという印象を受けた.

[ | 固定リンク | 印刷用ページ ]

2018-01-03 Wed

#3173. 高頻度語はスペリングが短い (1) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

 標題は特に目新しい指摘ではなく,英語を読み書きする者には直感されていることだと思われる.「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]) や「#1102. Zipf's law と語の新陳代謝」 ([2012-05-03-1]) でも指摘したように,よく読み書きする単語のスペリングは短いほうが効率がよいと考えられるからだ.逆に,滅多に読み書きしない単語であれば少々長くても我慢できる.単語のスペリングに限らず,単語の音形についても同様の原理が作用していると思われる.
 また,英語の正書法には内容語は3文字以上で綴られなければならないという「#2235. 3文字規則」 ([2015-06-10-1]) がある.これは機能語という頻度のきわめて高い語類については適用されない.したがって,この規則は上記の効率の問題とも関わる実用的な側面をもつといえる.
 高頻度語であればあるほど,そのスペリングが平均的に短いことを示す方法の1つに,頻度ランキングのトップ100語,1000語,10000語などのリストに基づき,文字数別に単語を数え上げるというやり方がある.「#2096. SUBTLEX-US Word Frequency List」 ([2015-01-22-1]) から引き出した頻度ランキングを利用して,トップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について調査した.トップ100語のリストについては先の記事でリストを掲載している通りであり,なかには s, ll などコーパスの仕様に由来するとおぼしき怪しい「語」もあるが,結果の大勢には影響を及ぼさないだろう.
 以下にグラフで整理した通り,結果は明白である(数値データはソースHTMLを参照).トップ100語の超高頻度語群では62.00%までが3文字以下のスペリングである.3文字以下の割合(下から3つ分のオレンジの帯まで)ということで比べていくと,トップ200語から50000語の調査結果まで,順に41.50%, 24.60%, 17.00%, 12.65%, 8.06%, 6.01%, 4.55%, 3.20%と目減りしていく.

Length of Spelling of High-Frequency Words by SUBTLEXus

Referrer (Inside): [2018-01-04-1]

[ | 固定リンク | 印刷用ページ ]

2017-03-12 Sun

#2876. 英語語彙の頻度分布に関する格差上位1%のシェア [lexicology][statistics][frequency][corpus]

 昨日の記事「#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる」 ([2017-03-11-1]) に引き続き,英語語彙頻度の格差について考えてみたい.昨日扱ったジニ係数よりも直感的に格差を認識できる指標として,格差上位1%のシェアというものがある.経済学でいえば,トマス・ピケティも愛用している「トップ富裕層の所得シェア」である.大金持ちがどのくらい金持ちか,という指標と理解すればよい.英語語彙について言えば,生起頻度でトップ1%に入るそれほど多くない語によって,全体のどのくらいのシェアが占められているかを示す指標となる.
 昨日と同じように,総頻度数が81.5万ほどの比較的小規模な GSL の語彙頻度表と,1850万ほどの巨大コーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づく語彙頻度表で計算してみた.トップ1%とトップ0.1%での値は,以下の通り.

 GSLCELEX2
1%47.05%69.36%
0.1%14.60%43.57%


 実際,ここまで高い値になるとは予想していなかった.英語学習という観点からみると,極端な話し,高頻度語のトップ1%を暗記すれば,5〜7割ほどの語が認識できることになる.それでテキストを理解できるかというと,それはまったく別問題ではあるが,語彙学習の効率について再考させられる.
 参考までに,2000年の時点での日米の所得シェアを見てみると,アメリカではトップ0.1%の富裕層が所得全体の7%ほど,日本では2%ほどである(吉川,p. 226).近年,両国ともに格差は開いてきているようだが,さすがに語彙の世界ほどの格差に至ることはないだろう.語彙の社会は,あらためて不平等な社会である.

 ・ 吉川 洋 『人口と日本経済』 中央公論新社〈中公新書〉,2016年.

[ | 固定リンク | 印刷用ページ ]

2017-03-11 Sat

#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる [lexicology][statistics][frequency][zipfs_law][corpus]

 「#1103. GSL による Zipf's law の検証」 ([2012-05-04-1]) で,General Service List (GSL) の最頻2000語余りの語彙頻度表を用いて,zipfs_law が成立する様子を実演した.頻度順位の高い少数の語がただの高頻度語ではなく超高頻度語であること,一方でそれ以外の大多数の語がおしなべて低頻度語であるということが確認された.このことは,英語(そして,おそらくあらゆる言語)の語彙の頻度分布がきわめて不平等・不均衡であり,大きなばらつきと格差に特徴づけられていることを示すものである.
 このような分布の格差を示す代表的な指標に,イタリアの経済学者ジニが所得や資産の分布の不平等を計測する指標として1936年に考案したジニ係数 (Gini's coefficient) がある.考え方は次の通りだ.X軸に沿って左から右へ最も頻度の低い語から高い語へと順に並べ,その累積頻度のシェアをY軸方向に取っていく.この点をつなげると,何らかの形の右肩上がりの曲線となる.これをローレンツ曲線 (Lorenz curve) という.すべての語が同頻度で現われるときにはローレンツ曲線は45度の右肩上がりの直線となり「完全平等」を示す.逆に,極端な例として,1つの語のみが生起頻度のすべてを占有し,他のすべての語が頻度ゼロの場合に「完全不平等」となり,ローレンツ曲線は左右逆L字型となる.普通は,ローレンツ曲線は,45度の右肩上がりの線の下部に,三日月形の弧として描かれる.ジニ係数は,三日月の面積と,45度の右肩上がりの線を直角の対辺とする直角二等辺三角形の比率として表現される.したがって,値0が完全平等,値1が完全不平等ということになる.
 さて,GSL のデータファイルで計算した結果,ジニ係数は0.812と出た.ローレンツ曲線を描くと,以下のようになる.

Lorenz Curve of Word Frequency from GSL


 明らかに不平等な分布といえる.ちなみに,GSL よりも巨大なコーパスの語彙頻度表を使うと,さらにジニ係数は上がる(例えば,1790万語からなるコーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づいた計算では,0.950 というすさまじい値が出た!).
 参考までに,吉川 (122) に拠って2010年の諸国の所得格差を示すジニ係数をいくつか挙げると,日本が 0.336,アメリカが 0.380,チリが 0.510,アイスランドが 0.246 である.語彙の社会が極めて不平等な社会であることが分かるだろう.

 ・ 吉川 洋 『人口と日本経済』 中央公論新社〈中公新書〉,2016年.

Referrer (Inside): [2017-03-12-1]

[ | 固定リンク | 印刷用ページ ]

2016-09-07 Wed

#2690. N-gram Tool [cgi][n-gram][statistics][corpus][web_service][frequency][cgi]

 n-gram は,言語統計やコーパス言語学の世界における基本的な概念・手段である(「#2324. n-gram」 ([2015-09-07-1]), 「#956. COCA N-Gram Search」 ([2011-12-09-1]) を参照).テキストを指定してその n-gram を得るツールはネットその他にも遍在しているが,あえて簡易ツールをCGIで実装してみた.バックエンドに Perl モジュールの Text::Ngrams を用いている.

・ Type for analysis: word character
・ Size of n:
・ Order by: frequency alphabet
・ Display the first n-lines (Note: 0 means unlimited):
・ Normalization in statistics: unnormalized normalized

 使い方はおよそ自明だろう.適当な長さの英文テキストを投げ込めば,デフォルトでは単語ベースの 3-gram (およびそれ以下の 2-gram と 1-gram も含む)の一覧が絶対頻度の高い順に返される(出力行の制限はなし).オプションにより単語ベースではなく文字ベースにも変更でき,n-gram のサイズも変えられる.出力については,頻度順ではなくアルファベット順にすること,出力行に制限を設けること,絶対頻度ではなく相対頻度(各 n-gram 内で合計すると1.0となる)で返すことも可能.
 なお,1-gram は入力テキストを構成する単語の頻度表となるので,その用途にも利用できる.簡易的な n-gram ツールとしてどうぞ.

[ | 固定リンク | 印刷用ページ ]

2016-08-09 Tue

#2661. Swadesh (1952) の選んだ言語年代学用の200語 [glottochronology][lexicology][frequency][statistics]

 「基本語彙」 (basic vocabulary) という用語は,言語の調査や議論において様々な機会に出くわす.しかし,昨日の記事「#2660. glottochronology と基本語彙」 ([2016-08-08-1]) でも触れたように,個別言語においても,言語一般においても,基本語彙とは何なのか,どこまでの範囲を含むのかを客観的に定めることは難しい.
 glottochronology に携わる人類言語学者は,独自の通言語的,通時的な観点から,基本語彙リストに相当するものを編集し,改訂してきた.例えば,この分野の草分けである Swadesh (456--57) は,完璧なリストは作り得ないということを認めつつ,次の200語からなる一覧を挙げている.その一覧を,Hymes ("Lexicostatistics" 6) 経由で掲げよう.

all, and, animal, ashes, at, back, bad, bark, because, belly, big, bird, bite, black, blood, blow, bone, breathe, burn, child, cloud, cold, come take, count, cut, day, die, dig, dirty, dog, drink, dry, dull, dust, ear, earth, eat, egg, eye, fall, far, fat-grease, father, fear, feather, few, fight, fire, fish, five, float, flow, flower, fly, fog, foot, four, freeze, fruit, give, good, grass, green, guts, hair, hand, he, head, hear, heart, heavy, here, hit, hold-take, how, hunt, husband, I, ice, if, in, kill, know, lake, laugh, leaf, leftside, leg, lie, live, liver, long, louse, man-male, many, meat-flesh, mother, mountain, mouth, name, narrow, near, neck, new, night, nose, not, old, one, other, person, play, pull, push, rain, red, right-correct, rightside, river, road, root, rope, rotten, rub, salt, sand, say, scratch, sea, see, seed, sew, sharp, short, sing, sit, skin, sky, sleep, small, smell, smoke, smooth, snake, snow, some, spit, split, squeeze, stab-pierce, stand, star, stick, stone, straight, suck, sun, swell, swim, tail, that, there, they, thick, thin, think, this, thou, three, throw, tie, tongue, tooth, tree, turn, two, vomit, walk, warm, wash, water, we, wet, what, when, where, white, who, wide, wife, wind, wing, wipe, with, woman, woods, worm, ye, year, yellow


 この一覧は理論と実践を組み合わせたものであり,その後も数々の改訂を経ることになった.だが,もとより完璧な基本語彙リストは作り得ないのだから,何らかの言語調査を行なう場合に,この一覧を拠り所にするというのは,1つの便法ではある.なお,Swadesh が言語年代測定の診断のために用いたのは,別途厳選された100語のリストであり,それは「#1128. glottochronology」 ([2012-05-29-1]) で掲載した通りである(100語リストのほうが言語年代学的に有用性が高いという意見もある (Hymes, "More" 341)).
 基本語彙の問題については,「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1]),「#1101. Zipf's law」 ([2012-05-02-1]),「#1961. 基本レベル範疇」 ([2014-09-09-1]),「#1965. 普遍的な語彙素」 ([2014-09-13-1]),「#2625. 古ノルド語からの借用語の日常性」 ([2016-07-04-1]) などの記事も要参照.

 ・ Swadesh, Morris. "Lexico-Statistic Dating of Prehistoric Ethnic Contacts: With Special Reference to North American Indians and Eskimos." Proceedings of the American Philosophical Society 96 (1952): 452--63.
 ・ Hymes, D. H. "Lexicostatistics So Far." Current Anthropology 1 (1960): 3--44.
 ・ Hymes, D. H. "More on Lexicostatistics." Current Anthropology 1 (1960): 338--45.

Referrer (Inside): [2018-08-18-1]

[ | 固定リンク | 印刷用ページ ]

2016-08-08 Mon

#2660. glottochronology と基本語彙 [glottochronology][lexicology][statistics][history_of_linguistics][frequency][anthropology]

 glottochronology の方法論を批評した Hymes (11) は,もう1人の人類言語学者 Gleason による1950年代の論著を参照しながら,語彙変化確率に関する3つの前提について解説している.

(1) Every lexical item at every given time has a certain probability of change.
(2) This probability of change is variable, and is influenced by both linguistic and non-linguistic factors.
(3) There exist certain sets of largely independent vocabulary items in which the probability of change within the group is large relative to the variability of that probability of change.


 glottochronology では,(1) と (2) は当初から前提とされてきた.Hymes が特に重要だと指摘するのは (3) の仮定である.これによれば,語彙にはある種の閉じた語群がいくつかあり,ある語群は比較的安定し,その安定の度合いの揺れも比較的小さいが,別の語群は比較的不安定であり,その不安定の度合いの揺れも比較的大きいという.具体的にはいわゆる "basic vocabulary" と "non-basic vocabulary" などの区別を念頭においていることは間違いないが,必ずしも定義の明らかでない "(non-)basic" という用語を使わずに,集合論的,統計学的な手法で,それらに相当する語彙の部分集合を取り出せる可能性を示している.実際の検証には,多くの言語の語彙について調査し,それぞれについて長期間にわたる通時的な語彙変化確率を求め,それらを比較するという地道な作業が必要であり,すぐに結論が出るというものではないだろう.しかし,検証可能性は確保されているという点が重要である.
 言語一般,あるいは個別言語において,基本語彙 (basic vocabulary) とは何かという問題は,客観的に答えるのが案外難しい.母語話者にとっては直感的に分かるものではあるが,その範囲を客観的に定めるのは難しい.昨日の記事「#2659. glottochronology と lexicostatistics」 ([2016-08-07-1]) でも触れたように,基本語彙の同定に関与する属性として (1) 共時的な commonness (or frequency), (2) 通言語的な universality (of semantic reference), (3) 通時的な (historical) persistence の3種が提案されており,これらが互いにおよその相関関係にあることも知られている.しかし,この3つの属性の各々にどの程度の重みをつけ最終的に基本語彙を決定すべきかについて,特に合意はない.
 glottochronology にとっては,基本語彙とはあくまで言語の年代を測定するための材料ではあるが,むしろその材料探しの過程で,基本語彙とは何かという肝心な問題に,実践と理論の両側面から迫ることになったのではないかとも思われる.glottochronology という分野の前提と成果については多くの批判がなされてきたが,その過程で繰り広げられてきた議論はしばしば本質的であり,(人類)言語学史的な貢献は大きいといえるだろう.
 glottochronology と基本語彙を巡る問題については,Hymes (32--33) が詳しく議論しているので,そちらを参照.

 ・ Hymes, D. H. "Lexicostatistics So Far." Current Anthropology 1 (1960): 3--44.

Referrer (Inside): [2018-08-18-1] [2016-08-09-1]

[ | 固定リンク | 印刷用ページ ]

2016-08-07 Sun

#2659. glottochronology と lexicostatistics [glottochronology][lexicology][statistics][terminology][speed_of_change][frequency]

 言語学の分野としての言語年代学 (glottochronology) と語彙統計学 (lexicostatistics) は,しばしば同義に用いられてきた.だが,glottochronology の創始者である Swadesh は,両用語を使い分けている.私自身も「#1128. glottochronology」 ([2012-05-29-1]) の記事で,両者は異なるとの前提に立ち,「glottochronology (言語年代学)は,アメリカの言語学者 Morris Swadesh (1909--67) および Robert Lees (1922--65) によって1940年代に開かれた通時言語学の1分野である.その手法は lexicostatistics (語彙統計学)と呼ばれる.」と述べた.今回は,この用語の問題について考えてみたい.
 人類言語学者・社会言語学者の Hymes (4) は Swadesh に依拠しながら,両用語の区別を次のように理解している.

   The terms "glottochronology" and "lexicostatistics" have often been used interchangeably. Recently several writers have proposed some sort of distinction between them . . . . I shall now distinguish them according to a suggestion by Swadesh.
   Glottochronology is the study of rate of change in language, and the use of the rate for historical inference, especially for the estimation of time depths and the use of such time depths to provide a pattern of internal relationships within a language family. Lexicostatistics is the study of vocabulary statistically for historical inference. The contribution that has given rise to both terms is a glottochronologic method which is also lexicostatistic. Glottochronology based on rate of change in sectors of language other than vocabulary is conceivable, and lexicostatistic methods that do not involve rates of change or time exist . . . .
   Lexicostatistics and glottochronology are thus best conceived as intersecting fields.


 つまり,glottochronology と lexicostatistics は本来別物だが,両者の重なる部分,すなわち語彙統計により言語の年代を測定する部門が,いずれの分野にとっても最もよく知られた部分であるから,両者が事実上同義となっているということだ.ただし,Swadesh から80年近く経った現在では,lexicostatistics は,電子コーパスの発展により言語の年代測定とは無関係の諸問題をも扱う分野となっており,その守備範囲は広がっているといえるだろう.
 上で引用した Hymes の論文は,言語における "basic vocabulary" とは何か,という根源的かつ物議を醸す問題について深く検討を加えており,一読の価値がある."basic vocabulary" は,commonness (or frequency), universality (of semantic reference), (historical) persistence のいずれかの属性,あるいはその組み合わせに基づくものと概ね受け取られているが,同論文はこの辺りの議論についても詳しい.基本語彙の問題については,「#1128. glottochronology」 ([2012-05-29-1]) や「#1965. 普遍的な語彙素」 ([2014-09-13-1]) の記事で直接に扱ったほか,「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1]),「#1089. 情報理論と言語の余剰性」 ([2012-04-20-1]),「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]),「#1101. Zipf's law」 ([2012-05-02-1]),「#1497. taboo が言語学的な話題となる理由 (2)」 ([2013-06-02-1]),「#1874. 高頻度語の語義の保守性」 ([2014-06-14-1]),「#1961. 基本レベル範疇」 ([2014-09-09-1]),「#1970. 多義性と頻度の相関関係」 ([2014-09-18-1]) なの記事で関与する問題に触れてきたので,そちらも参照されたい.

 ・ Hymes, D. H. "Lexicostatistics So Far." Current Anthropology 1 (1960): 3--44.

Referrer (Inside): [2018-08-18-1] [2016-08-08-1]

[ | 固定リンク | 印刷用ページ ]

2016-03-21 Mon

#2520. 後期中英語の134種類の "such" の異綴字 [spelling][lme][lalme][corpus][scribe][me_dialect][frequency]

 「#53. 後期中英語期の through の綴りは515通り」 ([2009-06-20-1]),「#219. eyes を表す172通りの綴字」 ([2009-12-02-1]) に引き続き,英語史における著しい綴字の変異について.今回は,異綴字の種類の多さに定評のある(?) "such" を取り上げる.
 「#1622. eLALME」 ([2013-10-05-1]) で紹介した,後期中英語の方言地図 LALME の改訂・電子版 eLALME において,Item List 10 が "such" を扱っている.この一覧から異綴字を抜き出すと,不確かな例を除いて少な目に数えても,以下の134種類が挙がる(かっこ内の数値は文証される頻度).

asoche (1), aswyche (1), schch (1), schech (1), scheche (3), schiche (1), schoche (1), scht (1), schuc (1), schuch (3), schuche (4), schut (1), schute (1), sclik (2), sclike (1), sclyk (2), sclyke (2), scoche (1), scwche (1), sech (8), seche (39), sewyche (2), shich (1), shiche (1), shoch (1), shoche (1), shuch (5), shuche (3), shych (1), sic (6), sic- (1), sich (53), siche (101), sick (1), sɩͨh (1), sik (1), sik- (1), sike (2), silk (3), sli (1), slieke (1), slik (10), slike (26), slilk (2), slkyke (1), slyk (13), slyke (26), soch (12), soche (60), souche (3), sowche (2), soyche (1), squike (1), squilk (2), squylk (1), sqwych (1), sqwyche (1), sswiche (1), suc (1), succh (1), sucche (5), such (242), suche (375), suchee (1), sucheȝ (1), suchet (1), sucht (1), suchte (1), suech (4), sueche (6), suhc (1), suhe (1), suich (9), suiche (7), suilk (6), suilk- (1), suilke (3), suilkin (1), sulc (1), sulk (4), sulke (2), sutche (1), suth (1), suuch (1), suuche (1), suuech (1), suueche (1), suych (13), suyche (15), suylk (7), suylke (6), svche (1), sviche (1), swc (1), swch (7), swche (4), swech (19), sweche (48), swelk (4), swhiche (2), swhilke (2), swhych (2), swhyche (1), swic (2), swich (77), swiche (84), swichee (1), swilc (3), swilk (76), swilke (45), swilkes (1), swisɩͨhe (1), swlk (1), swlke (1), swuch (3), swuche (2), swych (56), swyche (65), swyeche (1), swyk (1), swyke (1), swyl (1), swylk (62), swylke (35), swylle (1), syc- (1), sych (23), syche (67), syge (1), syk (4), syk- (1), syke (5), sylk (3), sylke (2)


 方言の別を度外視して頻度の統計を取ると,トップ10が suche, such, siche, swiche, swich, swilk, syche, swyche, swylk, soche である.トップの2種類 suchesuch は現代英語を見慣れている者にとって,十分常識的にみえるだろう.実際,この2種類だけで617例が文証され,総1867例のほぼ3分の1を占める.また,トップの10種類だけで,ほぼ3分の2を占める.したがって,異綴字がこれだけ多くあるからといって,そのまま完全なる混沌に等しい,ということにはならない.このような事情は,中英語期に多種類の綴字が認められる多くの語について認められ,混沌のなかにもある程度の秩序らしきものがが宿っているといえる.そうだとしても,当時の書き手と読み手にとってはやはり不便な状況だったに違いない.この点については,「#1311. 綴字の標準化はなぜ必要か」 ([2012-11-28-1]),「#1450. 中英語の綴字の多様性はやはり不便である」 ([2013-04-16-1]) で論じた通りである.
 初期中英語や近現代の諸方言形を調べれば,もっと異綴字の種類は増すだろう.出典は失念したが,数え方にもよるものの,500種類ほどという数字を見かけたことがある・・・.

Referrer (Inside): [2018-08-16-1] [2016-03-22-1]

[ | 固定リンク | 印刷用ページ ]

2015-10-16 Fri

#2363. hapax legomenon [hapax_legomenon][terminology][lexicology][lexicography][word_formation][productivity][bible][zipfs_law][frequency][corpus][shakespeare][chaucer]

 昨日の記事「#2362. haplology」 ([2015-10-15-1]) でギリシア語の haplo- (one, single) に触れたが,この語根に関連してもう1つ文献学や辞書学の用語としてしばしば出会う hapax (legomenon) を取り上げよう.ある資料のなかで(タイプ数えではなくトークン数えで)1度しか用いられていない語(句)を指す.ギリシア語の hapax (once) + legomenon (something said) からなる複合語だ.複数形は hapax legomena という.
 "nonce word" を hapax legomenon と同義としている辞書もあるが,前者は「臨時語」と訳され「その時限りに用いる語」を指す.nonce-word は新語の臨時的な生産性を念頭に用いられることが多いのに対し,hapax legomenon は文献に現われる回数が1度であることに焦点が当てられているという違いが感じられる.nonce (その場限りの)という語の語源については,「#1306. for the nonce」 ([2012-11-23-1]) を参照.
 hapax legomenon は,聖書の注釈との関連で,しばしば言及されてきた歴史がある.OED によると英語における初例は1692年のことで,"J. Dunton Young-students-libr. 242/1 There are many words but once used in Scripture, especially in such a sence, and are called the Apax legomena." とある.
 文献学や語源学において,hapax legomenon はしばしば問題となる.その語の語源はおろか,意味すら不明であることが少なくない.語彙論や辞書学では,それを一人前の「語」として認めてよいのか,何かの間違いではないか,辞書に掲載すべきか否か,という頭の痛い問題がある (see 「#912. の定義がなぜ難しいか (3)」 ([2011-10-26-1])) .一方で,語形成やその生産性という観点からは,hapax legomenon は重要な考察対象となる.というのは,1度だけ臨時的に出現するためには,話者の生産的な語形成機構が前提とされなければならないからである (see 「#938. 語形成の生産性 (4)」 ([2011-11-21-1])) .
 だが,実際のところ halax legomenon は決して少なくない.このことは,ジップの法則に照らせば驚くべきことではないだろう (see 「#1101. Zipf's law」 ([2012-05-02-1]), 「#1103. GSL による Zipf's law の検証」 ([2012-05-04-1])) .英語の例としては,Chaucer の用いたnortelrye (education) や Shakespeare の honorificabilitudinitatibus, また Dickens の sassigassity (audacity?) などが挙げられる.

Referrer (Inside): [2016-09-23-1]

[ | 固定リンク | 印刷用ページ ]

2015-09-07 Mon

#2324. n-gram [corpus][information_theory][coca][bnc][google_books][statistics][n-gram][collocation][frequency][link]

 情報理論や自然言語処理の分野で用いられる n-gram という分析手法がある.コーパス言語学でもすでにお馴染みの概念であり,共起表現 (collocation) の研究などでは当たり前のように用いられるようになった.種々のコーパスのインターフェースにおいても採用されており,「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) では名前に含まれているほどだし,本ブログでも COCA (Corpus of Contemporary American English) の N-gram データベースを用いて「#956. COCA N-Gram Search」 ([2011-12-09-1]) を実装してきた(その応用は,「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1]),「#954. 脚韻を踏む2項イディオム」 ([2011-12-07-1]),「#955. 完璧な語呂合わせの2項イディオム」 ([2011-12-08-1]) を参照).BNC では,Explore Words and Phrases from the BNC が利用できる.
 コンピュータを用いた分析手法というと難しそうに聞こえるが,n-gram の考え方は至って単純である.文字レベルの 2-gram (bigram) を考えてみよう.最長の英単語といわれる pneumonoultramicroscopicsilicovolcanoconiosis (「#63. 塵肺症は英語で最も重い病気?」 ([2009-06-30-1])) を例にとる.まず,先頭の2文字1組の pn を取り出す.次に,2文字目に進んで同じように ne を取り出す.3文字目に進んで eu を,4文字目に進んで um を得る.同じように,1文字ずつ右にずらしながら,最後の is まで2文字1組を次々と拾っていく.これで44組の2文字を得たことになる.この組のなかで,ic と co という組み合わせは各々3回起こり,os, si, no, on の組み合わせは各々2回現われ,それ以外の組み合わせはいずれも1度きりである.したがって,この単語において最高頻度の2文字1組は ic と co となる.
 n-gram の単位は,このように文字である必要はなく,音素でもよいし,より大きな単位である形態素や語でもよく,さらに大きな句などのより大きな単位でもよい.英語コーパス言語学では,語という単位で考えるのが普通だろう.Martin Luther King, Jr. の I Have a Dream の演説のテキストで語単位の 4-gram を取ると,最も多い4語の組み合わせは,予想通り "I have a dream" の8回だが,"will be able to" も同じく8回現われる."Let freedom ring from" も7回とよく現われる,等々の分析が可能となる.ここでは4語という「窓」を設定したので 4-gram と呼ばれるが,隣接するいくつの文字を考慮するかにより 1-gram (unigram), 2-gram (bigram), 3-gram (trigram),そして 5-gram 以上ももちろん考えることができる(1-gram の場合,得られるリストは,事実上各語の生起頻度表である).
 巨大コーパスから得られた 2-gram や 3-gram の一覧は,それ自体が共起表現の研究などでは基本データとなるため,ウェブ上でもいろいろと公開されている.日本語では「N-gram コーパス - 日本語ウェブコーパス 2010」があるし,現代英語では COCA の n-gram データベース がある.また,Bigram Plus では,歴史英語コーパスを含めた各種英語コーパスから N-Gram Search を行なえる機能を提供している.ほかにも任意のテキストやコーパスを対象に n-gram を取る各種のツールやソフトも,ウェブ上で入手可能だ.
 n-gram 分析の言語分野への応用範囲は広い.次に来る語(音,文字)は何か,という予測可能性とも関係が深いため,機械による音声認識,統語分析,言語判定,自動翻訳,スペルチェック,剽窃探知,全文検索用インデックスの作成などに活用される.もちろん,共起表現の研究では,基本にして不可欠の手段となっている.一方,n-gram はもっぱら言語として表面化されたテキストを対象とし,深層にある構造にまったく触れることがないため,生成文法のような言語理論の方面からは批判があるようだ.詳しくは,n-gram in Wikipedia を参照.
 n-gram は工夫次第で,まだまだ使い道がありそうだ.歴史英語テキストにも,応用していきたい.

(後記 2015/09/12(Sat): Sketch Engine より N-grams も参照.)

Referrer (Inside): [2016-09-07-1]

[ | 固定リンク | 印刷用ページ ]

2015-04-12 Sun

#2176. 文法化・意味変化と頻度 [frequency][grammaticalisation][semantic_change][schedule_of_language_change][language_change]

 言語変化と頻度の関係については,「#1239. Frequency Actuation Hypothesis」 ([2012-09-17-1]),「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]),「#1265. 語の頻度と音韻変化の順序の関係に気づいていた Schuchardt」 ([2012-10-13-1]),「#1864. ら抜き言葉と頻度効果」 ([2014-06-04-1]) などで議論してきた.これらの記事では,高頻度語と低頻度語ではどちらが先に言語変化に巻き込まれるかなどの順序の問題,あるいはスケジュールの問題 (schedule_of_language_change) に主眼があった.だが,それとは別に,高頻度語あるいは低頻度語にしか生じない変化であるとか,むしろ生じやすい変化であるとか,そのようなことはあるのだろうか.
 昨日引用した Fortson (659) は,文法化 (grammaticalisation) や意味変化 (semantic_change) と頻度の関係について論じているが,結論としては両者の間に相関関係はないと述べている.つまり,文法化や意味変化は高頻度語にも作用するし,低頻度語にも同じように作用する.これらの問題に,頻度という要因を導入する必要はないという.

We have seen, then, that both frequent and infrequent forms can be reanalyzed; both frequent and infrequent forms can be grammaticalized. If all these things happen, then frequency loses much or all of its force as an explanatory tool or condition of semantic change and grammaticalization. The reasons are not surprising, and underscore the sources of semantic change again. Frequent exposure to an irregular morpheme, for example (such as English is, are), can insure the acquisition of that morpheme because it is a discrete physical entity whose form is not in doubt to a child. By contrast, no matter how frequent a word is, its semantic representation always has to be inferred. Classical Chinese shì was a demonstrative pronoun that was subsequently reanalyzed as a copula; exposure to shì must have been very frequent to language learners, but so must have been the chances for reanalysis.


 Fortson がこのように主張するのは,昨日の記事「#2175. 伝統的な意味変化の類型への批判」 ([2015-04-11-1]) でも触れたように,意味変化には,しばしば信じられているように連続性はなく,むしろ非連続的なものであると考えているからだ.その点では,文法化や意味変化も他の言語変化と性質が異なるわけではなく,高頻度語あるいは低頻度語だからどうこうという問題ではないという.頻度が関与しているかのように見えるとすれば,それは diffusion (or transition) の次元においてであって,implementation の次元における頻度の関与はない,と.これは「#1872. Constant Rate Hypothesis」 ([2014-06-12-1]) を想起させる言語変化観である.

 ・ Fortson IV, Benjamin W. "An Approach to Semantic Change." Chapter 21 of The Handbook of Historical Linguistics. Ed. Brian D. Joseph and Richard D. Janda. Blackwell, 2003. 648--66.

Referrer (Inside): [2018-03-25-1]

[ | 固定リンク | 印刷用ページ ]

2015-02-16 Mon

#2121. 英語史における /t/ の挿入と脱落の例 [phonetics][dialect][consonant][frequency]

 標題について「#1620. 英語方言における /t, d/ 語尾音添加」 ([2013-10-03-1]) や「#1575. -st の語尾音添加に関する Dobson の考察」 ([2013-08-19-1]) の記事で取り上げてきた.特に語尾の -st における t の振る舞いについては ##508,509,510,739,1389,1393,1394,1399,1554,1555,1573,1574,1637,1807,2062 の各記事で話題にしてきた.
 英語史からの /t/ の挿入と脱落の例は方言を含めると広範に存在するが,Wełna (329--30) が OEDMED から集めた例の一覧を与えてくれているので,それを掲載したい.Wełna は,/t/ の挿入・脱落が "permanent" なもの(現代英語までその効果が持続しているもの)と "sporadic" なもの(一時期その効果が見られたが後にもとの形態へ回帰したもの)とを区別し,さらに本来語か借用語かで区分している.

(1)
(a) Permanent t-insertion in native words: ME behest (<OE behæs); against, amidst, amongst, betwixt
(b) Permanent t-insertion in foreign words: ME ancient (<ME auncien), ME cormorant (<F cormoran), ME ernest) (<ME ernesse) 'earnest' (=pledge money), ME pagent (<ME pagyn 'pageant', ME perchement (<ME parchemin) 'parchment', ME fesaunt (<F fesan) 'pheasant', ME truant (<F truan), ME tirant '<F tiran) 'tyrant'
(c) Sporadic t-insertion followed by t-loss: ME glisten (<OE glisnian, ME listen (ONhb. lysna); ME vermin (<ME vermint <F vermin
. . . .
(2)
(a) Permanent t-loss in native words: (a) anduel (< onfilt) 'anvil'; ME best(a) (<betsta), ME blesse (<bletsen), OE blosma (<blostma), ME last(e) (<lattste); ENE bussle (<bustle), ENE brisle (<ME bristle), ENE miscelto (<ME mistilto) 'mistletoe', ME nestle, ME ?rustle, LME thrissil (<OE þistil) 'thistle', ENE throssle (<ME þrostle), Sc. quhissle (<OE hwistle) 'whistle', ENE wressel (<ME wrestlen); christen (OE cristnian <Lat.), ME fasten (<OE fæstnian); ME offen (<ME often).
(b) Permanent t-loss in foreign words: (a) ME apostle, castle, epistle, ENE iussell (<LME iustil) 'jostle', LME pestle, ME tresselle (<trestle) 'trestle' (obs.); crysmas (<Cristmasse) 'Christmas'; (b) ME chasten, ENE chestnutte (<chest-nut), ENE hasten; (c) ENE craven (<ME cravant), ME orisoun (<ME orizonte) 'horizon'
(c) Sporadic t-loss: ENE paisan (<OF paysant) 'peasant'.


 Wełna は中英語から初期近代英語の t の振る舞いを調査し,(1) 本来語では高頻度語が,借用語では低頻度語が当該の音変化の影響を受けやすい,(2) 分布に明らかな方言差はみられない,(3) t の挿入は主として中英語期の現象であり t の脱落は主として初期近代英語期の現象であること,の3点を結論として示唆している.しかし,議論は必ずしも明解ではなく,疑問もいくつか生じる.詳細な調査が望まれる.

 ・ Wełna, Jerzy. "Insertion and Loss of the Voiceless Dental Plosive [t] in Middle English." Studies in Middle English: Words, Forms, Senses and Texts. Ed. Michael Bilynsky. Frankfurt am Main: Peter Lang, 2014. 329--42.

Referrer (Inside): [2015-12-14-1]

[ | 固定リンク | 印刷用ページ ]

2015-02-05 Thu

#2110. 言語(変化)の使用基盤モデル [cognitive_linguistics][usage-based_model][language_change][frequency][collocation][speed_of_change]

 認知言語学の言語変化に関するモデルとして,使用基盤モデル (usage-based model) というものが提案されている.谷口による説明と図解 (106, 105) がわかりやすい.

あることばの用法の共通性となるスキーマ [A] から、何らかの点で逸脱し拡がった新しい用法 (B) が生じる。はじめ、(B) はスキーマ [A] に合致しない。しかし、(B) の用法が繰り返され定着するにつれて、(B) は [A] と共にその言語のシステムに取り込まれるようになる。すると、(B) を取り込んだ形であらたなスキーマ [A'] が抽出され、それによって (B) が容認されるようになっていくのである。このような変化のシステムを、「使用基盤モデル」あるいは「用法基盤モデル」 (usage-based model) という (Langacker 2000) 。(谷口,106)


Language Change in Usage-Based Model

 新しいスキーマの創出は,抽象化であるという点で,文法規則の創出とも比較される.しかし,通常文法規則は静的であるのに対して,スキーマは動的であり,柔軟であるという違いがある.スキーマは,逸脱した事例が徐々に定着するにつれて,常に変更されていく.また,変化の過程において,逸脱した事例が定着する度合いには個人差があるため,必然的にスキーマ自体の個人差も生じることになる.言語変化をこのように位置づけてとらえる使用基盤モデルにおいては,言語の体系そのものが流動的なものにみえるだろう.
 新スキーマの定着度に個人差があるということは,言語変化の速度 (speed_of_change) の問題に直結するし,当該の言語項の使用頻度 (frequency) や共起 (collocation) の問題とも関連が深い.使用基盤モデルは,これらの関係する問題にも注目している.言語変化は定義上ダイナミックなものではあるが,言語そのものが常にダイナミックなものであり,そのダイナミズムの源泉は日常の使用のなかにあるということを改めて強調した理論と評価できるだろう.

 ・ 谷口 一美 『学びのエクササイズ 認知言語学』 ひつじ書房,2006年.

[ | 固定リンク | 印刷用ページ ]

2015-01-22 Thu

#2096. SUBTLEX-US Word Frequency List [frequency][statistics][corpus][lexicology][zipfs_law][cgi][web_service]

 従来の英語学研究において,権威ある語彙頻度表といえばアメリカ英語に関する Kucera and Francis (1967) のものや,イギリス英語に比重を置いたより新しいものとして CELEX (1993) やその2版 (cf. 「#1424. CELEX2」 ([2013-03-21-1])) がよく用いられてきた.しかし,最近,これらを批判し,新しい手法に基づいたアメリカ英語の語彙頻度表が現われた.ベルギー,ヘント大学の実験心理学科の提供する SUBTLEXus である.左のHPから,SUBTLEXus の一群の頻度表のファイルや記述がダウンドーロできる.
 SUBTLEXus の基盤にあるコーパスは,8388件の映画の字幕の集成であり,総語数は5100万語に及ぶ.SUBTLEXus の頻度表は,Kucera and Francis や CELEX の頻度表と比べて,いくつかの算出された指標においてすぐれていると主張されている.頻度は,見出し語 (lemma) ごとではなく語形 (word form) ごとに数えられており,例えば名詞であれば単数形と -s 語尾などをもつ複数形は別扱いされる(異なる語形は74,286種類).名詞と動詞など複数の品詞として用いられる語形については,それぞれの品詞ごとの頻度にもアクセスできるし,より優勢な品詞 (Dominant POS) のほうへ合算した頻度へもアクセスできる.データには,ほかに何件の映画に現われているか,小文字として現われているのは何回か,頻度の対数を取った指標,Zipf 指標 (cf. 「#1101. Zipf's law」 ([2012-05-02-1])) なども含まれている.これだけの種類のデータが含まれていると,目的とアイデア次第でおおいに有効に利用できるだろう.話し言葉ベースであることも顕著な特徴だ.
 ダウンロードできるいくつかのデータのなかで "a zipped Excel file of SUBTLEX-US with the Zipf values included" をダウンロードし,少しいじってみた.例えば,(1) 全体的に多く現われ,かつ (2) 多くの映画にも現われる語形は,総合的な意味で頻度が高いと考えられるだろう.そこで (1) と (2) に関する対数の指標を掛け合わせて,それを降順に並べて最初の100語を取ると,正真正銘の最頻単語100語が得られるはずだ.省略形の片割れなども含まれているが,以下がそのリストである.

you, I, the, to, s, a, it, t, that, and, of, what, in, me, is, we, this, he, on, for, my, m, your, don, have, do, re, no, be, know, was, not, can, are, all, with, just, get, here, but, there, ll, so, they, like, right, out, go, up, about, she, if, him, got, at, now, come, oh, one, how, well, want, yeah, her, think, good, see, let, did, why, who, as, going, his, will, from, when, back, time, yes, look, d, take, an, where, man, would, them, been, some, or, tell, us, had, were, say, could, gonna, didn, hey


 ほかには,最頻10語,25語,50語,100語,250語,500語,1,000語,2,500語,5,000語,10,000語,25,000語,50,000語,100,000語について,Dominant POS ごとに数え上げてみることもたやすい.「#666. COCA 最頻5000語で品詞別の割合は?」 ([2011-02-22-1]),「#667. COCA 最頻50万語で品詞別の割合は?」 ([2011-02-23-1]),「#1132. 英単語の品詞別の割合」 ([2012-06-02-1]) の記事でも,別のコーパスにより似たような調査を行ったが,SUBTLEX-US 版の調査結果は次のグラフにまとめられる.

Wordform-Based POS Ratios by SUBTLEXus

 以下はおまけの検索ツール (SUBTLEX-US Word Frequency Extractor) .おまけなので,10例までしか結果が出力されない仕様です.SUBTLEXus の提供する複雑な検索も可能な,SUBTLEXus Online Search もどうぞ.

    

Referrer (Inside): [2018-01-03-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow