hellog〜英語史ブログ

#694. 高頻度語と不規則複数[plural][analogy][kyng_alisaunder][frequency]

2011-03-22

 英語に限らず言語において頻度の高い語は妙な振る舞いをする ([2009-09-20-1]) .現代英語では,動詞の過去・過去分詞,名詞の複数,形容詞・副詞の比較級・最上級で不規則な振る舞いをするものには,高頻度語が確かに多い.名詞の複数形に話を絞ると,借用語は別にして本来語で考えると men, children, feet, teeth などがすぐに思い浮かぶ.しかし,geese, mice, oxen, sheep などははたしてそれほど高頻度語といえるだろうか.[2010-03-01-1]で紹介した高頻度語リストから BNC lemma を眺めた限り,gooseox などは上位6318語に入っていない.( oxen については[2010-08-22-1]を参照.)
 しかし,geeseoxen もかつては現代よりも身近な動物であり,使用頻度も高かったと思われる.それが,身近でなくなってからも一種の惰性により不規則形を保持してきたものと考えられるだろう.もちろん,現代あるいは過去における高頻度だけを根拠に,不規則な現象を体系的に説明することはできない.しかし,頻度と規則性の関係が無視しえないことは確かである.関連する議論を McMahon (73) より引用する.

It has been suggested that residual words are often the most frequently occurring, which will be heard and learned earliest by the child and which are furthermore most susceptible to correction if the child does produce a regularised form like **foots. Some objections can be raised; for instance, ox is not a particularly common noun in modern English - although it probably occurred rather frequently in Middle English. Ox might have been expected to regularise as it became less common, but this decrease in frequency probably overlapped with the rise of literacy, which tends to slow down analogical change. In general, the connection of resistance to analogy with frequency seems to hold.


 名詞複数形の研究をしていると,古い英語(特に中英語)のテキストに現われる動物名詞の羅列に敏感に反応してしまう.先日も Kyng Alisaunder を読んでいて,次のような文章に出くわした.マケドニア王が,Alisaunder と Philippe のうち荒馬 Bulcifal を操れる者を世継ぎとすることを決め,その競技の前に神に捧げ物をするという場面である.昨日の記事[2011-03-21-1]と同様,Smithers 版から B (MS. Laud Misc. 622 of the Bodleian Library, Oxford) と L (MS. 150 of the Library of Lincoln's Inn, London) の2バージョンを比較しながら引用する(動物複数名詞を赤字とした).

Oxen, sheep, and ek ken,
many on he dude slen,
And after he bad his goddes feyre
He most wyte of his eyre,
Of Alisaunder and Philippoun,
Who shulde haue þe regioun. (B 759--64)

Oxen schep and eke kuyn
Monyon he dude slen
And after he bad his godus faire
He moste y witen of his aire
Of Alisaundre or of Philipoun
Whiche schold haue þe regioun (L 756--61)


 もう1つは,Alexander 軍が Darius 軍と戦うために準備をしている場面.

Hij charged many a selcouþe beeste
Of olifauntz, and ek camayles,
Wiþ armure and ek vitayles,
Longe cartes wiþ pauylounes,
Hors and oxen wiþ venisounes,
Assen and mulen wiþ her stouers; (B 1860--65)

Y chargid mony a selcouþ beste
Olifauns and eke camailes
Wiþ armure and eke vitailes
Long cartes wiþ pauelouns
Hors and oxen wiþ vensounes
Assen and muylyn wiþ heore stoueris (L 1854--59)


 さらにもう1つ,Darius 軍の進軍の場面より.

Ycharged olifauntz and camaile,
Dromedarien, and ek oxen,
Mo þan ȝe connen asken. (B 3402--04)

And charged olifans and camailes
Dromedaries assen and oxen
Mo þan ȝe can askyn (L 3385--87)


 このように動物名詞が列挙されると,中英語期にはこうした動物が(少なくとも物語の設定において)いかに身近であったかを確認できるとともに,当時の規則複数化の攻勢と不規則複数保持の守勢を具体的に把握することができる.

 ・ McMahon, April M. S. Understanding Language Change. Cambridge: CUP, 1994.
 ・ Smithers, G. V. ed. Kyng Alisaunder. 2 vols. EETS os 227 and 237. 1952--57.

[ | 固定リンク | 印刷用ページ ]

#708. Frequency Sorter CGI[corpus][bnc][statistics][web_service][cgi][lexicology][plural]

2011-04-05

 何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
 改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.

foot, goose, louse, man, mouse, tooth, woman


     sort by rank?


 まず,BNC lemma-pos list による出力だが,この頻度表は約1億語の BNC 全体から,頻度にして800回以上現われる,上位6318位までの見出し語 ( lemma ) を収録している.したがって,それよりも頻度の下回る goose, louse については空欄となっている.頻度と不規則性の相関関係を考える際に参考になるだろう.
 次に,ANC word-tagset list による出力が続くが,この頻度表は BNC のものよりも規模が大きく,かつきめ細かい.合計22,164,985語を有する ANC (American National Corpus) から,Penn Treebank Tagset によってクラス付与された単位で語形が列挙されたリストである.タグセットが細かいので読みにくいし,自動タグ付与に起因するエラーも少なからず含まれているが,BNC のものよりも低頻度の語(形)を収録しているので,gooselouse の頻度情報も現われる.こちらの頻度表では WORD FORM ごとの頻度も確認できるため,直接 geeselice の頻度も確かめられる.
 当初 Frequency Sorter の用途として想定していたのは,上記の不規則複数形を示す語群などの頻度と順位の一括調査だったが,他にも用途はあるかもしれない.以下に,思いつきをメモ.

 ・ 1単語から使えるので,like のような多品詞語を入力して,品詞(あるいはタグ付与されたクラス)ごとの頻度を取り出せる.
 ・ ヒット数だけを確認したい場合には,いちいちコーパスを立ち上げる必要がない.
 ・ 論文やプレゼンで,ある目的で集めた数百語の単語リストの中から典型的な例,分かりやすい例を10個ほど示したいときなど,頻度の高い10個を選べばよい.例えば,[2011-03-29-1]で列挙した sur- を接頭辞にもつ単語リストのうち,例示に最もふさわしい10個を選ぶなどの目的に.頻度に基づいた順番のほうが,ランダム順やアルファベット順よりも親切なことが多いだろう(今後,本ブログ執筆に活用する予定).
 ・ 英米それぞれの代表的なコーパスに基づく頻度表を利用しているので,綴字や形態などの頻度の英米差を確認するのに使える.
 ・ (実際には lemmatisation が必要だが)適当な英文を放り込んでみて,妙に頻度の低い語が含まれていないかを調べる.頻度のツールなので,その他,教育・学習目的にいろいろと使えるかもしれない.

[ | 固定リンク | 印刷用ページ ]