何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.
foot, goose, louse, man, mouse, tooth, woman
昨日の記事[2011-02-22-1]に引き続き,COCA ( Corpus of Contemporary American English ) に基づく単語の頻度リストを利用したパイロット・スタディ.今回は,こちらで最近になって追加された最頻50万語のリストを用いて,昨日と同様の品詞別割合を調べた.昨日のリストは見出し語 ( lemma ) に基づいた最頻5000語,今日のリストは語形 ( word form ) に基づいた最頻50万語(正確には497187語)で,性格が異なることに注意したい.
昨日とほぼ同じ作業だが,今回は2万語ずつで階級を区切り,L1からL25までの階級のそれぞれにおいて noun, verb, adj., adv., others の5区分で品詞別割合を出した.(数値データはこのページのHTMLソースを参照.)
L6(12万語レベル)辺りから品詞別比率は安定期に入るといってよいだろう.L17(34万語レベル)辺りから変動期が始まるのが気になるが,階級幅を大きくしてみると(ならしてみると)直前のレベルから大きく逸脱していない.
[2011-02-16-1]の記事以来,形容詞の比率が気になっているが,今回のデータ全体から計算すると,0.1738という値がはじきだされた.昨日の lemma 調査では0.1678だったから,値は非常に近似している.ただし,名詞と動詞の lemma 対 word form の比率は,名詞が 0.5086 : 0.6985,動詞が 0.2000 : 0.1065 と大きく異なるので,形容詞の 0.1678 : 0.1738 という近似は偶然かもしれない.lemma 対 word form の品詞別割合には異なる傾向があるのかもしれないが,それでも大規模に調べると安定期と呼びうる区間が出現することは確かなようだ.
[2011-02-16-1]の記事で触れたように,中英語期のフランス借用語における形容詞比率は0.1768だった.今回の値0.1738と酷似しているが,主題の性質がまるで違うので,直接の関係を論じることは無理である.もとより昨日と今日の調査は,[2011-02-16-1]の調査とは無関係に始めたものである.しかし,偶然と思えるこの結果は,示唆的ではある.借用語彙といえば名詞が圧倒的なはずだと予想していたものの,フランス語や古ノルド語からはおよそ一定の割合の形容詞(それぞれ lemma 調査で0.1768と0.1817)が借用されていた.そして,その比率は時代が異なるとはいえ現代英語の比率と近似している.英語語彙全体における比率と借用語彙における比率が近似しているということは,もし偶然でないとしたら,何を意味するのだろうか.フランス借用語彙や古ノルド借用語彙が,英語に適応するような自然な比率で英語語彙へ溶け込んだということだろうか.これは,今回のパイロット・スタディの結果を受けての印象に基づく speculation にすぎない.今後も品詞別割合という観点に注目していきたい.
COCA ( Corpus of Contemporary American English ) に基づいた各種語彙リストが Corpus-based word frequency lists, collocates, and n-grams から入手できる.そのなかで最も基本的なリストが,こちらの最頻5000語リストである.列挙されているのは見出し語 ( lemma ) 単位で,順位はコーパスに現われる頻度と分散の関数で計算されている.UCREL CLAWS7 Tagset の品詞コード表に基づいた粗い品詞情報も付与されており,品詞別の頻度などを手軽に分析することができる.
今回は,500語ごとに区切って頻度の高い順にL1からL10までの階級を設け,それぞれの階級における品詞別割合を出した.品詞は開いた語類 ( open class ) を中心とし,noun, verb, adj., adv., others の5区分とした.(数値データはこのページのHTMLソースを参照.)
第1階級を除き,どの階級でも名詞が過半数を占めているのは予想できたことだが,第2階級以降に名詞の割合が思ったほど伸びていないことが分かった.動詞と形容詞が後半の階級でもおよそ一定の割合を占め続けているのも予想外だった.全体として,最頻5000語リストに限れば,名詞が飛び抜けつつも,開いた語類の内部比率はおよそ一定に保たれているといえよう.階級幅を様々に動かして試してみたが,およそ安定期に入るのは500語以降と見てよさそうだ.
[2011-02-16-1]の記事で中英語期のフランス借用語の品詞別割合をみたが,全体としての形容詞比率は0.1768だった.今回の現代英語の最頻5000語では,全体としての形容詞比率は0.1678.比べて意味のある数値かどうかは分からないが,英語(言語?)における品詞別比率の「安定感」のようなものはあるのだろうか.
COCA に基づくもの以外にオンラインで入手できる最頻英単語リストについては[2010-03-01-1]の記事を参照.頻度表を利用した別のパイロット・スタディとしては,単語の音節数を扱った[2010-04-17-1]の記事を参照.
古英語の語彙が現代までにどれだけ残存しているか,どれだけ消失したかについては[2010-07-21-1]の記事で話題にした.古英語語彙の大規模な消失は,英語が中英語期以降にフランス語を始めとする様々な外国語から語彙的な影響を受け,多くの本来語が借用語で置き換えられるに至ったとして説明されることが多いが,消失傾向を促進するある特徴が古英語語彙体系に内在していたと考えることもできるかもしれない.バケから,古英語語彙の消失について述べている箇所を引用しよう.
もう一つの消失の原因は,疑いもなく,同じ概念系統の語形の中に存在していた封建的関係である.ある語が消失していく度に,語群全体がそれとともに分解してきた.これは情熱を抱くに足る研究であり,ぜひとも奨励しておきたい.古期英語の実詞 þeod 「国民,種族」およびその複合語あるいは派生語は,発生的に þeoden 「首長,王子,王」および( geþeode 「(話し)ことば」と結びついていたが,それらの政治・文化上のすべての親族関係語とともに消えてしまった.Wer 「男,英雄,亭主」および werod 「大勢,軍団」についても同様である.この点について,古期英語辞典を引くこと以上に示唆を得るものはない.ある用語が衰えると語彙面全体が崩れ落ちてしまう.その原因は多様で,しばしば社会学的であったり,政治的であったりする.(22)
þeod は古英語では高頻度語かつ基本語であり,これに基づいた複合語や派生語が数多く存在した.þeod を中心とした関連語彙が,古英語話者の「国」観,「民族」観,ひいては世界観を表現していたといっても過言ではない.しかし,þeod という語自体が何らかの事情で徐々に衰退し,ついには消失してしまうと,独特な世界観を構成していた扇の要が壊れてしまうことになり,関連語彙もその存在基盤を失うことになる.はたして,þeod の世界観全体が忘れられることになるのである.皮肉なことに,古英語の語形成は基底となる語を元にした複合 ( composition ) と派生 ( derivation ) によって特徴づけられるために,基底語が消失してしまうと関連語彙も総崩れとなりがちだということである.
バケが基底語(主)と関連語彙(従)との関係を「封建的関係」と呼んでいるのは興味深い.君主が崩れることによって家臣すべてが総崩れとなり,封建制(=世界観)そのものが機能しなくなるという巧みな比喩が,この表現に隠されている.
基底となる þeod が消失した原因は様々だろうが,1つには次々に現われてきた類義語からの圧力が作用したと思われる.Historical Thesaurus of the Oxford English Dictionary によると,þeod の類義語は "the external world > the living world > people > people > [noun]" の項に見つけることができる.18語の歴史的類義語を初出年とともに提示しよう.
word | first year |
---|---|
thede | 855 |
folk | c888 |
lede | 971 |
mannish | OE |
birth | a1300 |
nation | c1330 |
people | a1375 |
tongue | 1382 |
race | 1572 |
family | 1582 |
the mass | 1621 |
public | 1709 |
nationality | 1832 |
peoplet | 1872 |
peoplehood | 1879 |
La Raza | 1927 |
ethnic minority (group) | 1945 |
ethnogenesis | 1962 |
日本語の「死語」は,英語でいう "dead language" と "obsolete word" の2つの語義を兼ねる.『明鏡国語辞典』によると,
(1) 昔は使われていたが,現在では使用されていない言語.古代ギリシア語・ヒッタイト語など.
(2) 昔は使われていたが,現在,一般には使用されなくなった語.廃語.
以下,この記事では (1) を「死語」,(2) を「廃語」と呼び分けることにする.死語については,このブログでも language_death の各記事で取り上げてきた.ある言語が死滅するという場合には,生物種の絶滅と同様に,センチメンタルな感情が伴うものである(と信じたい).言語にはその話者共同体の思想,文化,歴史が詰まっており,言語が消滅するということは(記録が残されていない限り)その知的遺産が永遠に失われるということである.言語の死は人類にとっての損失である.
一方,廃語についてはブログで明示的に話題にしたことはあまりなかった.言語の死に比べれば,単語レベルの消滅は通常センチメンタルな現象とはとらえられないだろう.言語そのものが消滅するわけではなく,小さな断片が失われるだけなので,至極当然かもしれない.しかし,単語にも言語共同体の思想,文化,歴史が凝縮されているのであり,その消滅は,取り戻すことの難しい知的遺産の消滅であると考えることができる.話題性の大小はあるものの,豊かな言語的感受性をもってすれば,死語も廃語も質的には同等の損失なのかもしれない.
このように思ったのは,豊かな言語的感受性を示すポール・バケの文章に出会ったからである.バケは,語の消失や語義の変化について次のように評している.
しかし消失の過程の期間がどうであれ,語の死滅は決定的と言わぬまでも現実のものであり,その死なるものが人間や文明に訪れるときと同じように,ここでも人の心を打つのである.この死とともに,ある世界全体が,あるいは文化的,感情的,概念的存在の一断片が姿を消していくのである.たとえある別の1語あるいは数語が遺棄された土地を引き受け,失われた語の意味領域を取戻すことがあるにせよ.たとえ意義の上から実際には何も失われていないにせよ,文脈はもはや同一ではなく,意味の移行がなされるのは数年のうちのことでしかない.それ故,すべてが変貌し,そして人々が変わり,世代もまた代わって,語の意味は,このしばしば無意識であるとはいえ,たゆみなき進化の影響を受けるのである.(16--17)
語の消失や語義の変化にいちいち感傷的になっていては言語生活を営むことすらおぼつかないと言ってしまえばそうなのだが,語の研究に関する限りこのような感受性は必要なのだろうなと思う.
さて,「廃」を表わす英語の obsolete は,ラテン語 obsolescere の過去分詞 obsolētus に由来し,16世紀に英語に借用された.ob- 「完全に」+ sol(ere) 「慣れる」 + ēscere 「?し始める」と形態分析され,その過去分詞形は全体として "grown out, worn out, fallen into disuse" ほどの意となる.OED では,廃語の見出しには短剣符 ( dagger or obelisk ) と呼ばれる「†」の標識がつけられる.短剣符は十字架の立った墓の象形に由来すると思われ,慣習的に没年を表わすのに用いられるので,廃語を標示するのにもふさわしいということだろうか.
余談だが,近年の日本語の死語(=廃語)を収集したサイト死語's HomePageを発見した.その「ナウな死語辞典」に収録されている語句の数々に共感を覚えた.あったなあ,あんな言葉,こんな言葉.
・ ポール・バケ 著,森本 英夫・大泉 昭夫 訳 『英語の語彙』 白水社〈文庫クセジュ〉,1976年.
英語の新語ウォッチには Paul McFedries によるサイト Word Spy が注目に値する.1996年以来,新語が日々追加されており,現時点で2750以上の新語が登録されている.最大の特徴は,ほとんどの新語(全体の約85%)について用例と出典が与えられており,多く(全体の約73%)は初出年も記されていることだ.
サイトを走査し,初出年の記載のある2019個について初出年ごとに数え上げてみたのが次の棒グラフである.連続して50例を超えているのは1987--2006年の20年間で,特に1990年代は層が厚い.
1962 ( 1) 1963 ( 1) 1964 ( 1) 1970 ( 1) 1972 ( 2) * 1973 ( 3) * 1975 ( 5) ** 1976 ( 8) **** 1977 ( 11) ****** 1978 ( 14) ******* 1979 ( 16) ******** 1980 ( 24) ************* 1981 ( 33) ****************** 1982 ( 32) ***************** 1983 ( 39) ********************* 1984 ( 38) ********************* 1985 ( 54) ****************************** 1986 ( 47) ************************** 1987 ( 59) ******************************** 1988 ( 66) ************************************ 1989 ( 67) ************************************* 1990 ( 77) ****************************************** 1991 ( 78) ******************************************* 1992 ( 83) ********************************************** 1993 ( 72) **************************************** 1994 (100) ******************************************************* 1995 (101) ******************************************************** 1996 (101) ******************************************************** 1997 ( 87) ************************************************ 1998 ( 78) ******************************************* 1999 (109) ************************************************************ 2000 ( 85) *********************************************** 2001 (111) ************************************************************* 2002 ( 87) ************************************************ 2003 ( 66) ************************************ 2004 ( 57) ******************************* 2005 ( 56) ******************************* 2006 ( 61) ********************************** 2007 ( 32) ***************** 2008 ( 33) ****************** 2009 ( 14) ******* 2010 ( 9) *****
今年もこの時期がやってきた.American Dialect Society による流行語大賞の公表の時期だ.2009年は[2010-01-14-1]の記事で紹介したように tweet が大賞に選ばれたが,2010年は app だった.
詳しくは1月7日付けのADS による公式発表とプレスリリース (PDF)を参照されたいが,問題の語の定義は以下の通りである.
"app" --- noun, an abbreviated form of application, a software program for a computer or phone operating system
app は日本語では「アプリ」としてすでに広く認知されている.この英単語は OED では初出1985年として見出し語に採用されており,決して新しい語ではない.しかし昨年はコンピュータだけでなく iPhone, iPad などの電子端末に対応するアプリケーションの需要が激増し,app store なるオンライン店舗も目立つようになってきた.2年続けてITサービス関連の語が受賞という事実に,時代の波を感じる(「IT」というかつての流行語はすでに古いかも).
他のノミネート語や部門ごとの受賞語を眺めてみると特にアメリカの,しかししばしば世界的な世相が分かる.Wikileaks や vuvuzela の如くである.ネット関連でよく使われる動詞としての trend "to exhibit a burst of online buzz" が MOST LIKELY TO SUCCEED 部門での受賞となったのもなるほどと思わせる.
ADS では Word of the Year for 2010 と合わせて,姉妹大賞である Name of the Year for 2010 の投票も行なわれた.後者を受賞したのは,本ブログの[2010-04-20-1]の記事でも触れた,アイスランドの火山 Eyafjalljökul だった.
ADS の 新語委員会委員長の Ben Zimmer は,[2010-08-11-1]の記事で紹介した Visual Thesaurus の製作責任者でもある.
[2011-01-03-1], [2011-01-04-1]の記事で,OED 検索語彙を初出世紀ごとに分類して数え上げるという作業を行なった.よく考えてみると,このような作業はこれまでにも様々な調査・研究で繰り返し行なってきたことである.通時的語彙研究の基礎作業として今後も繰り返し行なう作業だと思われるので,OED の出力結果をもとに世紀ごとに数え上げるためのツールを作っておくことにした.名付けて "OED Century-by-Century Sorter".
以下は使用方法の説明だが,The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004. での作業を前提としている.ヴァージョンが異なると動かないかもしれないのであしからず.
(1) OED の ADVANCED SEARCH 等により,特定の条件に該当する語彙リストを出力させる.
(2) 下のテキストボックスに,(1) の検索に適当につけた簡便なタイトルを,ピリオド1文字の後に続けて入力する.例えば ".alchemy" .これが見出し行となる.
(3) テキストボックスで改行後に,(1) の出力結果を丸ごとコピーして貼り付ける.OED での出力結果が1画面に収まらない場合には次ページに進んで累積コピーし,テキストボックスに累積して貼り付けてゆく.年代順にソートされていなくても可.
(4) 続けて別の検索を行なう場合には (1), (2), (3) の作業を繰り返す.テキストボックスには,貼り付けたテキストが累積されてゆくことになる.
(5) Go をクリックすると,各検索結果について世紀ごとにカウントされた表が現われる.
説明するよりも実例を見るのが早いので,こちらのテキストファイルを用意した.これは,OED の ADVANCED SEARCH で "language names" にそれぞれ Japanese, Chinese, Malay, Korean, Vietnamese を入れて検索した結果の語彙リストを上記の仕様で納めたもの.これらの言語からの借用語数を世紀ごとに把握するのが狙いである.もっとも,OED の検索機能の限界で,それなりの数の雑音が結果リストに混じっているのでその点には注意.この(ような仕様に則った)テキストをコピーして,以下のテキストボックスに貼り付け,Go をクリックすれば表が出力される.
CGI スクリプトは大雑把な仕様なので,およその傾向を知るためのツールとして参考までに.特に以下の点に注意.
・ 初出年が "a1866", "c1629", "15..", "?c1400" などとなっている語はそれぞれ19, 17, 16, 14世紀へ振り分けられる
・ 初出年の記載のない語は一括して「0世紀」として振り分けられる
(後記 2011/04/24(Sun):OED Online の Timeline 表示では,初出世紀の頻度をグラフ化までしてくれるので,今回の CGI よりも使い勝手がよい.ただし,CD-ROM版の OED で作業するときや,設定に細かいチューニングが必要な場合のために自作した.)
昨日の記事[2011-01-03-1]に引き続き,科学語彙など専門分野の語彙の初出世紀を OED で調べるという話題.近代以前に発展していた学術分野の語彙がどのような通時分布を示していたかについて,昨日は anatomy と math を例に挙げてグラフで示した.同じ手法で,やはり中世によく発達した music, astronomy, astrology, rhetoric, alchemy の各分野について語彙の初出世紀を整理してみた.definitions 欄に入れて検索した各分野の略記は "Mus.", "Astr." / "Astron.", "Astrol.", "Rhet.", "Alch." である.(数値データはこのページのHTMLソースを参照.)
いずれも前近代的な専門分野らしく,近代科学の語彙が爆発する19世紀ではなく,14世紀や16世紀に初出のピークが来ている.それにしても,alchemy を除いた4分野のグラフが驚くほどきれいに平行しているのは示唆的である.15世紀にこぞって落ち込んでいる理由は分析していないが,各分野の発展史を参照して説明されるものなのか,あるいは OED の資料としての何らかの特徴が反映されているがゆえなのか.alchemy に関しては専門用語そのものの数が多くないので断定はできないが,14, 15世紀辺りにピークが来ている.
OED が文化史の研究に利用できるということは耳にしていたが,今回いろいろと具体的に作業してみて実感がわいてきた.語彙体系は文化の索引である.
ルネサンス以降,近代英語期には科学語彙が爆発的に増殖した.特に19世紀は科学の発展がめざましく,おびただしい科学用語が出現することとなった.これには,18世紀後半から博物学でリンネの二名法が用いられるようになったことも影響している ( see [2010-09-21-1] ) .
科学の諸分野の発達とその語彙の増殖は連動していると考えられるので,OED で専門語彙の初出時期を調べてまとめれば,その分野の発展史の概略をつかむことができるのではないかと考えた.18世紀以前にすでに十分に発展していた分野もあるわけで,そのような分野では19世紀中の専門語彙の増殖は相対的に小さいはずである.そこで,18世紀以前に発展していたと分かっている解剖学と数学,19世紀に著しく発展したと分かっている化学と生物学に注目して,OED からそれぞれの分野からの専門用語を拾って整理してみた.
拾い方は,それぞれ ADVANCED SEARCH の definitions 欄に "Anat.", "Math.", "Chem.", "Biol." が含まれる語という粗い条件指定によるものであり,検索結果リストも逐一チェックはしていない.各語は初出年によって世紀ごとに振り分け,"a1866", "c1629", "15.." などはそれぞれ19, 17, 16世紀へ振り分けた.また,初出年の記載のないものは考慮から外している.このように大雑把な調査なので,あくまで参考までに.以下が,結果の表とグラフである.(数値データはこのページのHTMLソースを参照.)
chemistry と biology は19世紀に初出語彙のピークが来ているが,anatomy と math はそれぞれ17, 16世紀にピークがある.後者2分野は確かに19世紀にも山があるので,科学語彙が爆発した世紀という一般論は当てはまるが,個々の分野によって語彙増殖の傾向の異なることがわかる.
今回はすでに発展史の概略がよく知られている4分野を取り上げ,OED によってその語彙増殖を確認したにすぎないが,他の専門分野で同様の調査を施してみるとおもしろい結果が出るかもしれない.関連する話題として,SOED を用いた「1500--1900年における英語語彙の増加」について,[2009-11-16-1]を参照.
・ Crystal, David. The Cambridge Encyclopedia of the English Language. 2nd ed. Cambridge: CUP, 2003. 87.
昨日の記事[2010-12-30-1]で,Academic Word List (AWL) を導入した.この英語史ブログとして関心があるのは,AWL と銘打って収集されたこの語彙集のなかに本来語要素からなる語がどれだけ含まれているかという問題である.570語をざっと走査したら,以下の45語が挙がった.
acknowledge, albeit, aware, behalf, draft, forthcoming, furthermore, goal, hence, highlight, income, input, insight, layer, likewise, network, nevertheless, nonetheless, notwithstanding, offset, ongoing, outcome, output, overall, overlap, overseas, seek, shift, so-called, sole, somewhat, straightforward, tape, target, task, team, thereby, trend, undergo, underlie, undertake, welfare, whereas, whereby, widespread
570語中の45語で7.89%なので,予想通りに本来語の割合は少ない.しかし,数える前にはもっと小さい値が出るのではないかと踏んでいたので,意外に少なくないなと感じたのも事実である.Academic Word List というからには Greco-Latin の語がそれこそ100%に迫り,本来語は10語もあれば多いほうかと思い込んでいたのである.だが,本来語のリストを眺めていてなるほどど思った.out- や over- を接頭辞としてもつ実質的な語のカテゴリーが目立つ一方で,albeit, furthermore, hence, likewise, nevertheless, nonetheless, notwithstanding, thereby, whereas, whereby などの機能的・文法的なカテゴリーも目につく.forthcoming, ongoing, overall, so-called などの複合要素からなる形容詞も1カテゴリーをなしていると考えられるだろう.
ただし,本来語とはいっても古英語起源であるとは限らない.例えば,output などは1839年が初出である.上で最初に「本来語要素からなる語」と表現したのはそのためである.
なお,明確に本来語とはみなせないが Greco-Latin でもない語としては,古ノルド語からの借用語 bond, bulk, link, odd やオランダ語からの借用語 trigger があった.語源不詳のものとしては job もある.
現代英語の語彙数と起源別割合については,以下のリンクも参照.
・ [2010-06-30-1]: 現代英語の最頻語彙10000語の起源と割合
・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
英語教育や辞書学の分野で Academic Word List (AWL) という語彙集が知られている.1998年に Avril Coxhead が The Academic Corpus という350万語からなる独自コーパスをもとに英語教育用に開発した570語とその派生語(合わせて word family と呼ばれる)からなる語彙集で,高等教育で用いられる頻度の高い語からなっている.
もう少し詳しく AWL の語彙選定基準を記せば次のようになる.(1) 各 word family がコーパスの Arts, Commerce, Law, Science 部門のサブセットすべてにおいて生起し,かつ細分化された28分野のサブセットの過半数に生起する.(2) 各 word family の出現頻度がコーパス全体で100回を超える.(3) 各 word family がコーパスの各部門で最低10回は生起する.(4) GSL ( General Service List ) (1953) の最頻2000語は除く ( see [2010-03-02-1] ) . (5) 固有名詞は除く.(6) et al, etc, ibid などの最頻ラテン語表現は除く.
こうして厳選された語彙集が AWL で,AWL Headwords から閲覧およびダウンロードできる.word family の頻度の高い順に1から10の Sublists としてグループ分けされており,すべて合わせるとコーパス全体に生起する語の9.8%を覆うという.
最近の上級者用英英辞書は軒並み AWL の重要性を認識しているようだ.2006年出版の Longman Exams Dictionary を皮切りに,2007年の Longman Advanced American Dictionary, 2nd ed.,2009年 Longman Dictionary of Contemporary English, 5th ed. など売れ筋辞書でも AWL が考慮されている ( Dohi et al., p. 174 ) .Macmillan, Collins COBUILD 系でも同様である.目下の AWL の評価は Dohi et al. によると以下の通りである.
It remains to be seen whether Coxhead's AWL will continue to be used, will be revised or replaced in future advanced learners' dictionaries, because not all scholars concur with her AWL. . . . The AWL could be regarded for the time being as "a quick reference" for academic vocabulary until more research bears fruit . . . . (100)
関連して The AWL Highlighter なるツールがあり,ここに英文テキストを入れると,AWL 語彙をハイライトしてくれる.私が最近書いた英語論文のイントロ部の1235語で試してみたら,Sublist 10 までのレベルで128語がハイライトされた.これは全体の10.36%であり,academic 度は合格か!?
・ Dohi, Kazuo, Tetsuo Osada, Atsuko Shimizu, Yukiyoshi Asada, Rumi Takahashi, and Takashi Kanazashi. "An Analysis of Longman Dictionary of Contemporary English, Fifth Edition." Lexicon 40 (2010): 85--187.
Murray は OED 初版第1巻 (1884) の序文に寄せた "General Explanations" (xvii) で,英語語彙の広がりを次のように表現した.
. . . the English Vocabulary contains a nucleus or central mass of many thousand words whose 'Anglicity' is unquestioned; some of them only literary, some of them only colloquial, the great majority at once literary and colloquial, --- they are the Common Words of the language. But they are linked on every side with other words which are less and less entitled to this appellation, and which pertain ever more and more distinctly to the domain of local dialect, of the slang and cant of 'sets' and classes, of the peculiar technicalities of trades and processes, of the scientific terminology common to all civilised nations, of the actual languages of other lands and peoples. And there is absolutely no defining line in any direction: the circle of English language has a well-defined centre but no discernible circumference.
これを図示すると,以下のようになる(Murray の図をもとに作成).
Murray のこの語彙配置は,中心部には星が集まっているが周辺部に向かうにつれて星がまばらになり闇へと消えてゆく星雲に喩えられる.また,この図は,上から下へ向かって LITERARY, COMMON, COLLOQUIAL, SLANG と語彙の基本的な階層関係を示している点でもすぐれている.
世界一の規模を誇る,茫漠たる英語の語彙を論じるにあたっては何らかの理論的な枠組みが必要だが,Murray のこの "nebulous masses" のイメージはその枠組みとして有用だろう.もちろん様々な微調整は必要かもしれない.例えば LITERARY の上方に ARCHAIC や OBSOLETE という方向の矢印を追加的に想定してもよいかもしれないし,固有名詞はこの図の背後あるいは別次元に存在していると考える必要があるだろう.新語は新たに生まれる星に喩えられるが,星雲のどの辺りに生まれるかは定かではない,等々.
・Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 2--3.
Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burnt と burned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American English と British English のそれぞれのサブコーパスから出力されたグラフは以下の通り.
in と on の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
[2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
他のオンラインコーパスについては[2010-11-16-1]を参照.
英語の語源辞書も多数あるが,主立ったものの書誌をまとめた.語源情報は一般の英語辞書にも埋め込まれることが多く,特に OED や Web3 などの本格派辞書はそのまま語源辞書として使うことができるので,リストに含めた.英語語彙の起源が豊富であることは英語語源辞書が関連諸言語の語源辞書とも連携すべきであることを意味するが,ここでは割愛した.また,印欧祖語に関連する辞書については,Watkins のものを1点挙げるにとどめた.オンラインで利用できる語源辞書やその他の語源情報については[2010-08-25-1]の記事に挙げたリンクを参照.
・ Barnhart, Robert K. and Sol Steimetz, eds. The Barnhart Dictionary of Etymology. Bronxville, NY: The H. W. Wilson, 1988.
・ Brown, Leslie, ed. The New Shorter Oxford English Dictionary on Historical Principles. 2 vols. Oxford: Clarendon, 1993.
・ Burchfield, Robert William, ed. A Supplement to the Oxford English Dictionary. 4 vols. Oxford: Clarendon, 1972--86.
・ Ekwall, Bror Oscar Eilert. The Concise Oxford Dictionary of English Place-Names. 4th ed. Oxford: Clarendon, 1960. 1st ed. 1936.
・ Gove, Philip Babcock (editor-in-chief). Webster's Third New International Dictionary of the English Language. Unabridged. A Merriam-Webster. Springfield, MA: G. & C. Merriam, 1976. 1st ed. 1961.
・ Hoad, Terence Frederick, ed. The Concise Oxford Dictionary of English Etymology. Oxford: Clarendon, 1986.
・ Holthausen, Ferdinand. Etymologisches Wörterbuch der englischen Sprache. 3rd ed. Göttingen: Vanderhoeck & Ruprecht, 1949. 1st ed. Leipzig: Bernhard Tauchnitz, 1917.
・ Klein, Ernest. A Comprehensive Etymological Dictionary of the English Language, Dealing with the Origin of Words and Their Sense Development, Thus Illustrating the History of Civilization and Culture. 2 vols. Amsterdam/London/New York: Elsevier, 1966--67. Unabridged, one-volume ed. 1971.
・ Murray, James Augustus Henry, Henry Bradley, William Alexander Craigie, and Charles Talbut Onions, eds. The Oxford English Dictionary Being A Corrected Re-issue with an Introduction, Supplement, and Bibliography of A New English Dictionary on Historical Principles Founded Mainly on the Materials Collected by the Philological Society. 13 vols. Oxford: Clarendon, 1933.
・ Onions, Charles Talbut, ed. The Shorter Oxford English Dictionary on Historical Principles. Prepared by William Little, Henry Watson Fowler and Jessie Coulson. Rev. ed. C. T. Onions. 3rd ed. Completely reset with Etymologies revised by George Washington, Salisbury Friedrichsen, and with Revised Addenda. 2 vols. Oxford: Clarendon, 1973. 1st ed. 1933.
・ Onions, Charles Talbut, ed. The Oxford Dictionary of English Etymology. With the assistance of G. W. S. Friedrichsen and R. W. Burchfield. Oxford: Clarendon, 1966.
・ Partridge, Eric Honeywood. Origins: A Short Etymological Dictionary of Modern English. 4th ed. London: Routledge and Kegan Paul, 1966. 1st ed. London: Routledge and Kegan Paul; New York: Macmillan, 1958.
・ Simpson, John Andrew and Edmund S. C. Weiner (prepared). The Oxford English Dictionary. 2nd ed. 20 vols. Oxford: Clarendon, 1989.
・ Skeat, Walter William, ed. An Etymological Dictionary of the English Language. 4th ed. Oxford: Clarendon, 1910. 1st ed. 1879--82. 2nd ed. 1883.
・ Skeat, Walter William, ed. A Concise Etymological Dictionary of the English Language. New ed. Oxford: Clarendon, 1910. 1st ed. 1882.
・ 寺澤 芳雄 (編集主幹) 『英語語源辞典』 研究社,1997年.
・ Watkins, Calvert Ward, ed. The American Heritage Dictionary of Indo-European Roots. Rev. ed. Boston, MA: Houghton Mifflin, 1985.
・ Weekly, Ernest. An Etymological Dictionary of Modern English. With a New Biographical Memoir of the Author by Montague Weekley. 2 vols. New York: Dover, 1967. 1st ed. London: John Murray, 1921.
[2010-08-18-1]の記事で「インク壺語」( inkhorn term )について触れた.16世紀,ルネサンスの熱気にたきつけられた学者たちは,ギリシア語やラテン語から大量に語彙を英語へ借用した.衒学的な用語が多く,借用の速度もあまりに急だったため,これらの語は保守的な学者から inkhorn terms と揶揄されるようになった.その代表的な批判家の1人が Thomas Wilson (1528?--81) である.著書 The Arte of Rhetorique (1553) で次のように主張している.
Among all other lessons this should first be learned, that wee never affect any straunge ynkehorne termes, but to speake as is commonly received: neither seeking to be over fine nor yet living over-carelesse, using our speeche as most men doe, and ordering our wittes as the fewest have done. Some seeke so far for outlandish English, that they forget altogether their mothers language.
Wilson が非難した "ynkehorne termes" の例としては次のような語句がある.ex. revolting, ingent affabilitie, ingenious capacity, magnifical dexteritie, dominicall superioritie, splendidious.このラテン語かぶれの華美は,[2010-02-13-1]の記事で触れた15世紀の aureate diction 「華麗語法」の拡大版といえるだろう.
inkhorn controversy は16世紀を通じて続くが,その副産物として英語史上,重要なものが生まれることになった.英語辞書である.inkhorn terms が増えると,必然的に難語辞書が求められるようになった.Robert Cawdrey (1580--1604) は,1604年に約3000語の難語を収録し,平易な定義を旨とした A Table Alphabeticall を出版した(表紙の画像はこちら.そして,これこそが後に続く1言語使用辞書 ( monolingual dictionary ) すなわち英英辞書の先駆けだったのである.現在,EFL 学習者は平易な定義が売りの各種英英辞書にお世話になっているが,その背景には16世紀の inkhorn terms と inkhorn controversy が隠れていたのである.
A Table Alphabeticall については,British Museum の解説が有用である.
・ Crystal, David. The Cambridge Encyclopedia of the English Language. 2nd ed. Cambridge: CUP, 2003.
・ McArthur, Tom, ed. The Oxford Companion to the English Language. Oxford: OUP, 1992.
英語には,名詞に対応する形容詞語彙が難解であるという問題点がある.ここには,形容詞が主にフランス語,ラテン語,ギリシア語からの借用語によってまかなわれているという事情がある.この問題には3つの側面があるように思われる.
(1) 名詞は本来語だが対応する形容詞は借用語である場合に,形態の類似性が認められない.father に対して paternal,king に対して royal, regal など,形態的に予測不可能であり,学習者は一つひとつ暗記するよりほかない.father -- paternal のようなペアは究極的には同語源だが ( see [2009-08-07-1] ) ,それを知るには専門的な知識が必要である.[2010-04-18-1]の記事で列挙したように,動物名に対応する形容詞はこの問題を表わす典型的な例である.
(2) 上の (1) のようなペアには本来語の派生形容詞が並存する場合があり,その場合,複数種類の形容詞の間に意味の分化が生じる.father に対する形容詞としては paternal のほかに fatherly も存在する.同様に,king に対しては royal や regal のほかに kingly も存在する ( see [2010-03-27-1] ) .これらの形容詞の間には意味や使用域 ( register ) の差があり,学習者はやはり一つひとつ違いを学ばなければならない.
(3) 名詞自体が借用語の場合,通常,対応する形容詞も同語源の借用語なので,一見すると予測可能性が高そうだが,付加される形容詞語尾が複数種類あるのでどれが「正しい」形容詞か分からない.例えば,labyrinth 「迷宮」を例に取ろう.この語はギリシア語からラテン語を経て英語に借用され,英語での初例は1387年となっている.そして,16世紀以降,その形容詞形が英語で用いられることになった.ところが,出ること出ること,17世紀を中心にしてなんと7種類の形容詞が記録されている.OED での初出年とともに形態を示そう
Adjective | Year |
---|---|
labyrinthial (obsolete) | a1550 |
labyrinthian | 1588 |
labyrinthical (rare) | 1628 |
labyrinthine | 1632 |
labyrinthic | 1641 |
labyrinthal (rare) | 1669 |
labyrinthiform | 1835 |
[2010-10-03-1], [2010-10-04-1]に引き続き,フランス借用語の使用で注目されがちな Chaucer が,英語本来語をいかに用いていたかを考えてみたい.今回注目したいのは,接頭辞 for- を含む派生語である ( Horobin 75--76 ) .この接頭辞は語根の意味を強めたり,悪い意味を添えたりする機能がある.現代英語の例(古めかしいものもあるが)では forbear 「自粛する」, fordo 「滅ぼす」, forfend 「予防する」, forget 「忘れる」, forbid 「禁じる」, forsake 「見捨てる」, forswear 「誓って否認する」などがある.
以下の3語は,OED でも MED でも Chaucer が初例として挙げられている(以下,引用は The Riverside Chaucer より).
・ forbrused "severely bruised" (MkT: 2613--14)
But in a chayer men aboute hym bar,
Al forbrused, bothe bak and syde.
・ forcracchen "scratched severely" (RRose: 322--23)
Nor she hadde nothyng slowe be
For to forcracchen al hir face,
・ forsongen "exhausted with singing" (RRose: 663--64)
Chalaundres fele sawe I there,
That wery, nygh forsongen were;
・ forwelked "withered, shriveled up" (RRose: 361-62)
A foul, forwelked thyng was she,
That whylom round and softe had be.
・ forwrapped "wrapped up, covered" (PardT: 718; ParsT: 320)
Why artow al forwrapped save thy face?
Al moot be seyd, and no thyng excused ne hyd ne forwrapped,
他に fordronke "completely drunk", forlost "disgraced", forpampred "spoiled by indulgence", forpassing "surpassing", fortroden "trampled upon", forwaked "tired by lack of sleep", forweped "worn out by weeping" なども,Chaucer が(初例ではなくとも)利用した for- 派生語である.
昨日の記事[2010-10-04-1]で触れた drasty の「下品さ」とも関連するかもしれないが,感情のこもりやすい「強調」という機能は本来語要素を用いる方がふさわしいとも考えられる.「感情に訴えかけるための本来語の開拓」という視点でとらえると,Chaucer の語彙の違った側面が見えてくるのではないか.
本来語意の感情に訴えかける性質については,[2010-03-27-1]を参照.
・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.
昨日の記事[2010-10-03-1]に引き続き,Chaucer の英語本来語の話題.今回も Horobin より例を取り上げる.drasty 「くずのような;下手な,へぼい」 (p. 75) という語の使い方をみてみよう.この語は古英語の dræstig に由来し,dærst 「(液体の)おり,かす」の形容詞である.古英語以来しばらく文献からは姿を消していた語だが,Chaucer が中英語期で初めて復活させた語である.Horobin (74) 曰く,
According to the MED, Chaucer is the first ME writer to use a number of words that appeared in Old English but were not used by earlier ME authors.
しかし,Chaucer にせよその後の著者にせよ,この語の使用は中英語では稀である.おもしろいことに,Chaucer での2例は,いずれも宿屋(居酒屋)の主人の口から発せられている.いずれも Chaucer による "The Tale of Sir Thopas" の途中で主人が語りを遮るという場面で,「へぼ話し」「へぼ詩」ほどの意味で使われている(以下,引用は The Riverside Chaucer より).
Myne eres aken of thy drasty speche. (l. 923)
Thy drasty rymyng is nat worth a toord! (l. 930)
酒を造るときに生じる「おり」を表わす一種の専門用語であるから,一般的には頻度の低い語である.だが,宿屋(居酒屋)の主人の口から出たというのは合点がゆく.本来語ならではの「下品さ」のようなものも伝わって来るかのようでもある.「へぼい」の類義語は他にもあったろうが,ここでの drasty の使用は十分に動機づけられているということが分かる.
・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.
[2010-01-09-1], [2010-02-19-1]の記事で,Chaucer の英語史上に果たした役割について触れた.従来,語彙については,Chaucer がフランス借用語の初例を多く提供しているとして,その英語史上の意義が喧伝されたが,最近ではそれは言い過ぎであるとの評が出てきている.Chaucer が文体や韻律のためにフランス借用語を大いに活用したことは事実だが,それは必ずしも Chaucer がもたらした革新ではなく,あくまで既存の言語資源を「最大限に」活用した点に Chaucer の特徴があるということだろう.
フランス借用語を最大限に活用するためには,当然ながらそれと対比される英語本来語や他の言語からの借用語(主として古ノルド語やラテン語)をも最大限に活用していなければならないはずだ.今回は,Chaucer の語彙についてフランス借用語の陰であまり注目されることのない語類の1つ,英語本来語に注目してみたい.具体例として,Horobin に挙げられている stevene 「声」 (pp. 72--73) の例を取り上げる.
Chaucer の時代には「声」を表わす語には英語本来語の stevene ( < OE stefn ) とフランス借用語の voice の2つがあったが,両者の分布は一様ではない.コーパスを The Canterbury Tales に絞ると,前者が6例,後者が28例現われる(この件数調査は A Glossarial DataBase of Middle English: Canterbury Tales の検索に基づく).圧倒的に後者のほうが普通である.しかも,前者の6例のうち5例までが行末に現われ,明らかに脚韻の要請に動機づけられている.特に興味深いのは "The Knight's Tale" ll. 2561--62 の次の例である(以下,引用は The Riverside Chaucer より).
The voys of peple touchede the hevene, (l. 2561)
So loude cride they with murie stevene, (l. 2562)
voys と stevene の両方が用いられており,英仏語彙の variation が文体的に活用されている.一方で,stevene の使用によって hevene 「天国」との脚韻が成立しており,韻律上も見事にまとまっている.しかも,声が天に届く様子が生き生きと伝わって来る.stevene の使われている他の例でも4例までに hevene との脚韻が見られることから,この古英語由来の語はほぼ脚韻専門の語と考えてよさそうだ.stevene は Chaucer の頃にはもはや一般的でなくなっていたのかもしれないが,それでも死語にはなっていないという状況を Chaucer は最大限に利用してこれだけの文体的効果を生み出しているのである.
・Horobin, Simon. Chaucer's Language. Basingstoke: Palgrave Macmillan, 2007.
Powered by WinChalow1.0rc4 based on chalow