hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 / page 6 (6)

oed - hellog〜英語史ブログ

最終更新時間: 2025-04-02 12:09

2011-01-31 Mon

#644. OED とヨーロッパのライバル辞書 [oed][lexicography]

 19世紀半ば,ヨーロッパ各国では,比較言語学発展の波に乗って,歴史的原則に基づく大型辞書の編纂が企画されていた.この時代背景のなかで,イギリスでは A New English Dictionary on a Historical Basis の企画が創案されていた ( see [2010-02-25-1] ) .この辞書は,1933年に Supplement が出版されたときに,正式に Oxford English Dictionary と改称されることになった.同時代のヨーロッパの辞書編纂状況を眺めると,以下のドイツ語,フランス語,オランダ語の辞書が,OED 編纂者にとって追いつけ追い越せのライバルだった.
 
 ・ The Deutsches Wörterbuch of the Grimm brothers ( = DWB )
 ・ Dictionnaire de la langue français of Emile Littré ( = Littré )
 ・ The Woordenboek der Nederlandsche Taal of Matthias de Vries ( = WNT )

 Osselton (60) による上記の各辞書の編纂にまつわる年代を,年表にまとめてみた(下図参照).白抜き棒の始点は編纂プロジェクトの "Initial impulse" の年を,白抜き棒の終点(=黒抜き棒の始点)は第1巻の出版年を,黒抜き棒の終点は最終巻の出版年(=辞書完成年)を表わす.(年代データその他はこのページのHTMLソースを参照.)

OED and Its Continental Equivalents

 4辞書を比べると,OED は編纂の企画自体が他の辞書よりも遅れていたことが分かる.[2011-01-25-1]の記事で見た当時のイギリス文献学界の焦燥感は,この遅れからも裏付けられる.また,企画創案から第1巻出版までの期間が他の辞書に比べて長いことも注目に値する.背景には,編集主幹が Herbert Coleridge, Frederick Furnivall, James Murray と目まぐるしく交代した編纂初期の混乱があった.見込まれる作業のあまりの壮大さに圧倒され仕事に着手できなかった時期と言い換えてもよいだろう.しかし,驚いたのは,OED の企画創案から完成まで要した70年という時間はとてつもなく長いものだと思い込んでいたが,上には上がいるもので DWBWNT については100年では効かない.歴史的原則に基づく大型辞書編纂がいかに手間のかかるものか,改めて思い知った.

 ・ Osselton, Noel. "Murray and his European Counterparts." Lexicography and the OED : Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 59--76.

[ 固定リンク | 印刷用ページ ]

2011-01-29 Sat

#642. OED の引用データをコーパスとして使えるか (4) [oed][corpus][statistics]

 [2010-10-15-1]の記事に関連して,Brewer の論文から補足.その記事で OED の引用数を時代別にグラフ化したものを掲げたが,特に顕著な増加を示している箇所を数字で示した版を以下に示す.

OED Quotations per Decade by Brewer (Marked)

 Brewer (58) によると,(1)--(5) の各増加は OED 編纂上の要因によるところが大きいとされる.それぞれの事情は以下の通りである.

 (1) 1291--1300年の増加.1470年以前についてはしばしばテキストの年代が不明であり,そのような場合には便宜上各世紀の中央や両端に年代を仮設定するという編集上の方針があった.また,特にこの時代については,Robert of Gloucester (1297年,3222用例) や Cursor Mundi (1300年,10771用例で OED における被引用数第2位の作品) から,かなり集中的に引用が取り込まれているという事情もある.
 (2) 1391--1400年の増加.(1) と同様の世紀終わりという理由に加え,Trevisa (1387/98年,6750用例) から大量に取り込まれているという事情がある.
 (3) 1521--1530年の増加.Palsgrave の Lesclarcissement (1530年,5418用例) からの大量の引用により,半ば説明される.
 (4) 1581--1600年の増加.Shakespeare (33304用例) の影響が相当に大きい.
 (5) 1631--1660年の増加.おそらく革命期のパンフレットからの多数の引用が影響している.

 この5点の増加についてだけでも編集上の背景を具体的に知っておくと,OED の引用データの使い方(少なくともその姿勢)は変わってくるだろうと思い,メモした次第.関連する記事としては以下を参照.

 ・ [2010-10-10-1]: #531. OED の引用データをコーパスとして使えるか
 ・ [2010-10-14-1]: #535. OED の引用データをコーパスとして使えるか (2)
 ・ [2010-10-15-1]: #536. OED の引用データをコーパスとして使えるか (3)

 ・ Brewer, Charlotte. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

Referrer (Inside): [2020-09-29-1] [2015-03-29-1]

[ 固定リンク | 印刷用ページ ]

2011-01-25 Tue

#638. 国家的事業としての OED 編纂 [oed][philology]

 [2010-02-25-1]の記事で OED 制作プロジェクトについて触れた.そこでは,1857年の時点で英語世界に存在した英語辞書のもつ数々の問題点が,新しい本格辞書の編纂の動機づけとなったことを述べた.しかし,当時の大陸ヨーロッパ,特にドイツとフランスにおける文献学のめざましい業績を考慮に入れると,イギリスにおける OED 編纂の背景には,イギリス文献学界の焦燥感,もっと言えば文献学の名を借りた愛国主義があったのである.
 19世紀にヨーロッパで隆盛した比較言語学を支えていたのは主にドイツ人だった.その最新の比較言語学の成果を反映して,グリム兄弟 ( Jacob and Wilhelm Grimm ) は1838年,後に高評を得ることになるドイツ語辞典 Deutches Wörterbuch の編纂を開始していた(第1巻は1852年に出版され,全32巻の完成はなんと1961年のこと).フランスでも,Paul-Émile Littré が1844年にフランス語辞典 Dictionnaire de la langue française を開始していた(1863--1873年にかけて4巻が出版された).大陸ヨーロッパにおけるこの2つの偉業を目の当たりにして,イギリス文献学の関係者は完全に焦っていた.例えば,The Philological Society の会長だった Richard Morris は1875年の会長講演で,この60年間イギリスは独立した研究によって比較言語学の進展にほとんど貢献することができなかったと嘆いている.その次期会長を務めた Henry Sweet も1877年に同様の趣旨でイギリス文献学の出遅れを憂慮した.
 OED の編集主幹 James Murray もそのようなイギリス文献学の焦燥感を共有していたが,新しい辞書を作るのに拙速は慎むべきだとの強い意見をもっていた.ドイツとフランスの偉業を見て,イギリスの新辞書はより完璧でなければならないと,野心的なライバル意識を燃やしていた.大陸のライバルに単に追いつこうとするのではなく,追い越そうと遠望していたのである.実際,イギリス内でもそのような期待が抱かれていた.オックスフォード大学の Max Müller (比較言語学をイギリスに根付かせることに貢献したドイツ人学者)は,1878年に OED の編纂に対して熱い期待を寄せた.

In an undertaking of such magnitude, in which one might almost say that the national honour of England is engaged, no effort should be spared to make the work as perfect as possible, and at all events no unworthy rival of the French Dictionary lately published by Littré, or the German Dictionary undertaken by the Brothers Grimm. (qtd in Mugglestone, p. 5)


 OED の編纂に直接イギリスという国が国家的に参与したということはない.しかし,少なくとも文献学者にとっては OED 編纂は国の威信をかけた大事業だったのである.OED のページを繰るたびに,編纂者の勤勉さ,いや狂気ともいうべき凄みを感じる.そこには単なる学問的な関心以上の何かがあると考えざるを得ない.それが愛国心なのだろうと思うと,すえ恐ろしい気もする.

 ・ Mugglestone, Linda. "'Pioneers in the Untrodden Forest': The New English Dictionary." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 1--21.

[ 固定リンク | 印刷用ページ ]

2011-01-23 Sun

#636. 語源学の開拓者としての OED [oed][johnson][etymology][lexicography]

 [2010-12-16-1], [2010-12-17-1]の記事で英語語源学の略史を記したが,科学的な語源学の結実は Skeat の著作の出版や OED 編纂の進んだ19世紀後半のことである.19世紀にドイツを中心に発展した比較言語学の成果がはっきりと感じられるようになり,科学的な語源学が英語にも適用されるようになった.その時代の語源学者や辞書編纂者にとっては18世紀以前の語源辞書(主として念頭にあったのは Johnson の辞書)はほとんど使い物にならないと考えられ,OED の編纂者たちにとっては多くの語源欄の執筆はゼロからのスタートといっても過言でなかった.通常,辞書編纂という事業は多かれ少なかれ先行辞書の恩恵にあずかりつつ進むという点で,伝統 ( tradition ) の継承を体現しているものである.だが,OED は,語源情報に限らないが,多くの点で革新 ( innovation ) を体現することを目指しており,要求されてもいた.
 OED 編集主幹 Murray は,イングランドにおける語源学は1850年くらいに始まったにすぎないと強調しており,先行の Johnson の辞書の語源や Horne Tooke の哲学的語源論は信用していなかったという.

Though Murray can be seen to concur with Richardson in his statement that 'one does not look in Johnson for Etymology, any more than in 18th c. writers for biology or electricity' (MP/20/12/1906), the speculative etymologies of Horne Tooke were, if anything, still more remote from the philological rigour at which he aimed . . ." (Mugglestone 15)


 ゼロからのスタートという Murray の方針は次の通りだった.Murray の言葉を引用しよう.

'In dealing with any previous etymological treatment of a word, I always go predisposed to find it wrong . . . I fasten on the weakest point, & if that fails, the thing is done; if it stands, try the next.' (Mugglestone 15)


 語源解明という作業の難解さ,そしてそれに起因する語源学の不安定感については[2010-08-06-1]の記事で話題にしたが,Murray ら職人的辞書編纂者にとっても語源は最大の難物だった.OED は多くの側面で英語辞書の開拓者だったが,特に語源の分野において最も開拓者のイメージがふさわしいと,Mugglestone は評している.

If the image of the pioneer engaging with the unknown was one to which Murray had recourse on a number of occasions, it is perhaps nowhere more pertinent than in the etymological explorations of Murray, Bradley, Craigie, and Onions, as they sought to solve the many puzzles of linguistic history which had, hitherto, been left in obscurity. (Mugglestone 15)


 所与の語源説の解釈には常に慎重でなければならないという教訓を思い出させると同時に,OED 編纂者のみならず Skeat を含めた英語語源学を切り開いた碩学に対して畏敬の念を禁じ得ない.

 ・ Mugglestone, Linda. "'Pioneers in the Untrodden Forest': The New English Dictionary." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 1--21.

Referrer (Inside): [2023-02-24-1] [2019-11-10-1]

[ 固定リンク | 印刷用ページ ]

2011-01-05 Wed

#618. OED の検索結果から語彙を初出世紀ごとに分類する CGI [lexicology][oed][cgi][web_service]

 [2011-01-03-1], [2011-01-04-1]の記事で,OED 検索語彙を初出世紀ごとに分類して数え上げるという作業を行なった.よく考えてみると,このような作業はこれまでにも様々な調査・研究で繰り返し行なってきたことである.通時的語彙研究の基礎作業として今後も繰り返し行なう作業だと思われるので,OED の出力結果をもとに世紀ごとに数え上げるためのツールを作っておくことにした.名付けて "OED Century-by-Century Sorter".
 以下は使用方法の説明だが,The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004. での作業を前提としている.ヴァージョンが異なると動かないかもしれないのであしからず.

 (1) OED の ADVANCED SEARCH 等により,特定の条件に該当する語彙リストを出力させる.
 (2) 下のテキストボックスに,(1) の検索に適当につけた簡便なタイトルを,ピリオド1文字の後に続けて入力する.例えば ".alchemy" .これが見出し行となる.
 (3) テキストボックスで改行後に,(1) の出力結果を丸ごとコピーして貼り付ける.OED での出力結果が1画面に収まらない場合には次ページに進んで累積コピーし,テキストボックスに累積して貼り付けてゆく.年代順にソートされていなくても可.
 (4) 続けて別の検索を行なう場合には (1), (2), (3) の作業を繰り返す.テキストボックスには,貼り付けたテキストが累積されてゆくことになる.
 (5) Go をクリックすると,各検索結果について世紀ごとにカウントされた表が現われる.

 説明するよりも実例を見るのが早いので,こちらのテキストファイルを用意した.これは,OED の ADVANCED SEARCH で "language names" にそれぞれ Japanese, Chinese, Malay, Korean, Vietnamese を入れて検索した結果の語彙リストを上記の仕様で納めたもの.これらの言語からの借用語数を世紀ごとに把握するのが狙いである.もっとも,OED の検索機能の限界で,それなりの数の雑音が結果リストに混じっているのでその点には注意.この(ような仕様に則った)テキストをコピーして,以下のテキストボックスに貼り付け,Go をクリックすれば表が出力される.
 CGI スクリプトは大雑把な仕様なので,およその傾向を知るためのツールとして参考までに.特に以下の点に注意.

 ・ 初出年が "a1866", "c1629", "15..", "?c1400" などとなっている語はそれぞれ19, 17, 16, 14世紀へ振り分けられる
 ・ 初出年の記載のない語は一括して「0世紀」として振り分けられる

(後記 2011/04/24(Sun):OED Online の Timeline 表示では,初出世紀の頻度をグラフ化までしてくれるので,今回の CGI よりも使い勝手がよい.ただし,CD-ROM版の OED で作業するときや,設定に細かいチューニングが必要な場合のために自作した.)


[ 固定リンク | 印刷用ページ ]

2011-01-04 Tue

#617. 近代英語期以前の専門5分野の語彙の通時分布 [scientific_english][lexicology][oed][statistics]

 昨日の記事[2011-01-03-1]に引き続き,科学語彙など専門分野の語彙の初出世紀を OED で調べるという話題.近代以前に発展していた学術分野の語彙がどのような通時分布を示していたかについて,昨日は anatomy と math を例に挙げてグラフで示した.同じ手法で,やはり中世によく発達した music, astronomy, astrology, rhetoric, alchemy の各分野について語彙の初出世紀を整理してみた.definitions 欄に入れて検索した各分野の略記は "Mus.", "Astr." / "Astron.", "Astrol.", "Rhet.", "Alch." である.(数値データはこのページのHTMLソースを参照.)

Development of Vocabulary in Five Pre-Modern Areas

 いずれも前近代的な専門分野らしく,近代科学の語彙が爆発する19世紀ではなく,14世紀や16世紀に初出のピークが来ている.それにしても,alchemy を除いた4分野のグラフが驚くほどきれいに平行しているのは示唆的である.15世紀にこぞって落ち込んでいる理由は分析していないが,各分野の発展史を参照して説明されるものなのか,あるいは OED の資料としての何らかの特徴が反映されているがゆえなのか.alchemy に関しては専門用語そのものの数が多くないので断定はできないが,14, 15世紀辺りにピークが来ている.
 OED が文化史の研究に利用できるということは耳にしていたが,今回いろいろと具体的に作業してみて実感がわいてきた.語彙体系は文化の索引である.


[ 固定リンク | 印刷用ページ ]

2011-01-03 Mon

#616. 近代英語期の科学語彙の爆発 [scientific_english][lexicology][oed][statistics]

 ルネサンス以降,近代英語期には科学語彙が爆発的に増殖した.特に19世紀は科学の発展がめざましく,おびただしい科学用語が出現することとなった.これには,18世紀後半から博物学でリンネの二名法が用いられるようになったことも影響している ( see [2010-09-21-1] ) .
 科学の諸分野の発達とその語彙の増殖は連動していると考えられるので,OED で専門語彙の初出時期を調べてまとめれば,その分野の発展史の概略をつかむことができるのではないかと考えた.18世紀以前にすでに十分に発展していた分野もあるわけで,そのような分野では19世紀中の専門語彙の増殖は相対的に小さいはずである.そこで,18世紀以前に発展していたと分かっている解剖学と数学,19世紀に著しく発展したと分かっている化学と生物学に注目して,OED からそれぞれの分野からの専門用語を拾って整理してみた.
 拾い方は,それぞれ ADVANCED SEARCH の definitions 欄に "Anat.", "Math.", "Chem.", "Biol." が含まれる語という粗い条件指定によるものであり,検索結果リストも逐一チェックはしていない.各語は初出年によって世紀ごとに振り分け,"a1866", "c1629", "15.." などはそれぞれ19, 17, 16世紀へ振り分けた.また,初出年の記載のないものは考慮から外している.このように大雑把な調査なので,あくまで参考までに.以下が,結果の表とグラフである.(数値データはこのページのHTMLソースを参照.)

Development of Scientific Vocabulary in Four Scientific Areas

 chemistry と biology は19世紀に初出語彙のピークが来ているが,anatomy と math はそれぞれ17, 16世紀にピークがある.後者2分野は確かに19世紀にも山があるので,科学語彙が爆発した世紀という一般論は当てはまるが,個々の分野によって語彙増殖の傾向の異なることがわかる.
 今回はすでに発展史の概略がよく知られている4分野を取り上げ,OED によってその語彙増殖を確認したにすぎないが,他の専門分野で同様の調査を施してみるとおもしろい結果が出るかもしれない.関連する話題として,SOED を用いた「1500--1900年における英語語彙の増加」について,[2009-11-16-1]を参照.

 ・ Crystal, David. The Cambridge Encyclopedia of the English Language. 2nd ed. Cambridge: CUP, 2003. 87.

[ 固定リンク | 印刷用ページ ]

2010-11-15 Mon

#567. set --- the most polysemic word in English [oed][polysemy]

 書籍版 OED を読んでいると字が細かいので目がちかちかしてくるが,特に重要な多義語では記述が数ページにわたるので,それこそ目が悪くなりそうだ.割かれているページ数が多義性の目安だとすると,英語で動詞 set ほどの多義語は存在しない.OEDDictionary facts によると:

Longest entry in Dictionary: the verb 'set' with over 430 senses consisting of approximately 60,000 words or 326,000 characters


 6万語の記述というと短い小説ほどの長さである.記述の長さで最高ということは,およそ語義の多さでも最高と考えて差し支えないだろう.みかけは "a wholly unassuming monosyllable, the verbal equivalent of the single-celled organism" ( Bryson, p. 63 ) だが,実は中身の濃い polysemic word だということになる.CD-ROM版では set のエントリーの全体が表示されるまでに私のPCで32秒かかった.
 他の上級学習者用英英辞書(いずれも最新版)で動詞 set の登録語義数を調べてみた.

dictionarynumber of senses
OALD816
LDOCE525
Cobuild14
CALD18
Macmillan15
Merriam-Webster's17


 もとより意味という連続体を語義に分解するには恣意的な判断が働くものであり,辞書によって取り上げる語義の範囲やその切り方がある程度異なるのが普通だが,それにしても polysemic だなと実感.
 OED のエントリーをここに再掲するわけにはいかないので,代わりに LDOCE のエントリーを参照されたい.これをじっくり読むと set の使い方はもちろんのこと,一般の英語の語法というものに詳しくなれるのではないかと思えるほどに多義的,多機能だ.

 ・ Bryson, Bill. Mother Tongue: The Story of the English Language. London: Penguin, 1990.

[ 固定リンク | 印刷用ページ ]

2010-10-15 Fri

#536. OED の引用データをコーパスとして使えるか (3) [oed][corpus][statistics]

 [2010-10-10-1], [2010-10-14-1]に引き続き,OED の引用データの話題.今回は,特に昨日の記事[2010-10-14-1]の (2), (3) で取り上げた年代別引用数の浮き沈みの問題を意識する上で,数値をグラフに視覚化しておくと便利だと考えた.
 Brewer は10年ごとに OED の引用数の推移を調べており,実際にグラフ化もしている (48--49) .しかし,論文内に提示されているグラフは1470年を境に二分されており,目盛り尺度も互いに異なっているので比較するにはやや不便である.そこで,以下に目盛り尺度を揃えたグラフを改めて作成してみた.Brewer にはグラフ作成のもとになる数値データは与えられていないので,グラフから目検討で数値を読み出し,それを頼りに作成した(← 本当は自ら OED で改めて数字を出せばいいのだけれど).したがって,ここに示されているものはあくまで傾向をとらえるためのものとして参考までに.

OED Quotations per Decade by Brewer

 OED を通時コーパスとして用いる場合には,特に引用数が周囲より劇的に低かったり高かったりする時期からの引用に当たる際に注意が必要である.このグラフは,その際のお供として参照されたい.

 ・ Brewer, Charlotte. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

Referrer (Inside): [2015-03-29-1] [2011-01-29-1]

[ 固定リンク | 印刷用ページ ]

2010-10-14 Thu

#535. OED の引用データをコーパスとして使えるか (2) [oed][corpus]

 [2010-10-10-1]の記事では,Hoffmann の論文を参照して,OED の引用データは若干の注意は必要だが十分にコーパスとなりうるのではないかという説を見た.一方で,OED の引用は若干ではなく相当の注意を払わないと危ないという厳しい説がある.Brewer によれば,OED の引用データを,各時代を代表するコーパスとみなすことには慎重であるべきだという.Brewer は先行論文を参照しつつ様々な証拠を挙げて議論しているが,主なものを下にまとめてみる.

 (1) 特定の文学作家,文学作品の引用が不釣り合いに多い.被引用数トップ5の作家は,Shakespeare, Walter Scott, Milton, Wycliffe, Chaucer.Shakespeare のカバー率は100%に近いと言われ,引用数は33304例を数える.第5位の Chaucer からの引用は11902例.被引用数トップの作品は,予想通りに聖書.第2位は1300年頃に書かれた長詩 Cursor Mundi で12772例を数える.有名な作家・作品についてはコンコーダンスが手に入りやすいために,引用が採用されやすいという事情があるという (45--47) .引用は言語を代表しているというよりも,編纂者の選択を表わしているというべきである.

Any inferences drawn from the OED coverage about the significance of these writers for the development and illustration of the English lexicon are flawed ones: the exceptionally full representation of their language in the dictionary is due at least as much to the lexicographers' consultation of the concordances as to the intrinsic qualities of these writers' diction. (51)


 (2) 引用数を年代別にプロットすると c1581--1610 に引用が急激に増えている.また,19世紀前半も引用がうなぎ登りに増えている.この点については[2010-10-10-1]の (4) でも触れた.前者の時期については Shakespeare の引用が多いことと深く関連しており,必ずしもその時代の言語を代表しているということにはならないのではないか (47, 58) .後者の時期については,OED 制作のすぐ前の時代であり,必然的に容易に手に入る典拠の数が多いからである.

 (3) 15世紀以前では 1291--1300, 1391--1400 の時期に引用のピークがあるが,1つには年代が不明確な作品については区切りのよい世紀の変わり目に切り上げたり切り下げたりすることがあり,それが反映された結果だという.別の理由としては,1300年頃に Robert of Gloucester (3222例)や Cursor Mundi (10771例)が,1400年頃に Trevisa (6750例)が集中したせいである (57--58) .

 (4) OED に採用される見出し語は英語国のボランティア読者による単語収集とそのメモが元になっているが,ボランティアは普通でない語や普通でない意味を特に注意して集めるように指示されていた.". . . this resulted in partial reading and uneven representation of sources" (50).

 (5) OED には初期近代英語期の辞書等から直接引用している見出し語が多くあるが,その辞書等の見出し語がすべて収録されているわけでなく,見出し語が取捨選択されている形跡がある.ある調査によると,1/5ほどが OED には収録されずに切り捨てられたという.ここでは,編纂者の恣意的な判断,おそらくは19世紀の進化観に裏打ちされた規範主義的な判断が入っていると考えられる (52--52) .

 [2010-10-10-1]とあわせて OED の引用データをコーパスとしてみなしてよいかどうかについて賛否両論を見たが,1000年の歴史英語をカバーする扱いやすい通時コーパスが他に公開されていない以上,上に挙げたような点を意識したうえで OED を注意して用いる,ということ以外に答えはないように思える.

 ・ Brewer, Charlette. "OED Sources." Lexicography and the OED: Pioneers in the Untrodden Forest. Ed. Lynda Mugglestone. Oxford: OUP, 2000. 40--58.

[ 固定リンク | 印刷用ページ ]

2010-10-10 Sun

#531. OED の引用データをコーパスとして使えるか [oed][corpus][representativeness]

 OED (2nd ed. CD-ROM) を歴史英語コーパスとして用いるという発想は特に電子版が出版されてから広く共有されてきた.実際に多くの研究で OED がコーパスとして活用されている.しかし,そもそもがコーパスとして編まれたわけではない OED 中の用例の集合をコーパスとみなして研究することは,どれくらい妥当なのだろうか.研究の道具について知ることは研究自身と同じくらい重要だと思われるので,このテーマに関連する Hoffmann の論文から要点をまとめてみたい.(私自身が道具としての OED の特徴をよく理解せずに研究に使っていたきらいがあるので,自分のための備忘録というつもりです.田辺春美先生の書かれた論文を参考にしています.)
 Hoffmann は OED の用例の集合をコーパスとして用いることができるかという疑問に対して,4つの観点からアプローチしている.各観点と,対応する Hoffmann の結論を要約する.

 (1) Selection criteria for the quotations
   "a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (19; cited from Sinclair) という厳密なコーパスの定義に照らせば,OED の用例の集合をコーパスと見なすことはできない.確かに,個々の見出し語下に納められている用例群が,その見出し語に注目した場合の適切なコーパスにならないということは言えるだろう.その語の特殊で低頻度の形態や意味がクローズアップされる傾向があるからである.しかし,特にある見出し語に注目するのでなければ,全体として OED の用例は各時代の英語を代表していると考えられ,コーパスとして活用することは妥当である.

 (2) Representativeness and balance of the quotations
   OED の用例は実際に何らかの典拠から引いてきた "true quotations" (20) である.編者によって作られた用例もないではないが,数はきわめて少ない.また,典拠のジャンルは多岐にわたり,極端に文学作品に限るなどの偏向がないので,ジャンルに関しては "representative" と言ってよい.ただし,各ジャンルが言語研究にとって適切な割合で分布しているわけではないので,"balanced" とは言えない.例えば Shakespeare が1人で33,000の用例を提供している事例などが挙げられる.OED をコーパスとして見立てる場合には,"balance" の点で注意を要する.

 (3) Reliability of the data format
   文中の一部が省略されているような用例が,平均して20?25%ほどある.ほとんどの省略では文の構造がいじられていないが,中には不適切な省略で文の構造が変化してしまっている例文もある.節以上の構造を調べるために OED を利用する場合には,注意が必要である.

 (4) Quantification of the results
   1年当たりの用例数をグラフにプロットすると,17世紀頃に4000例を越える小ピークが,19世紀に10000例を越える大ピークが認められるが,20世紀には激減する.一方で,用例を構成する語の数は時代にかかわらずおおむね13語程度と一定で,20世紀の用例がやや長めなのが目に留まる程度である.用例数が240万例を越える(初版は180万例ほどだった)ことと上記の平均語数から計算して,OED に含まれる用例の総語数は3300?3500万語と推定される.OED をコーパスとして用いる場合には,19世紀の用例数が特に多いことなどに注意して検索結果を解釈すべきだろう.

 最後に Hoffmann の結論部を引用する (26) .OED の用例の集合は言語変化の傾向を大雑把に量的に表わすコーパスとして言語変化研究にとって有用である,という常識的な結論だが,具体的な数字が出されていて参考になった.

Although the OED quotations database is not a completely balanced and representative corpus, it can nevertheless provide the linguist with a wealth of useful information. The data it contains chiefly represents naturally occurring language, and the time-span covered is unmatched by any other source of computerized data. Even though over 20 per cent of all its quotations have been shortened, the large majority of these deletions is unlikely to distort the results of many diachronic studies of linguistic features. Given the nature of the data, normalized frequency counts might suggest an inappropriate level of precision, but tendencies in the development over time can nevertheless be expressed in quantitative terms. (26)


 ・ The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004.
 ・ Hoffmann, Sebastian. "Using the OED quotations database as a Corpus --- A Linguistic Appraisal." ICAME Journal 28 (April 2004): 17--30. Available online at http://icame.uib.no/ij28/index.html .
 ・ Tanabe, Harumi. "The Rivalry of give up and its Synonymous Verbs in Modern English." Language Change and Variation from Old English and Late Modern English: A Festschrift for Minoji Akimoto. Ed. Merja Kytö, John Scahill, and Harumi Tanabe. Bern: Peter Lang, 2010. 253--75.

[ 固定リンク | 印刷用ページ ]

2010-02-25 Thu

#304. OED 制作プロジェクトののろし [oed][lexicography]

 今日の記事は『オックスフォード英語大辞典物語』より.1857年6月,The Philological Society of London のメンバーであった Herbert Coleridge, Frederick Furnivall, Richard Chenevix Trench の三人が,それまでに英語世界で出版されていた辞書の問題点を議論した.彼らはただちに Unregistered Words Committee 「未収録語委員会」を設立して議論と調査の場を設け,同年11月には Trench が従来の辞書の問題点として次の7項目を公表した (68--71).これが,以降70余年にわたって続く,いや現在にまで続く The Oxford English Dictionary 制作プロジェクトののろしとなった.

 (1) 廃語が十分に記録されていない
 (2) 単語の家族(語群)が気まぐれにしか含まれてない
 (3) 初出例などの語史に関する記述が十分に過去にさかのぼれていない
 (4) 単語の重要な全体的意味と個別的意味が頻繁に見のがされている
 (5) 見かけ上の同義語どうしを区別することに注意が払われていない
 (6) 記述に重複が多く,重要な記述が犠牲になっている
 (7) 例文収集のために閲読されるべき文献の多くが読まれていない

 これを発表した時点では, Trench も周囲の同僚たちもこのプロジェクトが質量ともにどれほどの規模のものになるかは想像できなかったろう.まさか70年以上かかるとは予想もしなかったにちがいない.1928年の OED の完成は,「辞書は歴史の記念碑である.一つの見地から見た一国の歴史である」とする Trench の信念の結実にほかならない (72).
 上記の7項目は,逆にいえば,それまでの辞書にはない OED の特徴にもつながる.OED の歴史については,History of the Oxford English Dictionary も参照.

 ・サイモン・ウィンチェスター 『オックスフォード英語大辞典物語』 刈部 恒徳訳,研究社,2004年.

[ 固定リンク | 印刷用ページ ]

2009-06-21 Sun

#54. through 異綴りベスト10(ワースト10?) [spelling][lalme][laeme][oed][me_dialect][through]

 昨日[2009-06-20-1]の記事で through の綴りが後期中英語期だけでも515通りあったことを紹介した.そこで書き忘れたのだが,どこからこのような情報が得られるかということである.まさか,丹念に中英語のテキストをしらみつぶしに読んで,一つ一つ through とおぼしき形態をせっせと収集したというわけではない.また,電子コーパスとして全テキストが検索可能になっていたとしても,lemmatise(見出し語化)されていなければ,そもそも検索欄にどの綴り字を入力すればいいのかが不明である.
 方法の一つとして Oxford English Dictionary ( OED ) の利用がある.この究極の英英辞書は,古英語から現代英語までの各単語の異綴りを数多く掲載している.確かに汎用的に使える方法だが,OEDthrough を引いてみると,せいぜい数十の異綴りしか得られない.
 もう一つの方法は,A Linguistic Atlas of Late Mediaeval English ( LALME ) の利用である.これは,選ばれた基本語の異綴りがブリテン島の地図の上にプロットされている「方言地図」である.時代は後期中英語に限られているものの,異綴り研究にとっては究極のツールである.今回の through の異綴りも LALME ですでにまとめられているリストを打ち込んだだけである.LALME の初期中英語期の姉妹編として LAEME なるものもあり,こちらはオンラインで利用可能なので,ぜひ試されたい(URLは末尾).
 さて,515通りの列挙を眺めていると目がチカチカしてくるが,その中で私の独断と偏見で選ぶベスト10(ワースト10ともいえる)を,突っ込みを入れながら挙げてみよう.

 1. yhurght (←ほぼ yoghurt
 2. trghug (←ほぼ発音不可能)
 3. thrwght (←母音字なし,その一)
 4. thwrw (←母音字なし,その二)
 5. thrvoo (←vって・・・)
 6. throw (←違う単語になってる)
 7. threw (←その過去形まである)
 8. yora (←どうしてこうなるの?)
 9. ȝour (←なぜ?)
 10. through (←ちゃんとあるじゃない!)

 ・McIntosh, Angus, Michael Louis Samuels, Michael Benskin, eds. A Linguistic Atlas of Late Mediaeval English. Aberdeen: Aberdeen UP, 1986.
 ・Laing, Margaret and Roger Lass, eds. A Linguistic Atlas of Early Middle English, 1150--1325. http://www.lel.ed.ac.uk/ihd/laeme1/laeme1.html . Online. Edinburgh: U of Edinburgh, 2007.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow