hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 / page 6 (6)

oed - hellog〜英語史ブログ

最終更新時間: 2024-11-22 17:50

2010-10-10 Sun

#531. OED の引用データをコーパスとして使えるか [oed][corpus][representativeness]

 OED (2nd ed. CD-ROM) を歴史英語コーパスとして用いるという発想は特に電子版が出版されてから広く共有されてきた.実際に多くの研究で OED がコーパスとして活用されている.しかし,そもそもがコーパスとして編まれたわけではない OED 中の用例の集合をコーパスとみなして研究することは,どれくらい妥当なのだろうか.研究の道具について知ることは研究自身と同じくらい重要だと思われるので,このテーマに関連する Hoffmann の論文から要点をまとめてみたい.(私自身が道具としての OED の特徴をよく理解せずに研究に使っていたきらいがあるので,自分のための備忘録というつもりです.田辺春美先生の書かれた論文を参考にしています.)
 Hoffmann は OED の用例の集合をコーパスとして用いることができるかという疑問に対して,4つの観点からアプローチしている.各観点と,対応する Hoffmann の結論を要約する.

 (1) Selection criteria for the quotations
   "a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (19; cited from Sinclair) という厳密なコーパスの定義に照らせば,OED の用例の集合をコーパスと見なすことはできない.確かに,個々の見出し語下に納められている用例群が,その見出し語に注目した場合の適切なコーパスにならないということは言えるだろう.その語の特殊で低頻度の形態や意味がクローズアップされる傾向があるからである.しかし,特にある見出し語に注目するのでなければ,全体として OED の用例は各時代の英語を代表していると考えられ,コーパスとして活用することは妥当である.

 (2) Representativeness and balance of the quotations
   OED の用例は実際に何らかの典拠から引いてきた "true quotations" (20) である.編者によって作られた用例もないではないが,数はきわめて少ない.また,典拠のジャンルは多岐にわたり,極端に文学作品に限るなどの偏向がないので,ジャンルに関しては "representative" と言ってよい.ただし,各ジャンルが言語研究にとって適切な割合で分布しているわけではないので,"balanced" とは言えない.例えば Shakespeare が1人で33,000の用例を提供している事例などが挙げられる.OED をコーパスとして見立てる場合には,"balance" の点で注意を要する.

 (3) Reliability of the data format
   文中の一部が省略されているような用例が,平均して20?25%ほどある.ほとんどの省略では文の構造がいじられていないが,中には不適切な省略で文の構造が変化してしまっている例文もある.節以上の構造を調べるために OED を利用する場合には,注意が必要である.

 (4) Quantification of the results
   1年当たりの用例数をグラフにプロットすると,17世紀頃に4000例を越える小ピークが,19世紀に10000例を越える大ピークが認められるが,20世紀には激減する.一方で,用例を構成する語の数は時代にかかわらずおおむね13語程度と一定で,20世紀の用例がやや長めなのが目に留まる程度である.用例数が240万例を越える(初版は180万例ほどだった)ことと上記の平均語数から計算して,OED に含まれる用例の総語数は3300?3500万語と推定される.OED をコーパスとして用いる場合には,19世紀の用例数が特に多いことなどに注意して検索結果を解釈すべきだろう.

 最後に Hoffmann の結論部を引用する (26) .OED の用例の集合は言語変化の傾向を大雑把に量的に表わすコーパスとして言語変化研究にとって有用である,という常識的な結論だが,具体的な数字が出されていて参考になった.

Although the OED quotations database is not a completely balanced and representative corpus, it can nevertheless provide the linguist with a wealth of useful information. The data it contains chiefly represents naturally occurring language, and the time-span covered is unmatched by any other source of computerized data. Even though over 20 per cent of all its quotations have been shortened, the large majority of these deletions is unlikely to distort the results of many diachronic studies of linguistic features. Given the nature of the data, normalized frequency counts might suggest an inappropriate level of precision, but tendencies in the development over time can nevertheless be expressed in quantitative terms. (26)


 ・ The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004.
 ・ Hoffmann, Sebastian. "Using the OED quotations database as a Corpus --- A Linguistic Appraisal." ICAME Journal 28 (April 2004): 17--30. Available online at http://icame.uib.no/ij28/index.html .
 ・ Tanabe, Harumi. "The Rivalry of give up and its Synonymous Verbs in Modern English." Language Change and Variation from Old English and Late Modern English: A Festschrift for Minoji Akimoto. Ed. Merja Kytö, John Scahill, and Harumi Tanabe. Bern: Peter Lang, 2010. 253--75.

[ 固定リンク | 印刷用ページ ]

2010-02-25 Thu

#304. OED 制作プロジェクトののろし [oed][lexicography]

 今日の記事は『オックスフォード英語大辞典物語』より.1857年6月,The Philological Society of London のメンバーであった Herbert Coleridge, Frederick Furnivall, Richard Chenevix Trench の三人が,それまでに英語世界で出版されていた辞書の問題点を議論した.彼らはただちに Unregistered Words Committee 「未収録語委員会」を設立して議論と調査の場を設け,同年11月には Trench が従来の辞書の問題点として次の7項目を公表した (68--71).これが,以降70余年にわたって続く,いや現在にまで続く The Oxford English Dictionary 制作プロジェクトののろしとなった.

 (1) 廃語が十分に記録されていない
 (2) 単語の家族(語群)が気まぐれにしか含まれてない
 (3) 初出例などの語史に関する記述が十分に過去にさかのぼれていない
 (4) 単語の重要な全体的意味と個別的意味が頻繁に見のがされている
 (5) 見かけ上の同義語どうしを区別することに注意が払われていない
 (6) 記述に重複が多く,重要な記述が犠牲になっている
 (7) 例文収集のために閲読されるべき文献の多くが読まれていない

 これを発表した時点では, Trench も周囲の同僚たちもこのプロジェクトが質量ともにどれほどの規模のものになるかは想像できなかったろう.まさか70年以上かかるとは予想もしなかったにちがいない.1928年の OED の完成は,「辞書は歴史の記念碑である.一つの見地から見た一国の歴史である」とする Trench の信念の結実にほかならない (72).
 上記の7項目は,逆にいえば,それまでの辞書にはない OED の特徴にもつながる.OED の歴史については,History of the Oxford English Dictionary も参照.

 ・サイモン・ウィンチェスター 『オックスフォード英語大辞典物語』 刈部 恒徳訳,研究社,2004年.

[ 固定リンク | 印刷用ページ ]

2009-06-21 Sun

#54. through 異綴りベスト10(ワースト10?) [spelling][lalme][laeme][oed][me_dialect][through]

 昨日[2009-06-20-1]の記事で through の綴りが後期中英語期だけでも515通りあったことを紹介した.そこで書き忘れたのだが,どこからこのような情報が得られるかということである.まさか,丹念に中英語のテキストをしらみつぶしに読んで,一つ一つ through とおぼしき形態をせっせと収集したというわけではない.また,電子コーパスとして全テキストが検索可能になっていたとしても,lemmatise(見出し語化)されていなければ,そもそも検索欄にどの綴り字を入力すればいいのかが不明である.
 方法の一つとして Oxford English Dictionary ( OED ) の利用がある.この究極の英英辞書は,古英語から現代英語までの各単語の異綴りを数多く掲載している.確かに汎用的に使える方法だが,OEDthrough を引いてみると,せいぜい数十の異綴りしか得られない.
 もう一つの方法は,A Linguistic Atlas of Late Mediaeval English ( LALME ) の利用である.これは,選ばれた基本語の異綴りがブリテン島の地図の上にプロットされている「方言地図」である.時代は後期中英語に限られているものの,異綴り研究にとっては究極のツールである.今回の through の異綴りも LALME ですでにまとめられているリストを打ち込んだだけである.LALME の初期中英語期の姉妹編として LAEME なるものもあり,こちらはオンラインで利用可能なので,ぜひ試されたい(URLは末尾).
 さて,515通りの列挙を眺めていると目がチカチカしてくるが,その中で私の独断と偏見で選ぶベスト10(ワースト10ともいえる)を,突っ込みを入れながら挙げてみよう.

 1. yhurght (←ほぼ yoghurt
 2. trghug (←ほぼ発音不可能)
 3. thrwght (←母音字なし,その一)
 4. thwrw (←母音字なし,その二)
 5. thrvoo (←vって・・・)
 6. throw (←違う単語になってる)
 7. threw (←その過去形まである)
 8. yora (←どうしてこうなるの?)
 9. ȝour (←なぜ?)
 10. through (←ちゃんとあるじゃない!)

 ・McIntosh, Angus, Michael Louis Samuels, Michael Benskin, eds. A Linguistic Atlas of Late Mediaeval English. Aberdeen: Aberdeen UP, 1986.
 ・Laing, Margaret and Roger Lass, eds. A Linguistic Atlas of Early Middle English, 1150--1325. http://www.lel.ed.ac.uk/ihd/laeme1/laeme1.html . Online. Edinburgh: U of Edinburgh, 2007.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow