hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 次ページ / page 1 (2)

laeme - hellog〜英語史ブログ

最終更新時間: 2020-10-20 09:02

2020-09-22 Tue

#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも) [academic_conference][corpus][eebo][glowbe][laeme][lalme][historiography][standardisation]

 一昨日の9月20日(日),2020年度駒場英語史研究会にて,特別企画「電子コーパスやオンライン・リソースを使った英語史研究 ― その実践と可能性」に発表者として参加しました.Zoom でのオンライン大会でしたが,円滑に会が進行しました.(企画のご提案から会の主催までお世話になりました寺澤盾先生(東京大学),発表者の家入葉子先生(京都大学)と菊地翔太先生(明海大学),および参加者すべての方々には,貴重な機会とインスピレーションをいただきました.お礼申し上げます.)
 トップバッターの私自身の発表では「LAEME & LALME を用いた英語史研究入門」と題して,中英語を代表する2つの姉妹コーパス LAEMEeLALME を紹介しました.続いて,家入先生の「データベースの利用によるコーパス言語学 --- Early English Books Onlineを中心に」と題する発表では,初期近代英語期を代表するコーパス EEBO Online corpus が紹介されました.最後に,菊地先生による「Corpus of Global Web-Based English(GloWbE)を用いた World Englishes 研究の可能性」という発表により,21世紀の World Englishes 時代を象徴する GloWbE が導入されました(←私にとって未知だったので驚きの連続でした).
 各々の発表はコーパスの紹介とデモにとどまらず,その可能性や「利用上の注意」にまで触れた内容であり,発表後のディスカッションタイムでは,英語史研究においてコーパス利用はどのような意義をもつのかという方法論上の肝心な議論にまで踏み込めたように思います(時間が許せば,もっと議論したいところでした!).
 中英語,近代英語,21世紀英語という3つの異なる時代の英語を対象としたコーパスを並べてみたわけですが,研究会が終わってからいろいろと考えが浮かんできました.同じ英語のコーパスとはいえ,対象とする時代が異なるだけで,なぜ検索の仕方も検索の結果もインターフェースもここまで異なるのだろうかということです.その答えは「各々の時代における英語の(社会)言語学的事情が大きく異なっているから,それと連動して(現代の研究者が編纂する)コーパスのあり方も大きく異ならざるを得ない」ということではないかと思い至りました.
 逆からみれば,各時代のコーパスがどのように編纂され,どのように使用されているかを観察することにより,その時代の英語の(社会)言語学的事情が浮き彫りになってくるのではないか,ということです.そうして時代ごとの特徴がきれいに浮き彫りになってくるようであれば,それを並べてみれば,ある種の英語史記述となるにちがいない.換言すれば,各時代のコーパス検索に伴うクセや限界みたいなものを指摘していけば,その時代の背後にある言語事情が透けて見えてくるのではないかと.ここから「コーパスのあり方からみる英語史」のような試みが可能となってきそうです.
 時代順にみていきます.中英語期は標準形が不在なので,ある単語を検索しようとしても,そもそもどの綴字で検索すればよいのかという出発点からして問題となります (cf. 「#1450. 中英語の綴字の多様性はやはり不便である」 ([2013-04-16-1])).実際,中英語辞書 MED である単語を引くにしても,そこそこ苦労することがあります.LAEME や LALME でも検索インターフェースには様々な工夫はなされていますが,やはり事前の知識や見当づけが必要ですので,検索が簡単であるとは口が裂けても言えません.現実に標準形がないわけですから,致し方がありません.
 次に初期近代英語期ですが,EEBO は検索インターフェースが格段にとっつきやすく,一見すると検索そのものに問題があるようには見えません.しかし,英語史的にはあくまで標準化を模索している時代にとどまり,標準化が達成された現代とは事情が異なります.つまり,標準形とおぼしきものを検索欄に入れてクリックしたとしても,実は拾い漏れが多く生じてしまうのです.公式には実装されているとされる lemma 検索も,実際には思うほど精度は高くありません.落とし穴がいっぱいです.
 最後に,21世紀英語の諸変種を対象とする GloWbE については,(ポスト)現代英語が相手ですから,当然ながら標準形を入力して検索できます.しかし,BNC や COCA のような「普通の」コーパスと異なるのは,返される検索結果が諸変種に由来する多様な例だということです.
 大雑把にまとめると次のようになります.

 代表コーパス検索法などに反映される「コーパスのあり方」(社会)言語学的事情
中英語LAEME, LALME検索法が難しい標準形がない
初期近代英語EEBO検索法が一見すると易しい標準形が中途半端にしかない
21世紀英語GloWbE検索法が易しい標準形はあるが,その機能は変種によって多様


 異なる時代のコーパスを比べてみると,英語史がみえてくるということがよく分かりました.駒場英語史研究会での発表の機会をいただき,改めて感謝します.

Referrer (Inside): [2020-09-25-1]

[ | 固定リンク | 印刷用ページ ]

2020-07-04 Sat

#4086. 中英語研究における LAEME の役割 [laeme][lalme][me_dialect][dialectology][eme][manuscript][scribe]

 昨日の記事「#4085. 中英語研究における LALME の役割」 ([2020-07-03-1]) に引き続き,LALME の姉妹版である初期中英語の方言地図 LAEME についても,研究史上の重要な位置づけを紹介しておこう.
 LAEME は,時代としては LALME よりも古い時代を扱うが,プロジェクトとしてはそのの後継として開始されたために「後発の利点」を活かしうる立場にあった.とはいえ,編者の1人 Laing は,初期中英語の呈する特殊事情ゆえに深い悩みを抱えていた.後期中英語よりもテキストの量がずっと少なく,分布も偏っており,そもそも方言同定の最初の頼みとなる "anchor texts" が得にくい.とりわけ初期のテキストは,古英語の West-Saxon Schriftsprache に影響されたものが多く,そのスペリングを方言同定のために利用することはできない.しかし,Laing はテキスト産出に貢献した写字生を丁寧に選り分け,どの写字生の関わったどの部分のスペリングがその写字生の出所を示している可能性が高いか,等の知見を粘り強く蓄積していった.結果として,何とか少数の "anchor texts" を得ることに成功し,それをもとに LALME 以来洗練されてきた "fit-technique" を適用して,他のテキストを地図上にプロットしていった --- 今回はデジタルの力を借りて --- のである.
 LAEME の新機軸は,LALME に付随する積年の問題だった質問項目 (questionnaire) の設定を放棄したことにあった.語彙・文法的タグを付しながらテキストを電子コーパス化し,即席の質問項目に対応できるように準備したのである.もっとも,対象としたテキストの全文に対して完全なるタグ付けを行なったわけではなく,時に写字(生)に関する込み入った事情ゆえに不完全にとどまるなど困難な経緯もあったようだ.プロジェクトの時間上の制約もあり,最終的には初期中英語の網羅的なコーパスとはならなかったものの,タグ付けされた65万語からなる,堂々たる研究ツールに仕上がった.とりわけ同時代の英語の正書法,音韻論,形態論のためには,なくてはならない必須ツールである.
 研究ツールとしての LAEME の最大の長所は,テキストが徹頭徹尾 "diplomatic" であることだ.デジタルでありながら写本の綴字に限りなく忠実であろうとする,この原文に対する "diplomatic" な態度は,他ではほとんど例を見出すことができない.私自身も博士論文研究で大変お世話になった,ありがたいツールである.以上,Lowe (1126) に依拠して執筆した.

 ・ Lowe, Kathryn A. "Resources: Early Textual Resources." Chapter 71 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1119--31.

[ | 固定リンク | 印刷用ページ ]

2020-05-30 Sat

#4051. 中英語方言における bury の綴字の方言地図 --- LAEME より [laeme][me_dialect][dialectology][vowel][map][isogloss][eme][lalme]

 中英語方言学でよく知られている方言間の母音変異の事例として,北部・東部方言の <i> = [i(ː)],中西部方言の <u> = [y(ː)],南東部方言の <e> = [e(ː)] というものがある.これは,古英語ウェストサクソン方言において典型的に <y> で綴られた母音(初期には [y(ː)],後期には [i(ː)] だったとされる)が,中英語の諸方言でどのような対応形を示しているかを図式的に整理したものである.
 現代英語の単語でいえば busy, merry, busy などが典型的に上記の方言分布と関連している. 関連する話題は以下の記事で扱ってきた.

 ・ 「#562. busy の綴字と発音」 ([2010-11-10-1])
 ・ 「#563. Chaucer の merry」 ([2010-11-11-1])
 ・ 「#570. bury の母音の方言分布」 ([2010-11-18-1])
 ・ 「#1341. 中英語方言を区分する8つの弁別的な形態」 ([2012-12-28-1])
 ・ 「#1434. left および hemlock は Kentish 方言形か」 ([2013-03-31-1])
 ・ 「#4048. much, shut, such, trust の母音と中英語方言学」 ([2020-05-27-1])

 今回はとりわけ bury に焦点を当て,初期中英語の諸方言における第1母音(字)の変異を LAEME の Dot Map により示したい.この問題は,上の 「#562. busy の綴字と発音」 ([2010-11-10-1]) や「#570. bury の母音の方言分布」 ([2010-11-18-1]) でも扱ってきたが,今回は専門的なツールを用いて信頼に足る証拠を示すことに重点を置く.以下,当該母音(字)として <i, y> を用いる分布図の Dot Map を最初に挙げ,続いて2つ目に <u>,3つ目に <e> に関する Dot Map を示す.



(1) BURY, BURIED: bir- and byr-. (Map No. 16255502)

BURY, BURIED: <em>bir</em>- and <em>byr</em>-. (Map No. 16255502)

(2) BURY, BURIED: bur-. (Map No. 16255503)

BURY, BURIED: <em>bur</em>-. (Map No. 16255503)

(3) BURY, BURIED: ber-. (Map No. 16255501)

BURY, BURIED: <em>ber</em>-. (Map No. 16255501)



 「#1262. The LAEME Corpus の代表性 (1)」 ([2012-10-10-1]),「#1263. The LAEME Corpus の代表性 (2)」 ([2012-10-11-1]) でみたように,LAEME の扱う(および初期中英語期一般についていえる)テキスト分布の事情により,全体として調査点 (dots) の数は多くはないものの,本記事の冒頭に示した伝統的な図式は,上の3つの地図により概ね支持されているといえよう.
 なお,続く後期中英語における状況は,LAEME の姉妹版 LALME の Dot Map で確認できるが,後期には諸方言形が互いに激しく「乗り入れ」しており,初期ほど明確な分布は現われない.

[ | 固定リンク | 印刷用ページ ]

2020-04-25 Sat

#4016. 中英語研究のための基本的なオンライン・リソース [bibliography][website][link][corpus][dictionary][hel_education][auchinleck][oed][htoed][laeme][lalme][med][ceec][me]

 標記について,Smith (47--48) の参考文献表よりいくつか抜き出し,整理し,リンクを張ってみた(現時点で生きたリンクであることを確認済み).本ブログでは,その他各種のオンライン・リソースも紹介してきたが,まとめきれないので link を参照.とりわけ Chaucer 関連のリンクは「#290. Chaucer に関する Web resources」 ([2010-02-11-1]) をどうぞ.



 ・ AM = Burnley, David and Alison Wiggins, eds. Auchinleck Manuscript. National Library of Scotland, 2003. Available online at http://www.nls.uk/auchinleck/ .
 ・ CEEC = Nevalainen, Terttu, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi, and Minna Palander-Collin. Corpus of Early English Correspondence (CEEC). Department of English, U of Helsinki. Available online at http://www.helsinki.fi/varieng/CoRD/corpora/CEEC/index.html .
 ・ CSC = Meurman-Solin, Anneli. Corpus of Scottish Correspondence. U of Helsinki, 2007. Available online at http://www.helsinki.fi/varieng/CoRD/corpora/CSC/ .
 ・ CTP = Robinson, Peter and Barbara Bordalejo. The Canterbury Tales Project. Institute of Textual Scholarship and Electronic Editing, U of Birmingham, 1996--. Available online at http://server30087.uk2net.com/canterburytalesproject.com/index.html .
 ・ HTOED = Kay, Christian, Jane Roberts, Michael Samuels, and Irené Wotherspoon, eds. Historical Thesaurus of the Oxford English Dictionary. Oxford: OUP, 2009. Available online via http://www.oed.com/ .
 ・ LAEME = Laing, Margaret and Roger Lass. LAEME: A Linguistic Atlas of Early Middle English, 1150--1325. U of Edinburgh, 2007. Available online at http://www.lel.ed.ac.uk/ihd/laeme2/laeme2.html .
 ・ LALME = McIntosh, Angus, Michael Samuels, and Michael Benskin, with Margaret Laing and Keith Williamson. A Linguistic Atlas of Late Mediaeval English (LALME). Aberdeen: Aberdeen UP, 1986. Available online as eLALME at http://www.lel.ed.ac.uk/ihd/elalme/elalme_frames.html .
 ・ LAOS = Williamson, Keith. A Linguistic Atlas of Older Scots, Phase 1: 1380--1500 (LAOS). 2007. Available online at http://www.lel.ed.ac.uk/ihd/laos1/laos1.html .
 ・ MEC = McSparran, Frances, ed. Middle English Compendium. Ann Arbor: U of Michigan P, 2006. Available online at http://quod.lib.umich.edu/m/mec/ .
 ・ MED = Kurath, Hans, Sherman M. Kuhn, John Reidy, and Robert E. Lewis. Middle English Dictionary. Ann Arbor: U of Michigan P, 1952--2001. Available online at http://quod.lib.umich.edu/m/med/ .
 ・ MEG-C = Stenroos, Merja, Martti Mákinen, Simon Horobin, and Jeremy Smith. The Middle English Grammar Corpus (MEG-C). Version 2011.2. Available online at https://www.uis.no/research/history-languages-and-literature/the-mest-programme/the-middle-english-grammar-corpus-meg-c/ .
 ・ OED = Simpson, John, ed. The Oxford English Dictionary. 3rd ed. Oxford UP, 2000--. Available online at http://www.oed.com/.
 ・ TOE = Edmonds, Flora, Christian Kay, Jane Roberts, and Irené Wotherspoon. Thesaurus of Old English. U of Glasgow, 2005. Available online at https://oldenglishthesaurus.arts.gla.ac.uk/ .
 ・ VARIENG = Nevalainen, Terttu, Irma Taavitsainen, and Sirpa Leppänen. The Research Unit for Variation, Contacts and Change in English (VARIENG). Department of English, U of Helsinki. Available online at http://www.helsinki.fi/varieng/index.html .



 ・ Smith, Jeremy J. "Periods: Middle English." Chapter 3 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 32--48.

Referrer (Inside): [2020-06-25-1]

[ | 固定リンク | 印刷用ページ ]

2019-12-01 Sun

#3870. 中英語の北部方言における wh- ならぬ q- の綴字 [spelling][me_dialect][labiovelar][lalme][laeme][map]

 中英語方言学ではよく知られているが,イングランドの北部や東部の方言では,疑問詞に典型的に現われる軟口蓋唇音 (labiovelar) が,一般的な wh- などの綴字ではなく,quh-, qvh, qwh, qh などの綴字で現われることが多い.たとえば what に対応する綴字をいくつか挙げてみると,qwhat, qwat, quat, quad, qhat のごとくである.これは問題の子音の調音が北部系方言と南部系方言の間で異なっていたことを示唆するが,具体的にどのような違いだったのかについては議論がある.(なお,北部系方言においては wh- などの綴字も普通に使われており,それと平行して q- もよく使われていたということである.)
 後期中英語における q- の地理的な分布は,実にきれいである.eLALME の Item 44 として取り上げられている,"WH-: q-, all spellings." と題された Dot Map を以下に再掲しよう.

eLALME Dot Map for AT

 少しさかのぼって初期近代英語においても,LAEME の Map 28285405 の Dot Map を見るとわかるように,数こそ少ないが,やはり北部と東部に分布している.
 当時,イングランド北部と地続きのスコットランドでも quh- などの綴字が一般的に用いられていた.しかし,16世紀以降になると,イングランドの標準的綴字の影響により,スコットランド英語でも quh- の立場は弱まっていった.そのくだりについては明日の記事で.

Referrer (Inside): [2019-12-02-1]

[ | 固定リンク | 印刷用ページ ]

2019-06-16 Sun

#3702. 中英語の3人称複数対格代名詞 es はオランダ語からの借用か? (2) [personal_pronoun][laeme][lalme][me_dialect][clitic][map]

 昨日の記事 ([2019-06-15-1]) に引き続き,中英語の them の代わりに用いられる es という人称代名詞形態について.Bennett and Smithers の注を引用して,およそ "SE or EMidl" に使用が偏っていると述べたが,LAEMEeLALME を用いて,初期・後期中英語における状況を確認しておこう.
LAEME では Map No. 00064420 として "THEM dir obj: 's' forms (sometimes cliticised), e.g. as, es, is, ys, hes, his." が挙げられており(下左図),eLALME では Item 8 として "THEM: 'his' type (incl as, es, is and enclitic -(e)s)." が挙げられている(下右図).ここでは縮小して掲げているので,詳しくはクリックして拡大を.

LAEME_and_eLALME_es_for_them_small.png


 全体として例が多いわけではないが,中英語期を通じて East Midland と Southeastern を中心として,部分的には内陸の West Midland にも散見されるといった分布を示していることが分かる.
 オランダ語との関連を議論するためには,当時のオランダ語話者集団のイングランドへの移民状況などの歴史社会言語学的な背景を調べる必要がある.一般的にいえば,「#3435. 英語史において低地諸語からの影響は過小評価されてきた」 ([2018-09-22-1]) でみたように,14世紀辺りには毛織物貿易の発展によりフランドルと東イングランドの関係は緊密になったことから,East Midland における es や類似形態の分布に関しては,オランダ語影響説を論じ始めることができるかもしれない.しかし,West Midland の散発的な事例については,別に考えなければならないだろう.

 ・ Bennett, J. A. W. and G. V. Smithers, eds. Early Middle English Verse and Prose. 2nd ed. Oxford: OUP, 1968.

[ | 固定リンク | 印刷用ページ ]

2018-04-22 Sun

#3282. The Parsed Corpus of Middle English Poetry (PCMEP) [corpus][me][hc][ppcme][laeme][link]

 中英語の韻文を集めた統語タグ付きコーパスをみつけた.The Parsed Corpus of Middle English Poetry より編纂者 Richard Zimmermann 氏の許可を得て利用できる.
 現段階で,同コーパスは41のテキスト,160432語からなっている(テキスト・リストはこちら).カバーする時代範囲は c. 1150--1420年,すなわち Helsinki Corpus の区分でいえば M1, M2, M3 に相当する時代である.統語タグは Penn Parsed Corpora of Historical English と同じ方法で付されており,Corpus Search 2 などのツールを用いて解析できる.
 Related Corpora のページの情報も有用.そこにある中英語に関する各種コーパスやデータベースへのリンクを,以下にも張りつけておきたい.

 ・ The Penn-Parsed Corpus of Middle English
 ・ The Corpus of Middle English Prose and Verse
 ・ The Innsbruck Corpus of Middle English Prose
 ・ A Parsed Linguistic Atlas of Early Middle English (P-LAEME)
 ・ Database of Middle English Romance

 アンテナ張りを怠っているうちに,いろいろなプロジェクトや成果物が現われていたのだなという感慨.

[ | 固定リンク | 印刷用ページ ]

2018-01-24 Wed

#3194. ノルマン征服後,英語が用いられなくなったことへの嘆き [norman_conquest][me_text][scribe][manuscript][alliteration][laeme][bible]

 Worcester Cathedral, Dean and Chapter Library F 174 という写本の Fol. 63r, lines 14--28 に,緩い頭韻を示す短いテキストが収められている.オリジナルは古英語で書かれていたようだが,このテキストの言語はすでに初期中英語的な特徴を示している.写本はおそらく13世紀の第2四半世紀 (C13a2) に成立した.このテキストの直前には Ælfic の GrammarGlossary が,直後には "Body and Soul" に関する頭韻詩が収められている.写本全体が "Worcester tremulous hand" として知られる写字生によって書かれている.
 テキストの内容は,標題に示唆したように,ノルマン征服後に教育などの公的な場面で英語が用いられなくなってしまったことへの嘆きである.征服前の古英語期には英語で教育が行なわれ,イングランドは文化的に反映していたのに,今や英語を話さないノルマン人が教師となってしまっている,嗚呼,嘆かわしいことよ,という趣旨だ.
 ポイントは,l. 15 と l. 18 の対比である.古英語期にはアングロサクソン人の教師が英語で人々を教育していたが (l. 15),ノルマン征服後の今では「他の人々」,すなわち大陸から渡ってきたノルマン人が(他の言語で)人々を教育していると,書き手は嘆いている.英語が公的な地位から振り落とされ,学問からも遠ざけられた様子がわかる.Dickins and Wilson 版 (2) のテキストを示そう.

[S]anctus Beda was iboren her on Breotene mid us, 
And he wisliche [bec] awende 
Þet þeo Englise leoden þurh weren ilerde. 
And he þeo c[not]ten unwreih, þe questiuns hoteþ, 
Þa derne diȝelnesse þe de[or]wurþe is.5
Ælfric abbod, þe we Alquin hoteþ, 
He was bocare, and þe [fif] bec wende, 
Genesis, Exodus, Vtronomius, Numerus, Leuiticus, 
Þu[rh] þeos weren ilærde ure leoden on Englisc. 
Þet weren þeos biscop[es þe] bodeden Cristendom,10
Wilfrid of Ripum, Iohan of Beoferlai, Cuþb[ert] of Dunholme, 
Oswald of Wireceastre, Egwin of Heoueshame, Æld[elm] of 
Malmesburi, Swiþþun, Æþelwold, Aidan, Biern of Wincæstre, 
[Pau]lin of Rofecæstre, S. Dunston, and S. Ælfeih of Cantoreburi. 
Þeos læ[rden] ure leodan on Englisc,15
Næs deorc heore liht, ac hit fæire glod. 
[Nu is] þeo leore forleten, and þet folc is forloren. 
Nu beoþ oþre leoden þeo læ[reþ] ure folc, 
And feole of þen lorþeines losiæþ and þet folc forþ mid. 
Nu sæiþ [ure] Drihten þus, Sicut aquila prouocat pullos suos ad volandum, et super eo[s uolitat.]20
This beoþ Godes word to worlde asende, 
Þet we sceolen fæier feþ [festen to Him.] 


 l. 20 のラテン語は,Deuteronomy 32:11 より.The King James Version から対応箇所を引用すると "As an eagle stirs up her nest, flutters over her young, spreads abroad her wings, takes them, bears them on her wings: / So the Lord alone did lead him, and there was no strange god with him." (ll. 11--12) とある.よそから来た「神」が疎ましい,という引っかけか.
 この写本については,LAEME よりこちらの情報も参照.

 ・ Dickins, Bruce and R. M. Wilson, eds. Early Middle English Texts. London: Bowes, 1951.

[ | 固定リンク | 印刷用ページ ]

2016-11-22 Tue

#2766. 初期中英語における1人称代名詞主格の異形態の分布 [laeme][eme][map][personal_pronoun][owl_and_nightingale][compensatory_lengthening]

 初期中英語のテキスト The Owl and the Nightingale を Cartlidge 版で読んでいる.868行にこのテキストからの唯一例として,1人称代名詞主格として ih の綴字が現われる.梟が歌のさえずり方について議論しているシーンで,Ne singe ih hom no foliot! として用いられている.この綴字はC写本のものであり,対するJ写本ではこの箇所に一般的な綴字 ich が用いられている.
 この事実から,初期中英語における1人称代名詞主格の異形態の分布に関心をもった.そこで,LAEME で分布をさっと調べてみることにした.特に気になっているのは語末の子音の有無,およびその子音の種類である.母音を無視して典型的な綴字タイプを取り出してみると,ich, ik, ih, i 辺りが挙がる.細かく見ればほかにもありうるが,当面,この4系列の綴字について出現分布を大雑把にみておきたい.
 LAEME のプログラムはよくできているので,私の行なったことといえば,該当する形態に関して地図を表示させることのみだ.以下に4枚の方言分布図をつなぎ合わせたものを掲載する.キャンプションが小さくて読みにくいが,位置関係は次の表に示した通り(画像をクリックすれば拡大版が現われる).

以下の合成地図での位置Map No.説明
左上00001302I: '(h)ich' and 'ych' incl iich and ichs
右上00001305I: 'ik', all k forms, incl icke.
左下00001312I: Ih, ih and yh
右下00001308I: I.

LAEME Map for Variants of I

 分布としては,左上の伝統的な ich 系が最も普通に南中部に広がっているのが分かる.右上の子音の落ちた i 系の綴字も普通であり,主として中部から北部に広がっている.左下の ih 系が今回注目した綴字を表わすが,西中部や南西部の,いわゆる最も保守的と言われる方言部分に散見される程度である.右下の ik 系は,東中部や北部に散在する程度で,一般的ではない.
 The Owl and the Nightingale の方言については様々な議論がなされてきたが,いずれの写本の方言も,南西中部のものという解釈が一般的である.その点からすると,C写本で ih が現われたということは,初期中英語の全体の方向性と一致するだろう.
 この問題に関心をもっているのは,伝統的な ich かいかなる経路を辿って後の I へと変化していったかという歴史的な問題に関係するからだ.この問題の周辺について,「#1198. icI」 ([2012-08-07-1]),「#1773. ich, everich, -lich から語尾の ch が消えた時期」 ([2014-03-05-1]) で簡単に話題にしたが,単に /ʧ/ と想定される語末子音が消失し,先行母音が代償延長 (compensatory_lengthening) したと考えておくだけでよいのか,疑念が残るのである.周辺的な方言に散見される ihik の語末子音は,/ʧ/ と通時的・共時的にどのような関係にあるのか.ih の子音は /ʧ/ の弱化した音で,消失への途中段階を表わすものではないか等々,いろいろな可能性が頭に浮かぶ.

 ・ Cartlidge, Neil, ed. The Owl and the Nightingale. Exeter: U of Exeter P, 2001.

[ | 固定リンク | 印刷用ページ ]

2016-06-07 Tue

#2598. 古ノルド語の影響力と伝播を探る研究において留意すべき中英語コーパスの抱える問題点 [old_norse][loan_word][me_dialect][representativeness][geography][lexical_diffusion][lexicology][methodology][laeme][corpus]

 「#1917. numb」 ([2014-07-27-1]) の記事で,中英語における本来語 nimen と古ノルド語借用語 taken の競合について調査した Rynell の研究に触れた.一般に古ノルド語借用語が中英語期中いかにして英語諸方言に浸透していったかを論じる際には,時期の観点と地域方言の観点から考慮される.当然のことながら,言語項の浸透にはある程度の時間がかかるので,初期よりも後期のほうが浸透の度合いは顕著となるだろう.また,古ノルド語の影響は the Danelaw と呼ばれるイングランド北部・東部において最も強烈であり,イングランド南部・西部へは,その衝撃がいくぶん弱まりながら伝播していったと考えるのが自然である.
 このように古ノルド語の言語的影響の強さについては,時期と地域方言の間に密接な相互関係があり,その分布は明確であるとされる.実際に「#818. イングランドに残る古ノルド語地名」 ([2011-07-24-1]) や「#1937. 連結形 -son による父称は古ノルド語由来」 ([2014-08-16-1]) に示した語の分布図は,きわめて明確な分布を示す.古英語本来語と古ノルド語借用語が競合するケースでは,一般に上記の分布が確認されることが多いようだ.Rynell (359) 曰く,"The Scn words so far dealt with have this in common that they prevail in the East Midlands, the North, and the North West Midlands, or in one or two of these districts, while their native synonyms hold the field in the South West Midlands and the South."
 しかし,事情は一見するほど単純ではないことにも留意する必要がある.Rynell (359--60) は上の文に続けて,次のように但し書きを付け加えている.

This is obviously not tantamount to saying that the native words are wanting in the former parts of the country and, inversely, that the Scn words are all absent from the latter. Instead, the native words are by no means infrequent in the East Midlands, the North, and the North West Midlands, or at least in parts of these districts, and not a few Scn loan-words turn up in the South West Midlands and the South, particularly near the East Midland border in Essex, once the southernmost country of the Danelaw. Moreover, some Scn words seem to have been more generally accepted down there at a surprisingly early stage, in some cases even at the expense of their native equivalents.


 加えて注意すべきは,現存する中英語テキストの分布が偏っている点である.言い方をかえれば,中英語コーパスが,時期と地域方言に関して代表性 (representativeness) を欠いているという問題だ.Rynell (358) によれば,

A survey of the entire material above collected, which suffers from the weakness that the texts from the North and the North (and Central) West Midlands are all comparatively late and those from the South West Midlands nearly all early, while the East Midland and Southern texts, particularly the former, represent various periods, shows that in a number of cases the Scn words do prevail in the East Midlands, the North, and the North (and sometimes Central) West Midlands and the South, exclusive of Chaucer's London . . . .


 古ノルド語の言語的影響は,中英語の早い時期に北部・東部方言で,遅い時期には南部・西部方言で観察される,ということは概論として述べることはできるものの,それが中英語コーパスの時期・方言の分布と見事に一致している事実を見逃してはならない.つまり,上記の概論的分布は,たまたま現存するテキストの時間・空間的な分布と平行しているために,ことによると不当に強調されているかもしれないのだ.見えやすいものがますます見えやすくなり,見えにくいものが隠れたままにされる構造的な問題が,ここにある.
 この問題は,古ノルド語の言語的影響にとどまらず,中英語期に北・東部から南・西部へ伝播した言語変化一般を観察する際にも関与する問題である (see 「#941. 中英語の言語変化はなぜ北から南へ伝播したのか」 ([2011-11-24-1]),「#1843. conservative radicalism」 ([2014-05-14-1])) .
 関連して,初期中英語コーパス A Linguistic Atlas of Early Middle English (LAEME) の代表性について「#1262. The LAEME Corpus の代表性 (1)」 ([2012-10-10-1]),「#1263. The LAEME Corpus の代表性 (2)」 ([2012-10-11-1]) も参照.

 ・ Rynell, Alarik. The Rivalry of Scandinavian and Native Synonyms in Middle English Especially taken and nimen. Lund: Håkan Ohlssons, 1948.

[ | 固定リンク | 印刷用ページ ]

2016-03-22 Tue

#2521. 初期中英語の113種類の "such" の異綴字 [spelling][eme][laeme][corpus][scribe][me_dialect][representativeness]

 昨日の記事「#2520. 後期中英語の134種類の "such" の異綴字」 ([2016-03-21-1]) に続き,今回は初期中英語コーパス LAEME で "such" の異綴字を取り出してみたい (see 「#1262. The LAEME Corpus の代表性 (1)」 ([2012-10-10-1])) .この語は,初期中英語では形容詞,副詞,接続詞として用いられ,形容詞の場合には屈折もするので,全体として様々な形態が現われる.アルファベット順に一覧しよう(かっこ内の数値は文証される頻度).

hsƿucche (1), schilke (1), schuc (3), scli (1), scuche (1), sec (1), secc (1), secche (1), sech (2), seche (1), selk (1), selke (1), shuc (1), shuch (1), siche (1), silc (1), silk (3), sli (1), slic (5), sliik (1), slik (3), slike (1), slk (1), sly (1), soch (5), soche (1), solchere (1), suc (2), sucche (2), such (51), suche (1), suecche (1), suech (1), sueche (1), sueh (1), sug (1), suic (1), suicchne (1), suich (12), suiche (3), suilc (14), suilce (1), suilch (1), suilk (1), suilke (2), sulch (1), sulche (1), sulk (1), sulke (1), suuche (1), suweche (1), suwilk (1), suyc (1), suych (4), suyche (1), svich (2), sƿche (1), sƿic (3), sƿicche (1), sƿich (1), sƿiche (14), sƿichne (1), sƿilc (30), sƿilch (22), sƿilche (1), sƿilcne (1), sƿilk (14), sƿillc (10), sƿillke (2), sƿi~lch (1), sƿlche (1), sƿuc (4), sƿucch (1), sƿucche (4), sƿucches (1), sƿuch (1), sƿuche (1), sƿuchne (1), sƿuilc (1), sƿulc (8), sƿulce (1), sƿulche (9), swch (1), swecche (1), swech (1), sweche (2), swich (5), swiche (1), swics (1), swil (1), swilc (5), swilce (1), swilk (2), swilke (2), swilkee (2), swlc (1), swlch (1), swlche (1), swlchere (1), swlcne (1), swuche (2), swuh (1), swulcere (1), swulch (3), swulchen (1), swulchere (1), swulke (1), swulne (1), zuich (10), zuiche (14), zuichen (3), zuych (10), zuyche (2)


 大文字と小文字の区別はつけずに,合計113種類の綴字が文証される.そのなかで頻度にしてトップ5の綴字を抜き出すと,such, sƿilc, sƿilch, sƿilk, sƿiche となり,この5種類だけで全用例369個のうち131個 (35.5%) を占める.
 昨日の後期中英語からの134種類と合わせ,重複綴字を減算すると,中英語全体として247種類の異綴字があることになる.使用した方言地図やコーパスも必ずしも網羅的ではないので,これは控えめな数値と思われる.例えば,MEDswich (adj.) に掲げられている異綴字を加えれば,種類はもう少し増えるだろう.

Referrer (Inside): [2018-08-16-1]

[ | 固定リンク | 印刷用ページ ]

2015-04-09 Thu

#2173. gospel から d が脱落した時期 [phonetics][consonant][etymology][loan_translation][folk_etymology][laeme]

 福音(書)を意味する gospel の語源はよく知られている.この語は,ラテン語 evangelium (これ自体はギリシア語 euaggélion "good news" に由来する)からの翻訳借用 (loan_translation) であり,古英語期に取り入れられた.古英語 godspel (good news) の第1要素は gōd (good) に等しく,本来は長母音をもっていたが,god (God) との類推から短母音も早くから行われていたようだ.これは,一種の民間語源 (folk_etymology) といってよいだろう.OED や Jespersen (126) もこの民間語源説を支持している.しかし,もう1つの説明として,「#2063. 長母音に対する制限強化の歴史」 ([2014-12-20-1]) で触れたように,この短母音は3子音前位置短化という音韻過程の結果と考えることもできるかもしれない.中尾 (142) は,この過程がすでに初期古英語から始まっていたと述べている.
 母音の量については上のような説明が与えられているが,古英語 godspel からの d の脱落についてはどうだろうか.中尾 (405) によれば,13世紀に,子音の後続する d の削除の過程がいくつかの語において観察されるという.例を挙げると,an (and), handeselle > hanselle (handsel), wenesday (Wednesday), godspell > gospel, andswerian > answerie (answer) である(cf. 「#1261. Wednesday の発音,綴字,語源」 ([2012-10-09-1])).
 d の脱落という問題に関心をもったのは,Wordorigins.orggospel に関する記事に,13世紀末に godspel から d が突如として消えたとの記述があったからである.突如としてということであれば,注目に値する.LAEME で簡単に調べてみた.
 結果は,当該語の種々の異形を含む合計213例のうち,18例において問題の破裂音 (多数の d に加えて t の例も1つあった)の脱落が見られた(脱落率は8.45%).これらの例は6テキストに集中しており,方言は North, South-West Midland, Southwestern とばらばらだが,時期的には13世紀前半からの1例を除いてすべて13世紀後半から14世紀前半について,つまり1300年を挟む時期である.ただし,1300年以降にも d を示す例のほうが多数派ではあるし,d に関して揺れを示すテキストもある.全体として,Wordorigins.org の上の記事で述べられているように13世紀末に d が脱落したという形跡はなかったし,脱落が突如として生じたというわけでもなさそうだ.おそらくは中尾の言及にもある通り,13世紀中に d の削除が始まったが,その削除は突如として起こったわけではなく,14世紀以降に向けて徐々に進行したと考えるのが妥当だろう.MEDgospel (n) も参照されたい.

 ・ Jespersen, Otto. A Modern English Grammar on Historical Principles. Part 1. Sounds and Spellings. 1954. London: Routledge, 2007.
 ・ 中尾 俊夫 『音韻史』 英語学大系第11巻,大修館書店,1985年.

Referrer (Inside): [2019-03-28-1] [2015-04-10-1]

[ | 固定リンク | 印刷用ページ ]

2015-03-09 Mon

#2142. 中英語における3単現および複現の語尾の方言分布 [map][laeme][lalme][me_dialect][me][3sp][3pp][verb][conjugation][nptr]

 標題の問いに手っ取り早く答えるには,次の表で事足りる(Görlach (68) による表の一部より).

 SouthMidlandNorth
Present Indicative3sg.-(e)þ-(e)þ-(e)s
pl.-(e)þ-(e)n-(e)s


 これを地図上に示すと「#790. 中英語方言における動詞屈折語尾の分布」 ([2011-06-26-1]) の通りとなるが,より詳しい分布を得たいときには LAEME (初期中英語)と eLALME (後期中英語)を参照するのが便利である (cf. 「#1622. eLALME」 ([2013-10-05-1])) .以下では,両アトラスより得られた地図の画像を貼り付けよう(クリックするとより大きく綺麗な画像が得られる).まずは,1150--1325年をカバーする LAEME より,3単現(左)と複現(右)の語尾の分布をそれぞれ示す.

LAEME: 3sp 's' and 'th' LAEME: 3pp 's', 'th', 'n', 'e', and zero
LAEME: 3sp 's' and 'th' LAEME: pp 's', 'th', 'n', 'e', and zero


 両地図で北部に集まる赤丸が -s を,南部に集まる青四角が -th を表す.右の複現の語尾では東中部その他に黒三角が散在しているが,これは -n 語尾を表す.次に,複数代名詞と接する動詞の現在形が -e またはゼロの語尾をとる "Northern Present Tense Rule" (NPTR; cf. 「#689. Northern Personal Pronoun Rule と英文法におけるケルト語の影響」 ([2011-03-17-1]),nptr) の分布図を見よう.

LAEME: NPTR pp 'e' and zero
LAEME: NPTR pp 'e' and zero


 では次に後期中英語の分布に移る.eLALME では,語尾の種類ごとに別々の地図を作成した.まずは3単現から.

eLAEME: 3sp 's' eLAEME: 3sp 'th'
eLALME: 3sp 's' eLALME: 3sp 'th'


 前時代の分布をよく受け継いでおり,左図の通り -s が北部に,右図の通り -th が中部以南に分布しているのがわかる.複現については,-s, -th, -n, -e (or zero) の4種類について各々の地図を見てみよう.

eLAEME: pp 's' eLAEME: 3pp 'th'
eLALME: pp 's' eLALME: pp 'th'
eLAEME: pp 'n' eLAEME: 3pp 'th'
eLALME: pp 'n' eLALME: pp 'e' or zero


 こちらも前時代の分布をよく受け継いでおり,北部で -s (左上図),中部以南で -th (右上図)が優勢だが,中部で -n (左下図)が前時代よりも著しく拡張していることが見て取れる.全体的に,初期中英語と後期中英語の分布間で量的な差は見られるが,質的には大きな変化はないといってよいだろう.  *

 ・ Görlach, Manfred. The Linguistic History of English. Basingstoke: Macmillan, 1997.

[ | 固定リンク | 印刷用ページ ]

2013-02-24 Sun

#1399. 初期中英語における between の異形態の分布 [laeme][corpus][preposition][me_dialect][methodology]

 「#1389. between の語源」 ([2013-02-14-1]),「#1393. between の歴史的異形態の豊富さ」([2013-02-18-1]),「#1394. between の異形態の分布の通時的変化」 ([2013-02-19-1]) に続いて,今回は LAEME を用いて通時的変化および方言別分布を調査した結果を報告する.
 Helsinki Corpus による通時的調査 ([2013-02-19-1]) の場合と同様に,多数の異形態をまとめるに当たって,語尾以外における母音の違いは無視し,第2音節以降の子音(と,もしあれば語尾の母音も)の種類と組み合わせに注目した.lexel に "between" を指定して取り出した例をもとに,241個のトークンを半世紀ごと,方言別に整理した(区分は[2012-10-10-1]の記事「#1262. The LAEME Corpus の代表性 (1)」で採用したものと同じ).原データはこちらを参照.以下,最初に年代別,次に方言別の集計結果を掲げる.

PERIODnnnnexxexnxtehnhetntxtxntxethsseynznSum
C12b181270000000000000028
C13a23419644091401010000085
C13b2032321341000102111164
C14a5132892200031000010064
Sum662172247941014321121211241

DIALECTnnnnexxexnxtehnhetntxtxntxethsseynznSum
N00192200001000000015
NEM140000000000000000014
NWM706000081400002000037
SEM1420950000030100000052
SWM3112675702001010101184
SW001630040000000010024
SE001400000000000010015
Sum662172247941014321121211241


 現代英語の between に連なる,n を含む最も普通のタイプが左3列に示されているが,bitweonen などの "nn" タイプは時代とともに "n" タイプや "ne" タイプに置換されてゆく様子がうかがえる.Mustanoja (369) は,"nn" タイプについて "The -en forms occur mainly in the more southern parts of the country" と記述しているが,実際には NEM や NWM にも現われている.つまり,"nn" タイプの分布は,方言の問題である以上に時代の問題である可能性がある.語尾の n の脱落がより北部で,かつ,より遅い時代に見られることは,予想できることだろう.
 n 系列には遠く及ばないが,bituixbitƿixen などの x 系列の使用がこの時期に稀でないことは,Helsinki Corpus の調査結果と符合している.x 系列は N, SEM, SWM, SW に分布しており,間に挟まれた NEM, NWM には文証されない.この分布は妙だが,全体として例が十分に多くないために,North Midlands の現存テキストに現われる機会がなかったということかもしれない.近代英語期にかけて成長する t を付加した xte タイプは,初期中英語では C13b SW に bitwixte などの形態でわずかに現われるにとどまっている.
 bituhenbituhe などの h 系列は,Helsinki Corpus によれば,古英語後期より一気に衰退したとのことだったが,LAEME によれば,初期中英語では C13a NWM に集中する形で生き残っていたようだ.しかし,その時までに衰退傾向は決定づけられていたと言えるだろう.
 今回の調査で感覚を得たが,(初期)中英語期に開始した,あるいは進行していると疑われる変化について調べるには,Helsinki Corpus で通時的変化を大づかみにした上で,LAEME を用いて,より細かい時代区分と方言の別を考慮して掘り下げてゆくのがよさそうだ.

Referrer (Inside): [2014-12-19-1] [2013-07-29-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-17 Mon

#1330. 初期中英語における eth, thorn, <th> の盛衰 [thorn][th][spelling][laeme][alphabet][graphemics]

 昨日の記事[2012-12-16-1]で,Helsinki Corpus を用いて「#1329. 英語史における eth, thorn, <th> の盛衰」を概観した.グラフによると,<þ> が <ð> を押しのけて著しく成長するのは,M1 (1150--1250) から M2 (1250--1350) にかけての時期であり,この時期について詳細に調査するには LAEME がうってつけである.方言による差異なども確認できるだろうと考え,早速,大雑把に調査してみた.大雑把というのは,例えば,1つの語形のなかに <þ> が2回以上現われたとしても1回と数えるなど,自動処理上の都合があるためである.
 以下は,時代別(半世紀単位)および方言別の分布を示すグラフである(数値データは,HTMLソースを参照).なお,方言付与については,[2012-03-19-1]の記事「#1057. LAEME Index of Sources の検索ツール Ver. 2」で触れたように,仮のものである.COUNTY と DIALECT の仮の対応表はこちらを参照.

The Ebb and Flow of 'eth', 'thorn', and <th> by EME Subperiod
The Ebb and Flow of 'eth', 'thorn', and <th> by EME Dialect


 LAEME による時代別の調査結果は,昨日の Helsinki Corpus による調査結果と符合する.C13a と C13b の間に <ð> の減小と <þ> の増加が著しく観察される.以降,数十年間は <ð> 独走の時代といってよいだろう.一方,方言別にみると概ね <þ> が支配的だが,NWM を除く中部においては <ð> もある程度は健闘していることがわかる.方言別の分布は,より詳細な調査が必要かもしれない.

Referrer (Inside): [2017-10-30-1] [2013-03-25-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-11 Tue

#1324. two の /w/ はいつ落ちたか [numeral][spelling][pronunciation][laeme][lalme]

 「#184. two の /w/ が発音されないのはなぜか」 ([2009-10-28-1]) で,two の発音に含まれる半母音 /w/ が,いつどのように脱落したかについて簡単に触れた.15〜16世紀に脱落したとされるが,綴字で確認する限りでは,方言によってはもっと早く中英語期に脱落していたことを示す証拠がある.
 まず,後期中英語について.LALME の Dot Map 548--57 に two の異綴りの方言分布が示されている.主要な異綴りについて概説すれば,twa タイプ (Dot Map 548) は北部方言に限定されているのに対して,最も普通の two タイプ (Dot Map 550) は北部を含むイングランド全域にまんべんなく例証される.問題の <w> の綴字を含まない to(o) タイプ (Dot Map 557) は,広く南部に見られ,とりわけ East Anglia や South-West Midland に濃く分布している.このように,後期中英語では,すでに w の落ちた形態がイングランド南半で珍しくなかったことがわかる.
 では,初期中英語ではどうだったろうか.LAEME で調べてみた.TO あるいは TO- の綴字をもつ "two" を取り出し,方言別,時代別に整理すると以下のようになった.

 C12bC13aC13bC14a
N   1
NEM   1
NWM    
SEM  286
SWM 11 
SW  420
SE    


 ちょうど LALME の Dot Map 557 で to(o) が比較的濃い分布を示していた地域に,TO(-) が集まっている.初期中英語から後期中英語への分布の連続性がよく表われている例といえるだろう.<w> をもたない綴字は,時代としてはおよそ13世紀後半以降に,南部諸方言を中心に始まったと考えてよさそうだ.対応する音声における /w/ の脱落も同様に考えるのが妥当だろう.
 中英語におけるこの語の数々の異綴りについては,MEDを参照.

 ・ McIntosh, Angus, M. L. Samuels, and M. Benskin. A Linguistic Atlas of Late Mediaeval English. 4 vols. Aberdeen: Aberdeen UP, 1986.

Referrer (Inside): [2019-04-05-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-07 Fri

#1320. LAEME で見る most の異形態の分布 [vowel][superlative][map][laeme][me_dialect][comparison]

 [2012-11-24-1]の記事「#1307. mostmest」で取り上げた中英語の最上級 most の異形態について,初期中英語における母音別の分布を LAEME を用いて調査した.地図上に位置づけられるテキストから取り出した most の異形態は全部で249例あり,これを語幹母音に従って分別したものを HelMapperUK に流し込んだ.読み込ませたデータファイルはこちら.マークの大きさは頻度に比例する.

Variants of

 <mast> など <a> を示すものは主として北部に分布し,<mest>, <meast>, など前舌母音を示すものは中西部および南東部に分布する.後に優勢となる <most> など後舌母音を示すものは,この時代にはいまだ East Anglia に見られるのみである.

Referrer (Inside): [2015-09-29-1] [2014-04-13-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-12 Fri

#1264. 歴史言語学の限界と,その克服への道 [methodology][uniformitarian_principle][writing][history][sociolinguistics][laeme][corpus][representativeness]

 [2012-10-10-1], [2012-10-11-1]の記事で,The LAEME Corpus の代表性について取りあげた.私の評価としては,カバーしている方言と時代という観点からみて代表性は著しく損なわれているものの,現在利用できる初期中英語コーパスとしては体系的に編まれた最大規模のコーパスであり,十分な注意を払ったうえで言語研究に活用すべきツールである.The LAEME Corpus の改善すべき点はもちろんあるし,他のコーパスによる補完も目指されるべきだとは考えるが,言語を歴史的に研究する際に必然的につきまとう限界も考慮した上で評価しないとアンフェアである.
 歴史言語学は,言語の過去の状態を観察し,復元するという課題を自らに課している.過去を扱う作業には,現在を扱う作業には見られないある限界がつきまとう.Milroy (45) の指摘する歴史言語学研究の2つの限界 (limitations of historical inquiry) を示そう.

[P]ast states of language are attested in writing, rather than in speech . . . [W]ritten language tends to be message-oriented and is deprived of the social and situational contexts in which speech events occur.

[H]istorical data have been accidentally preserved and are therefore not equally representative of all aspects of the language of past states . . . . Some styles and varieties may therefore be over-represented in the data, while others are under-represented . . . . For some periods of time there may be a great deal of surviving information: for other periods there may be very little or none at all.


 乗り越えがたい限界ではあるが,克服の努力あるいは克服にできるだけ近づく努力は,いろいろな方法でなされている.そのなかでも,Smith はその著書の随所で (1) 書き言葉と話し言葉の関係の理解を深めること、(2) 言語の内面史と外面史の対応に注目すること,(3) 現在の知見の過去への応用の可能性を探ること,の重要性を指摘している.
 とりわけ (3) については,近年,社会言語学による言語変化の理解が急速に進み,その原理の過去への応用が盛んになされるようになってきた.Labov の論文の標題 "On the Use of the Present to Explain the Past" が,この方法論を直截に物語っている.
 これと関連する方法論である uniformitarian_principle (斉一論の原則)を前面に押し出した歴史英語の論文集が,Denison et al. 編集のもとに,今年出版されたことも付け加えておこう.

 ・ Milroy, James. Linguistic Variation and Change: On the Historical Sociolinguistics of English. Oxford: Blackwell, 1992.
 ・ Smith, Jeremy J. An Historical Study of English: Function, Form and Change. London: Routledge, 1996.
 ・ Labov, William. "On the Use of the Present to Explain the Past." Readings in Historical Phonology: Chapters in the Theory of Sound Change. Ed. Philip Baldi and Ronald N. Werth. Philadelphia: U of Pennsylvania P, 1978. 275--312.
 ・ Denison, David, Ricardo Bermúdez-Otero, Chris McCully, and Emma Moore, eds. Analysing Older English. Cambridge: CUP, 2012.

Referrer (Inside): [2018-07-21-1] [2015-02-10-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-11 Thu

#1263. The LAEME Corpus の代表性 (2) [laeme][corpus][representativeness]

 昨日の記事[2012-10-10-1]に引き続き,The LAEME Corpus の代表性の話題.今回は,語数,より正確には同コーパスで文法情報が付与されている語 (tagged words) の数により,方言・時代ごとの代表性を考える.まず,表を掲げよう.

Table 2: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Tagged Words

 C12bC13aC13bC14aTotal
N0 (0.000%)362 (0.062)0 (0.000)52,883 (9.083)53,245 (9.146)
NEM11,342 (1.948)0 (0.000)3,980 (0.684)2,344 (0.403)17,666 (3.034)
NWM0 (0.000)58,332 (10.019)16,173 (2.778)0 (0.000)74,505 (12.797)
SEM40,082 (6.885)26,722 (4.590)21,921 (3.765)31,408 (5.395)120,133 (20.634)
SWM1,030 (0.177)90,400 (15.527)106,981 (18.375)108 (0.019)198,519 (34.098)
SW1,168 (0.201)2,610 (0.448)46,032 (7.907)30,517 (5.242)80,327 (13.797)
SE0 (0.000)4,043 (0.694)3,199 (0.549)30,561 (5.249)37,803 (6.493)
Total53,622 (9.210)182,469 (31.341)198,286 (34.058)147,821 (25.390)582,198 (100.000)


 直感的に理解できるように,この分布をモザイクプロットで表現したのが下図である(印刷用にはこちらのPDFをどうぞ).

Dialect/Period Distribution of Tagged Words

 分布の偏りは一目瞭然である.しかし,方言・時代の各スロットを構成するテキストの種類などをより細かく調べると,さらに重要な問題が見えてくる.いくつかのスロットでは,総語数の大部分がほんの一握りのテキストによって占められているのである.例えば,N C14a というスロットは,全体のなかで4番目に収録語数の多いスロットだが,その語数の95.61%は Cursor Mundi という1作品(正確には,それを表わす3種類の異なる書写言語を反映した 3 scribal texts [##296, 297, 298])で占められている.同様に,NEM C13b では #182 のみで80.93%の語数がカバーされている.NWM C13b では #272 のみで93.11%だ.SEM C12b では異なる2人の写字生の手による Trinity Homilies (##1200, 1300) が総語数の84.06%を占め,SEM C13a でも異なる2人の写字生の手による Vices and Virtues (##64, 65) が総語数の93.83%を占める.SW C13b の #1600 は,それだけで69.71%を占める,等々.
 これらの例が示唆することは,問題の方言・時代スロットは必ずしもその方言・時代の言語変種を代表しているわけではなく,むしろ特定のテキストに現われる言語変種を代表しているということかもしれなということだ.The LAEME Corpus の使用の際には,なお一層の注意が必要である.

[ | 固定リンク | 印刷用ページ ]

2012-10-10 Wed

#1262. The LAEME Corpus の代表性 (1) [laeme][corpus][representativeness]

 私の関心の中心は初期中英語期の形態論である.この時代に関心をもつ者にとっては,LAEME (編者によれば,発音は /ˈleɪmiː/ )とそこから派生した The LAEME Corpus (Text Database) の登場は,同時代に関する研究環境を著しく改善し得るツールとして,最大限に歓迎される.LAEME については,本ブログでも laeme の記事で採りあげてきたし,とりわけツールとしての可能性を探り,拡張すべく「#846. HelMapperUK --- hellog 仕様の英国地図作成 CGI」 ([2011-08-21-1]) ,「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) ,「#942. LAEME Index of Sources の検索ツール」 ([2011-11-25-1]) ,「#1057. LAEME Index of Sources の検索ツール Ver. 2」 ([2012-03-19-1]) を公表してきた.
 大工にとって道具の手入れが大事なように,研究者にとってツールの研究は大事である.具体的に The LAEME Corpus を使っているうちに,全体として俯瞰するとどのようなコーパスなのか,知りたくなってきた.[2010-11-16-1]の記事「#568. コーパスの定義と英語コーパス入門」で示した通り,コーパスの主たる特徴の1つに representativeness (代表性)がある.これは,コーパス評価のための指標の1つでもある.歴史コーパスにおける代表性の確保の難しさについては,「#531. OED の引用データをコーパスとして使えるか」 ([2010-10-10-1]) や「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) でも触れてきたが,この点では The LAEME Corpus も苦戦を強いられている.カバーしている方言分布については「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) で採りあげたが,今回は方言区分に加えて時代区分も含めながら The LAEME Corpus のツール分析を試みたい.
 まずは,収録されているテキストの数を考える.当該コーパスは "scribal text" という単位でテキストが収録されているが,これを方言と時代にしたがって分別すると,散らばり具合がわかる.なお,方言区分と時代区分はそれ自体が方法論上の大問題なのだが,以下では,恣意的な区分(とはいってもある程度の根拠はあるが)として,方言は7つへ,時代は4つへと分けている.すなわち,方言は N (Northern), NEM (North-East Midland), NWM (North-West Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) へ,時代は C12b (12世紀後半),C13a, C13b, C14a へ.中英語の方言区分については「#130. 中英語の方言区分」 ([2009-09-04-1]) も参照.

Table 1: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Texts

 C12bC13aC13bC14aTotal
N0 (0.00%)1 (0.86)0 (0.00)7 (6.03)8 (6.90)
NEM1 (0.86)0 (0.00)5 (4.31)2 (1.72)8 (6.90)
NWM0 (0.00)9 (7.76)5 (4.31)0 (0.00)14 (12.07)
SEM4 (3.45)7 (6.03)14 (12.07)7 (6.03)32 (27.59)
SWM2 (1.72)13 (11.21)17 (14.66)1 (0.86)33 (28.45)
SW3 (2.59)5 (4.31)7 (6.03)2 (1.72)17 (14.66)
SE0 (0.00)2 (1.72)1 (0.86)1 (0.86)4 (3.45)
Total10 (8.62)37 (31.90)49 (42.24)20 (17.24)116 (100.00)


 上の表を作成するにあたり対象としたのは,The LAEME Corpus に収録されている167個の scribal texts のうち,半世紀という単位で時代の区分がなされている116個のみである.
 表を一瞥すればわかるように,テキスト分布の偏りは大きい.方言でいえば SEM と SWM は層が異常に厚く,全体の3分の2ほどをカバーしているが,一方で N, NEM, SE は層が薄い.時代でみると,C13a と C13b だけで7割を越え,C12b と C14a は層が薄い.方言・時代の組み合わせでは,6スロットまでが "0" を示す.歴史コーパス編纂における representative の確保は絶望的とすら思えてくる.少なくとも,The LAEME Corpus を用いて得られる方言や時代についてのデータやそこから得られる結論は,よくよく注意して解釈しなければならないということがいえるだろう.
 この表は scribal text の数をもとに作成されているが,各 scribal text の長さはまちまちである.そこで,テキスト数ではなく,語数による分布の具合も調べてみる必要がある.語数に基づく代表性の議論は,明日の記事で.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow