hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 次ページ / page 1 (2)

laeme - hellog〜英語史ブログ

最終更新時間: 2019-05-20 08:12

2018-04-22 Sun

#3282. The Parsed Corpus of Middle English Poetry (PCMEP) [corpus][me][hc][ppcme][laeme][link]

 中英語の韻文を集めた統語タグ付きコーパスをみつけた.The Parsed Corpus of Middle English Poetry より編纂者 Richard Zimmermann 氏の許可を得て利用できる.
 現段階で,同コーパスは41のテキスト,160432語からなっている(テキスト・リストはこちら).カバーする時代範囲は c. 1150--1420年,すなわち Helsinki Corpus の区分でいえば M1, M2, M3 に相当する時代である.統語タグは Penn Parsed Corpora of Historical English と同じ方法で付されており,Corpus Search 2 などのツールを用いて解析できる.
 Related Corpora のページの情報も有用で,そこにある中英語に関する各種コーパスやデータベースへのリンクを,以下にも張りつけておきたい.

 ・ The Penn-Parsed Corpus of Middle English
 ・ The Corpus of Middle English Prose and Verse
 ・ The Innsbruck Corpus of Middle English Prose
 ・ A Parsed Linguistic Atlas of Early Middle English (P-LAEME)
 ・ Database of Middle English Romance

 アンテナ張りを怠っているうちに,いろいろなプロジェクトや成果物が現われていたのだなという感慨.

[ | 固定リンク | 印刷用ページ ]

2018-01-24 Wed

#3194. ノルマン征服後,英語が用いられなくなったことへの嘆き [norman_conquest][me_text][scribe][manuscript][alliteration][laeme][bible]

 Worcester Cathedral, Dean and Chapter Library F 174 という写本の Fol. 63r, lines 14--28 に,緩い頭韻を示す短いテキストが収められている.オリジナルは古英語で書かれていたようだが,このテキストの言語はすでに初期中英語的な特徴を示している.写本はおそらく13世紀の第2四半世紀 (C13a2) に成立した.このテキストの直前には Ælfic の GrammarGlossary が,直後には "Body and Soul" に関する頭韻詩が収められている.写本全体が "Worcester tremulous hand" として知られる写字生によって書かれている.
 テキストの内容は,標題に示唆したように,ノルマン征服後に教育などの公的な場面で英語が用いられなくなってしまったことへの嘆きである.征服前の古英語期には英語で教育が行なわれ,イングランドは文化的に反映していたのに,今や英語を話さないノルマン人が教師となってしまっている,嗚呼,嘆かわしいことよ,という趣旨だ.
 ポイントは,l. 15 と l. 18 の対比である.古英語期にはアングロサクソン人の教師が英語で人々を教育していたが (l. 15),ノルマン征服後の今では「他の人々」,すなわち大陸から渡ってきたノルマン人が(他の言語で)人々を教育していると,書き手は嘆いている.英語が公的な地位から振り落とされ,学問からも遠ざけられた様子がわかる.Dickins and Wilson 版 (2) のテキストを示そう.

[S]anctus Beda was iboren her on Breotene mid us, 
And he wisliche [bec] awende 
Þet þeo Englise leoden þurh weren ilerde. 
And he þeo c[not]ten unwreih, þe questiuns hoteþ, 
Þa derne diȝelnesse þe de[or]wurþe is.5
Ælfric abbod, þe we Alquin hoteþ, 
He was bocare, and þe [fif] bec wende, 
Genesis, Exodus, Vtronomius, Numerus, Leuiticus, 
Þu[rh] þeos weren ilærde ure leoden on Englisc. 
Þet weren þeos biscop[es þe] bodeden Cristendom,10
Wilfrid of Ripum, Iohan of Beoferlai, Cuþb[ert] of Dunholme, 
Oswald of Wireceastre, Egwin of Heoueshame, Æld[elm] of 
Malmesburi, Swiþþun, Æþelwold, Aidan, Biern of Wincæstre, 
[Pau]lin of Rofecæstre, S. Dunston, and S. Ælfeih of Cantoreburi. 
Þeos læ[rden] ure leodan on Englisc,15
Næs deorc heore liht, ac hit fæire glod. 
[Nu is] þeo leore forleten, and þet folc is forloren. 
Nu beoþ oþre leoden þeo læ[reþ] ure folc, 
And feole of þen lorþeines losiæþ and þet folc forþ mid. 
Nu sæiþ [ure] Drihten þus, Sicut aquila prouocat pullos suos ad volandum, et super eo[s uolitat.]20
This beoþ Godes word to worlde asende, 
Þet we sceolen fæier feþ [festen to Him.] 


 l. 20 のラテン語は,Deuteronomy 32:11 より.The King James Version から対応箇所を引用すると "As an eagle stirs up her nest, flutters over her young, spreads abroad her wings, takes them, bears them on her wings: / So the Lord alone did lead him, and there was no strange god with him." (ll. 11--12) とある.よそから来た「神」が疎ましい,という引っかけか.
 この写本については,LAEME よりこちらの情報も参照.

 ・ Dickins, Bruce and R. M. Wilson, eds. Early Middle English Texts. London: Bowes, 1951.

[ | 固定リンク | 印刷用ページ ]

2016-11-22 Tue

#2766. 初期中英語における1人称代名詞主格の異形態の分布 [laeme][eme][map][personal_pronoun][owl_and_nightingale][compensatory_lengthening]

 初期中英語のテキスト The Owl and the Nightingale を Cartlidge 版で読んでいる.868行にこのテキストからの唯一例として,1人称代名詞主格として ih の綴字が現われる.梟が歌のさえずり方について議論しているシーンで,Ne singe ih hom no foliot! として用いられている.この綴字はC写本のものであり,対するJ写本ではこの箇所に一般的な綴字 ich が用いられている.
 この事実から,初期中英語における1人称代名詞主格の異形態の分布に関心をもった.そこで,LAEME で分布をさっと調べてみることにした.特に気になっているのは語末の子音の有無,およびその子音の種類である.母音を無視して典型的な綴字タイプを取り出してみると,ich, ik, ih, i 辺りが挙がる.細かく見ればほかにもありうるが,当面,この4系列の綴字について出現分布を大雑把にみておきたい.
 LAEME のプログラムはよくできているので,私の行なったことといえば,該当する形態に関して地図を表示させることのみだ.以下に4枚の方言分布図をつなぎ合わせたものを掲載する.キャンプションが小さくて読みにくいが,位置関係は次の表に示した通り(画像をクリックすれば拡大版が現われる).

以下の合成地図での位置Map No.説明
左上00001302I: '(h)ich' and 'ych' incl iich and ichs
右上00001305I: 'ik', all k forms, incl icke.
左下00001312I: Ih, ih and yh
右下00001308I: I.

LAEME Map for Variants of I

 分布としては,左上の伝統的な ich 系が最も普通に南中部に広がっているのが分かる.右上の子音の落ちた i 系の綴字も普通であり,主として中部から北部に広がっている.左下の ih 系が今回注目した綴字を表わすが,西中部や南西部の,いわゆる最も保守的と言われる方言部分に散見される程度である.右下の ik 系は,東中部や北部に散在する程度で,一般的ではない.
 The Owl and the Nightingale の方言については様々な議論がなされてきたが,いずれの写本の方言も,南西中部のものという解釈が一般的である.その点からすると,C写本で ih が現われたということは,初期中英語の全体の方向性と一致するだろう.
 この問題に関心をもっているのは,伝統的な ich かいかなる経路を辿って後の I へと変化していったかという歴史的な問題に関係するからだ.この問題の周辺について,「#1198. icI」 ([2012-08-07-1]),「#1773. ich, everich, -lich から語尾の ch が消えた時期」 ([2014-03-05-1]) で簡単に話題にしたが,単に /ʧ/ と想定される語末子音が消失し,先行母音が代償延長 (compensatory_lengthening) したと考えておくだけでよいのか,疑念が残るのである.周辺的な方言に散見される ihik の語末子音は,/ʧ/ と通時的・共時的にどのような関係にあるのか.ih の子音は /ʧ/ の弱化した音で,消失への途中段階を表わすものではないか等々,いろいろな可能性が頭に浮かぶ.

 ・ Cartlidge, Neil, ed. The Owl and the Nightingale. Exeter: U of Exeter P, 2001.

[ | 固定リンク | 印刷用ページ ]

2016-06-07 Tue

#2598. 古ノルド語の影響力と伝播を探る研究において留意すべき中英語コーパスの抱える問題点 [old_norse][loan_word][me_dialect][representativeness][geography][lexical_diffusion][lexicology][methodology][laeme][corpus]

 「#1917. numb」 ([2014-07-27-1]) の記事で,中英語における本来語 nimen と古ノルド語借用語 taken の競合について調査した Rynell の研究に触れた.一般に古ノルド語借用語が中英語期中いかにして英語諸方言に浸透していったかを論じる際には,時期の観点と地域方言の観点から考慮される.当然のことながら,言語項の浸透にはある程度の時間がかかるので,初期よりも後期のほうが浸透の度合いは顕著となるだろう.また,古ノルド語の影響は the Danelaw と呼ばれるイングランド北部・東部において最も強烈であり,イングランド南部・西部へは,その衝撃がいくぶん弱まりながら伝播していったと考えるのが自然である.
 このように古ノルド語の言語的影響の強さについては,時期と地域方言の間に密接な相互関係があり,その分布は明確であるとされる.実際に「#818. イングランドに残る古ノルド語地名」 ([2011-07-24-1]) や「#1937. 連結形 -son による父称は古ノルド語由来」 ([2014-08-16-1]) に示した語の分布図は,きわめて明確な分布を示す.古英語本来語と古ノルド語借用語が競合するケースでは,一般に上記の分布が確認されることが多いようだ.Rynell (359) 曰く,"The Scn words so far dealt with have this in common that they prevail in the East Midlands, the North, and the North West Midlands, or in one or two of these districts, while their native synonyms hold the field in the South West Midlands and the South."
 しかし,事情は一見するほど単純ではないことにも留意する必要がある.Rynell (359--60) は上の文に続けて,次のように但し書きを付け加えている.

This is obviously not tantamount to saying that the native words are wanting in the former parts of the country and, inversely, that the Scn words are all absent from the latter. Instead, the native words are by no means infrequent in the East Midlands, the North, and the North West Midlands, or at least in parts of these districts, and not a few Scn loan-words turn up in the South West Midlands and the South, particularly near the East Midland border in Essex, once the southernmost country of the Danelaw. Moreover, some Scn words seem to have been more generally accepted down there at a surprisingly early stage, in some cases even at the expense of their native equivalents.


 加えて注意すべきは,現存する中英語テキストの分布が偏っている点である.言い方をかえれば,中英語コーパスが,時期と地域方言に関して代表性 (representativeness) を欠いているという問題だ.Rynell (358) によれば,

A survey of the entire material above collected, which suffers from the weakness that the texts from the North and the North (and Central) West Midlands are all comparatively late and those from the South West Midlands nearly all early, while the East Midland and Southern texts, particularly the former, represent various periods, shows that in a number of cases the Scn words do prevail in the East Midlands, the North, and the North (and sometimes Central) West Midlands and the South, exclusive of Chaucer's London . . . .


 古ノルド語の言語的影響は,中英語の早い時期に北部・東部方言で,遅い時期には南部・西部方言で観察される,ということは概論として述べることはできるものの,それが中英語コーパスの時期・方言の分布と見事に一致している事実を見逃してはならない.つまり,上記の概論的分布は,たまたま現存するテキストの時間・空間的な分布と平行しているために,ことによると不当に強調されているかもしれないのだ.見えやすいものがますます見えやすくなり,見えにくいものが隠れたままにされる構造的な問題が,ここにある.
 この問題は,古ノルド語の言語的影響にとどまらず,中英語期に北・東部から南・西部へ伝播した言語変化一般を観察する際にも関与する問題である (see 「#941. 中英語の言語変化はなぜ北から南へ伝播したのか」 ([2011-11-24-1]),「#1843. conservative radicalism」 ([2014-05-14-1])) .
 関連して,初期中英語コーパス A Linguistic Atlas of Early Middle English (LAEME) の代表性について「#1262. The LAEME Corpus の代表性 (1)」 ([2012-10-10-1]),「#1263. The LAEME Corpus の代表性 (2)」 ([2012-10-11-1]) も参照.

 ・ Rynell, Alarik. The Rivalry of Scandinavian and Native Synonyms in Middle English Especially taken and nimen. Lund: Håkan Ohlssons, 1948.

[ | 固定リンク | 印刷用ページ ]

2016-03-22 Tue

#2521. 初期中英語の113種類の "such" の異綴字 [spelling][eme][laeme][corpus][scribe][me_dialect][representativeness]

 昨日の記事「#2520. 後期中英語の134種類の "such" の異綴字」 ([2016-03-21-1]) に続き,今回は初期中英語コーパス LAEME で "such" の異綴字を取り出してみたい (see 「#1262. The LAEME Corpus の代表性 (1)」 ([2012-10-10-1])) .この語は,初期中英語では形容詞,副詞,接続詞として用いられ,形容詞の場合には屈折もするので,全体として様々な形態が現われる.アルファベット順に一覧しよう(かっこ内の数値は文証される頻度).

hsƿucche (1), schilke (1), schuc (3), scli (1), scuche (1), sec (1), secc (1), secche (1), sech (2), seche (1), selk (1), selke (1), shuc (1), shuch (1), siche (1), silc (1), silk (3), sli (1), slic (5), sliik (1), slik (3), slike (1), slk (1), sly (1), soch (5), soche (1), solchere (1), suc (2), sucche (2), such (51), suche (1), suecche (1), suech (1), sueche (1), sueh (1), sug (1), suic (1), suicchne (1), suich (12), suiche (3), suilc (14), suilce (1), suilch (1), suilk (1), suilke (2), sulch (1), sulche (1), sulk (1), sulke (1), suuche (1), suweche (1), suwilk (1), suyc (1), suych (4), suyche (1), svich (2), sƿche (1), sƿic (3), sƿicche (1), sƿich (1), sƿiche (14), sƿichne (1), sƿilc (30), sƿilch (22), sƿilche (1), sƿilcne (1), sƿilk (14), sƿillc (10), sƿillke (2), sƿi~lch (1), sƿlche (1), sƿuc (4), sƿucch (1), sƿucche (4), sƿucches (1), sƿuch (1), sƿuche (1), sƿuchne (1), sƿuilc (1), sƿulc (8), sƿulce (1), sƿulche (9), swch (1), swecche (1), swech (1), sweche (2), swich (5), swiche (1), swics (1), swil (1), swilc (5), swilce (1), swilk (2), swilke (2), swilkee (2), swlc (1), swlch (1), swlche (1), swlchere (1), swlcne (1), swuche (2), swuh (1), swulcere (1), swulch (3), swulchen (1), swulchere (1), swulke (1), swulne (1), zuich (10), zuiche (14), zuichen (3), zuych (10), zuyche (2)


 大文字と小文字の区別はつけずに,合計113種類の綴字が文証される.そのなかで頻度にしてトップ5の綴字を抜き出すと,such, sƿilc, sƿilch, sƿilk, sƿiche となり,この5種類だけで全用例369個のうち131個 (35.5%) を占める.
 昨日の後期中英語からの134種類と合わせ,重複綴字を減算すると,中英語全体として247種類の異綴字があることになる.使用した方言地図やコーパスも必ずしも網羅的ではないので,これは控えめな数値と思われる.例えば,MEDswich (adj.) に掲げられている異綴字を加えれば,種類はもう少し増えるだろう.

Referrer (Inside): [2018-08-16-1]

[ | 固定リンク | 印刷用ページ ]

2015-04-09 Thu

#2173. gospel から d が脱落した時期 [phonetics][consonant][etymology][loan_translation][folk_etymology][laeme]

 福音(書)を意味する gospel の語源はよく知られている.この語は,ラテン語 evangelium (これ自体はギリシア語 euaggélion "good news" に由来する)からの翻訳借用 (loan_translation) であり,古英語期に取り入れられた.古英語 godspel (good news) の第1要素は gōd (good) に等しく,本来は長母音をもっていたが,god (God) との類推から短母音も早くから行われていたようだ.これは,一種の民間語源 (folk_etymology) といってよいだろう.OED や Jespersen (126) もこの民間語源説を支持している.しかし,もう1つの説明として,「#2063. 長母音に対する制限強化の歴史」 ([2014-12-20-1]) で触れたように,この短母音は3子音前位置短化という音韻過程の結果と考えることもできるかもしれない.中尾 (142) は,この過程がすでに初期古英語から始まっていたと述べている.
 母音の量については上のような説明が与えられているが,古英語 godspel からの d の脱落についてはどうだろうか.中尾 (405) によれば,13世紀に,子音の後続する d の削除の過程がいくつかの語において観察されるという.例を挙げると,an (and), handeselle > hanselle (handsel), wenesday (Wednesday), godspell > gospel, andswerian > answerie (answer) である(cf. 「#1261. Wednesday の発音,綴字,語源」 ([2012-10-09-1])).
 d の脱落という問題に関心をもったのは,Wordorigins.orggospel に関する記事に,13世紀末に godspel から d が突如として消えたとの記述があったからである.突如としてということであれば,注目に値する.LAEME で簡単に調べてみた.
 結果は,当該語の種々の異形を含む合計213例のうち,18例において問題の破裂音 (多数の d に加えて t の例も1つあった)の脱落が見られた(脱落率は8.45%).これらの例は6テキストに集中しており,方言は North, South-West Midland, Southwestern とばらばらだが,時期的には13世紀前半からの1例を除いてすべて13世紀後半から14世紀前半について,つまり1300年を挟む時期である.ただし,1300年以降にも d を示す例のほうが多数派ではあるし,d に関して揺れを示すテキストもある.全体として,Wordorigins.org の上の記事で述べられているように13世紀末に d が脱落したという形跡はなかったし,脱落が突如として生じたというわけでもなさそうだ.おそらくは中尾の言及にもある通り,13世紀中に d の削除が始まったが,その削除は突如として起こったわけではなく,14世紀以降に向けて徐々に進行したと考えるのが妥当だろう.MEDgospel (n) も参照されたい.

 ・ Jespersen, Otto. A Modern English Grammar on Historical Principles. Part 1. Sounds and Spellings. 1954. London: Routledge, 2007.
 ・ 中尾 俊夫 『音韻史』 英語学大系第11巻,大修館書店,1985年.

Referrer (Inside): [2019-03-28-1] [2015-04-10-1]

[ | 固定リンク | 印刷用ページ ]

2015-03-09 Mon

#2142. 中英語における3単現および複現の語尾の方言分布 [map][laeme][lalme][me_dialect][me][3sp][3pp][verb][conjugation][nptr]

 標題の問いに手っ取り早く答えるには,次の表で事足りる(Görlach (68) による表の一部より).

 SouthMidlandNorth
Present Indicative3sg.-(e)þ-(e)þ-(e)s
pl.-(e)þ-(e)n-(e)s


 これを地図上に示すと「#790. 中英語方言における動詞屈折語尾の分布」 ([2011-06-26-1]) の通りとなるが,より詳しい分布を得たいときには LAEME (初期中英語)と eLALME (後期中英語)を参照するのが便利である (cf. 「#1622. eLALME」 ([2013-10-05-1])) .以下では,両アトラスより得られた地図の画像を貼り付けよう(クリックするとより大きく綺麗な画像が得られる).まずは,1150--1325年をカバーする LAEME より,3単現(左)と複現(右)の語尾の分布をそれぞれ示す.

LAEME: 3sp 's' and 'th' LAEME: 3pp 's', 'th', 'n', 'e', and zero
LAEME: 3sp 's' and 'th' LAEME: pp 's', 'th', 'n', 'e', and zero


 両地図で北部に集まる赤丸が -s を,南部に集まる青四角が -th を表す.右の複現の語尾では東中部その他に黒三角が散在しているが,これは -n 語尾を表す.次に,複数代名詞と接する動詞の現在形が -e またはゼロの語尾をとる "Northern Present Tense Rule" (NPTR; cf. 「#689. Northern Personal Pronoun Rule と英文法におけるケルト語の影響」 ([2011-03-17-1]),nptr) の分布図を見よう.

LAEME: NPTR pp 'e' and zero
LAEME: NPTR pp 'e' and zero


 では次に後期中英語の分布に移る.eLALME では,語尾の種類ごとに別々の地図を作成した.まずは3単現から.

eLAEME: 3sp 's' eLAEME: 3sp 'th'
eLALME: 3sp 's' eLALME: 3sp 'th'


 前時代の分布をよく受け継いでおり,左図の通り -s が北部に,右図の通り -th が中部以南に分布しているのがわかる.複現については,-s, -th, -n, -e (or zero) の4種類について各々の地図を見てみよう.

eLAEME: pp 's' eLAEME: 3pp 'th'
eLALME: pp 's' eLALME: pp 'th'
eLAEME: pp 'n' eLAEME: 3pp 'th'
eLALME: pp 'n' eLALME: pp 'e' or zero


 こちらも前時代の分布をよく受け継いでおり,北部で -s (左上図),中部以南で -th (右上図)が優勢だが,中部で -n (左下図)が前時代よりも著しく拡張していることが見て取れる.全体的に,初期中英語と後期中英語の分布間で量的な差は見られるが,質的には大きな変化はないといってよいだろう.  *

 ・ Görlach, Manfred. The Linguistic History of English. Basingstoke: Macmillan, 1997.

[ | 固定リンク | 印刷用ページ ]

2013-02-24 Sun

#1399. 初期中英語における between の異形態の分布 [laeme][corpus][preposition][me_dialect][methodology]

 「#1389. between の語源」 ([2013-02-14-1]),「#1393. between の歴史的異形態の豊富さ」([2013-02-18-1]),「#1394. between の異形態の分布の通時的変化」 ([2013-02-19-1]) に続いて,今回は LAEME を用いて通時的変化および方言別分布を調査した結果を報告する.
 Helsinki Corpus による通時的調査 ([2013-02-19-1]) の場合と同様に,多数の異形態をまとめるに当たって,語尾以外における母音の違いは無視し,第2音節以降の子音(と,もしあれば語尾の母音も)の種類と組み合わせに注目した.lexel に "between" を指定して取り出した例をもとに,241個のトークンを半世紀ごと,方言別に整理した(区分は[2012-10-10-1]の記事「#1262. The LAEME Corpus の代表性 (1)」で採用したものと同じ).原データはこちらを参照.以下,最初に年代別,次に方言別の集計結果を掲げる.

PERIODnnnnexxexnxtehnhetntxtxntxethsseynznSum
C12b181270000000000000028
C13a23419644091401010000085
C13b2032321341000102111164
C14a5132892200031000010064
Sum662172247941014321121211241

DIALECTnnnnexxexnxtehnhetntxtxntxethsseynznSum
N00192200001000000015
NEM140000000000000000014
NWM706000081400002000037
SEM1420950000030100000052
SWM3112675702001010101184
SW001630040000000010024
SE001400000000000010015
Sum662172247941014321121211241


 現代英語の between に連なる,n を含む最も普通のタイプが左3列に示されているが,bitweonen などの "nn" タイプは時代とともに "n" タイプや "ne" タイプに置換されてゆく様子がうかがえる.Mustanoja (369) は,"nn" タイプについて "The -en forms occur mainly in the more southern parts of the country" と記述しているが,実際には NEM や NWM にも現われている.つまり,"nn" タイプの分布は,方言の問題である以上に時代の問題である可能性がある.語尾の n の脱落がより北部で,かつ,より遅い時代に見られることは,予想できることだろう.
 n 系列には遠く及ばないが,bituixbitƿixen などの x 系列の使用がこの時期に稀でないことは,Helsinki Corpus の調査結果と符合している.x 系列は N, SEM, SWM, SW に分布しており,間に挟まれた NEM, NWM には文証されない.この分布は妙だが,全体として例が十分に多くないために,North Midlands の現存テキストに現われる機会がなかったということかもしれない.近代英語期にかけて成長する t を付加した xte タイプは,初期中英語では C13b SW に bitwixte などの形態でわずかに現われるにとどまっている.
 bituhenbituhe などの h 系列は,Helsinki Corpus によれば,古英語後期より一気に衰退したとのことだったが,LAEME によれば,初期中英語では C13a NWM に集中する形で生き残っていたようだ.しかし,その時までに衰退傾向は決定づけられていたと言えるだろう.
 今回の調査で感覚を得たが,(初期)中英語期に開始した,あるいは進行していると疑われる変化について調べるには,Helsinki Corpus で通時的変化を大づかみにした上で,LAEME を用いて,より細かい時代区分と方言の別を考慮して掘り下げてゆくのがよさそうだ.

Referrer (Inside): [2014-12-19-1] [2013-07-29-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-17 Mon

#1330. 初期中英語における eth, thorn, <th> の盛衰 [thorn][spelling][laeme][alphabet][graphemics]

 昨日の記事[2012-12-16-1]で,Helsinki Corpus を用いて「#1329. 英語史における eth, thorn, <th> の盛衰」を概観した.グラフによると,<þ> が <ð> を押しのけて著しく成長するのは,M1 (1150--1250) から M2 (1250--1350) にかけての時期であり,この時期について詳細に調査するには LAEME がうってつけである.方言による差異なども確認できるだろうと考え,早速,大雑把に調査してみた.大雑把というのは,例えば,1つの語形のなかに <þ> が2回以上現われたとしても1回と数えるなど,自動処理上の都合があるためである.
 以下は,時代別(半世紀単位)および方言別の分布を示すグラフである(数値データは,HTMLソースを参照).なお,方言付与については,[2012-03-19-1]の記事「#1057. LAEME Index of Sources の検索ツール Ver. 2」で触れたように,仮のものである.COUNTY と DIALECT の仮の対応表はこちらを参照.

The Ebb and Flow of 'eth', 'thorn', and <th> by EME Subperiod
The Ebb and Flow of 'eth', 'thorn', and <th> by EME Dialect


 LAEME による時代別の調査結果は,昨日の Helsinki Corpus による調査結果と符合する.C13a と C13b の間に <ð> の減小と <þ> の増加が著しく観察される.以降,数十年間は <ð> 独走の時代といってよいだろう.一方,方言別にみると概ね <þ> が支配的だが,NWM を除く中部においては <ð> もある程度は健闘していることがわかる.方言別の分布は,より詳細な調査が必要かもしれない.

Referrer (Inside): [2017-10-30-1] [2013-03-25-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-11 Tue

#1324. two の /w/ はいつ落ちたか [numeral][spelling][pronunciation][laeme][lalme]

 「#184. two の /w/ が発音されないのはなぜか」 ([2009-10-28-1]) で,two の発音に含まれる半母音 /w/ が,いつどのように脱落したかについて簡単に触れた.15〜16世紀に脱落したとされるが,綴字で確認する限りでは,方言によってはもっと早く中英語期に脱落していたことを示す証拠がある.
 まず,後期中英語について.LALME の Dot Map 548--57 に two の異綴りの方言分布が示されている.主要な異綴りについて概説すれば,twa タイプ (Dot Map 548) は北部方言に限定されているのに対して,最も普通の two タイプ (Dot Map 550) は北部を含むイングランド全域にまんべんなく例証される.問題の <w> の綴字を含まない to(o) タイプ (Dot Map 557) は,広く南部に見られ,とりわけ East Anglia や South-West Midland に濃く分布している.このように,後期中英語では,すでに w の落ちた形態がイングランド南半で珍しくなかったことがわかる.
 では,初期中英語ではどうだったろうか.LAEME で調べてみた.TO あるいは TO- の綴字をもつ "two" を取り出し,方言別,時代別に整理すると以下のようになった.

 C12bC13aC13bC14a
N   1
NEM   1
NWM    
SEM  286
SWM 11 
SW  420
SE    


 ちょうど LALME の Dot Map 557 で to(o) が比較的濃い分布を示していた地域に,TO(-) が集まっている.初期中英語から後期中英語への分布の連続性がよく表われている例といえるだろう.<w> をもたない綴字は,時代としてはおよそ13世紀後半以降に,南部諸方言を中心に始まったと考えてよさそうだ.対応する音声における /w/ の脱落も同様に考えるのが妥当だろう.
 中英語におけるこの語の数々の異綴りについては,MEDを参照.

 ・ McIntosh, Angus, M. L. Samuels, and M. Benskin. A Linguistic Atlas of Late Mediaeval English. 4 vols. Aberdeen: Aberdeen UP, 1986.

Referrer (Inside): [2019-04-05-1]

[ | 固定リンク | 印刷用ページ ]

2012-12-07 Fri

#1320. LAEME で見る most の異形態の分布 [vowel][superlative][map][laeme][me_dialect][comparison]

 [2012-11-24-1]の記事「#1307. mostmest」で取り上げた中英語の最上級 most の異形態について,初期中英語における母音別の分布を LAEME を用いて調査した.地図上に位置づけられるテキストから取り出した most の異形態は全部で249例あり,これを語幹母音に従って分別したものを HelMapperUK に流し込んだ.読み込ませたデータファイルはこちら.マークの大きさは頻度に比例する.

Variants of

 <mast> など <a> を示すものは主として北部に分布し,<mest>, <meast>, など前舌母音を示すものは中西部および南東部に分布する.後に優勢となる <most> など後舌母音を示すものは,この時代にはいまだ East Anglia に見られるのみである.

Referrer (Inside): [2015-09-29-1] [2014-04-13-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-12 Fri

#1264. 歴史言語学の限界と,その克服への道 [methodology][uniformitarian_principle][writing][history][sociolinguistics][laeme][corpus][representativeness]

 [2012-10-10-1], [2012-10-11-1]の記事で,The LAEME Corpus の代表性について取りあげた.私の評価としては,カバーしている方言と時代という観点からみて代表性は著しく損なわれているものの,現在利用できる初期中英語コーパスとしては体系的に編まれた最大規模のコーパスであり,十分な注意を払ったうえで言語研究に活用すべきツールである.The LAEME Corpus の改善すべき点はもちろんあるし,他のコーパスによる補完も目指されるべきだとは考えるが,言語を歴史的に研究する際に必然的につきまとう限界も考慮した上で評価しないとアンフェアである.
 歴史言語学は,言語の過去の状態を観察し,復元するという課題を自らに課している.過去を扱う作業には,現在を扱う作業には見られないある限界がつきまとう.Milroy (45) の指摘する歴史言語学研究の2つの限界 (limitations of historical inquiry) を示そう.

[P]ast states of language are attested in writing, rather than in speech . . . [W]ritten language tends to be message-oriented and is deprived of the social and situational contexts in which speech events occur.

[H]istorical data have been accidentally preserved and are therefore not equally representative of all aspects of the language of past states . . . . Some styles and varieties may therefore be over-represented in the data, while others are under-represented . . . . For some periods of time there may be a great deal of surviving information: for other periods there may be very little or none at all.


 乗り越えがたい限界ではあるが,克服の努力あるいは克服にできるだけ近づく努力は,いろいろな方法でなされている.そのなかでも,Smith はその著書の随所で (1) 書き言葉と話し言葉の関係の理解を深めること、(2) 言語の内面史と外面史の対応に注目すること,(3) 現在の知見の過去への応用の可能性を探ること,の重要性を指摘している.
 とりわけ (3) については,近年,社会言語学による言語変化の理解が急速に進み,その原理の過去への応用が盛んになされるようになってきた.Labov の論文の標題 "On the Use of the Present to Explain the Past" が,この方法論を直截に物語っている.
 これと関連する方法論である uniformitarian_principle (斉一論の原則)を前面に押し出した歴史英語の論文集が,Denison et al. 編集のもとに,今年出版されたことも付け加えておこう.

 ・ Milroy, James. Linguistic Variation and Change: On the Historical Sociolinguistics of English. Oxford: Blackwell, 1992.
 ・ Smith, Jeremy J. An Historical Study of English: Function, Form and Change. London: Routledge, 1996.
 ・ Labov, William. "On the Use of the Present to Explain the Past." Readings in Historical Phonology: Chapters in the Theory of Sound Change. Ed. Philip Baldi and Ronald N. Werth. Philadelphia: U of Pennsylvania P, 1978. 275--312.
 ・ Denison, David, Ricardo Bermúdez-Otero, Chris McCully, and Emma Moore, eds. Analysing Older English. Cambridge: CUP, 2012.

Referrer (Inside): [2018-07-21-1] [2015-02-10-1]

[ | 固定リンク | 印刷用ページ ]

2012-10-11 Thu

#1263. The LAEME Corpus の代表性 (2) [laeme][corpus][representativeness]

 昨日の記事[2012-10-10-1]に引き続き,The LAEME Corpus の代表性の話題.今回は,語数,より正確には同コーパスで文法情報が付与されている語 (tagged words) の数により,方言・時代ごとの代表性を考える.まず,表を掲げよう.

Table 2: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Tagged Words

 C12bC13aC13bC14aTotal
N0 (0.000%)362 (0.062)0 (0.000)52,883 (9.083)53,245 (9.146)
NEM11,342 (1.948)0 (0.000)3,980 (0.684)2,344 (0.403)17,666 (3.034)
NWM0 (0.000)58,332 (10.019)16,173 (2.778)0 (0.000)74,505 (12.797)
SEM40,082 (6.885)26,722 (4.590)21,921 (3.765)31,408 (5.395)120,133 (20.634)
SWM1,030 (0.177)90,400 (15.527)106,981 (18.375)108 (0.019)198,519 (34.098)
SW1,168 (0.201)2,610 (0.448)46,032 (7.907)30,517 (5.242)80,327 (13.797)
SE0 (0.000)4,043 (0.694)3,199 (0.549)30,561 (5.249)37,803 (6.493)
Total53,622 (9.210)182,469 (31.341)198,286 (34.058)147,821 (25.390)582,198 (100.000)


 直感的に理解できるように,この分布をモザイクプロットで表現したのが下図である(印刷用にはこちらのPDFをどうぞ).

Dialect/Period Distribution of Tagged Words

 分布の偏りは一目瞭然である.しかし,方言・時代の各スロットを構成するテキストの種類などをより細かく調べると,さらに重要な問題が見えてくる.いくつかのスロットでは,総語数の大部分がほんの一握りのテキストによって占められているのである.例えば,N C14a というスロットは,全体のなかで4番目に収録語数の多いスロットだが,その語数の95.61%は Cursor Mundi という1作品(正確には,それを表わす3種類の異なる書写言語を反映した 3 scribal texts [##296, 297, 298])で占められている.同様に,NEM C13b では #182 のみで80.93%の語数がカバーされている.NWM C13b では #272 のみで93.11%だ.SEM C12b では異なる2人の写字生の手による Trinity Homilies (##1200, 1300) が総語数の84.06%を占め,SEM C13a でも異なる2人の写字生の手による Vices and Virtues (##64, 65) が総語数の93.83%を占める.SW C13b の #1600 は,それだけで69.71%を占める,等々.
 これらの例が示唆することは,問題の方言・時代スロットは必ずしもその方言・時代の言語変種を代表しているわけではなく,むしろ特定のテキストに現われる言語変種を代表しているということかもしれなということだ.The LAEME Corpus の使用の際には,なお一層の注意が必要である.

[ | 固定リンク | 印刷用ページ ]

2012-10-10 Wed

#1262. The LAEME Corpus の代表性 (1) [laeme][corpus][representativeness]

 私の関心の中心は初期中英語期の形態論である.この時代に関心をもつ者にとっては,LAEME (編者によれば,発音は /ˈleɪmiː/ )とそこから派生した The LAEME Corpus (Text Database) の登場は,同時代に関する研究環境を著しく改善し得るツールとして,最大限に歓迎される.LAEME については,本ブログでも laeme の記事で採りあげてきたし,とりわけツールとしての可能性を探り,拡張すべく「#846. HelMapperUK --- hellog 仕様の英国地図作成 CGI」 ([2011-08-21-1]) ,「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) ,「#942. LAEME Index of Sources の検索ツール」 ([2011-11-25-1]) ,「#1057. LAEME Index of Sources の検索ツール Ver. 2」 ([2012-03-19-1]) を公表してきた.
 大工にとって道具の手入れが大事なように,研究者にとってツールの研究は大事である.具体的に The LAEME Corpus を使っているうちに,全体として俯瞰するとどのようなコーパスなのか,知りたくなってきた.[2010-11-16-1]の記事「#568. コーパスの定義と英語コーパス入門」で示した通り,コーパスの主たる特徴の1つに representativeness (代表性)がある.これは,コーパス評価のための指標の1つでもある.歴史コーパスにおける代表性の確保の難しさについては,「#531. OED の引用データをコーパスとして使えるか」 ([2010-10-10-1]) や「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) でも触れてきたが,この点では The LAEME Corpus も苦戦を強いられている.カバーしている方言分布については「#856. LAEME text database のデータ点とテキスト規模」 ([2011-08-31-1]) で採りあげたが,今回は方言区分に加えて時代区分も含めながら The LAEME Corpus のツール分析を試みたい.
 まずは,収録されているテキストの数を考える.当該コーパスは "scribal text" という単位でテキストが収録されているが,これを方言と時代にしたがって分別すると,散らばり具合がわかる.なお,方言区分と時代区分はそれ自体が方法論上の大問題なのだが,以下では,恣意的な区分(とはいってもある程度の根拠はあるが)として,方言は7つへ,時代は4つへと分けている.すなわち,方言は N (Northern), NEM (North-East Midland), NWM (North-West Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) へ,時代は C12b (12世紀後半),C13a, C13b, C14a へ.中英語の方言区分については「#130. 中英語の方言区分」 ([2009-09-04-1]) も参照.

Table 1: Dialectal and Diachronic Distribution of Linguistic Evidence by Number of Texts

 C12bC13aC13bC14aTotal
N0 (0.00%)1 (0.86)0 (0.00)7 (6.03)8 (6.90)
NEM1 (0.86)0 (0.00)5 (4.31)2 (1.72)8 (6.90)
NWM0 (0.00)9 (7.76)5 (4.31)0 (0.00)14 (12.07)
SEM4 (3.45)7 (6.03)14 (12.07)7 (6.03)32 (27.59)
SWM2 (1.72)13 (11.21)17 (14.66)1 (0.86)33 (28.45)
SW3 (2.59)5 (4.31)7 (6.03)2 (1.72)17 (14.66)
SE0 (0.00)2 (1.72)1 (0.86)1 (0.86)4 (3.45)
Total10 (8.62)37 (31.90)49 (42.24)20 (17.24)116 (100.00)


 上の表を作成するにあたり対象としたのは,The LAEME Corpus に収録されている167個の scribal texts のうち,半世紀という単位で時代の区分がなされている116個のみである.
 表を一瞥すればわかるように,テキスト分布の偏りは大きい.方言でいえば SEM と SWM は層が異常に厚く,全体の3分の2ほどをカバーしているが,一方で N, NEM, SE は層が薄い.時代でみると,C13a と C13b だけで7割を越え,C12b と C14a は層が薄い.方言・時代の組み合わせでは,6スロットまでが "0" を示す.歴史コーパス編纂における representative の確保は絶望的とすら思えてくる.少なくとも,The LAEME Corpus を用いて得られる方言や時代についてのデータやそこから得られる結論は,よくよく注意して解釈しなければならないということがいえるだろう.
 この表は scribal text の数をもとに作成されているが,各 scribal text の長さはまちまちである.そこで,テキスト数ではなく,語数による分布の具合も調べてみる必要がある.語数に基づく代表性の議論は,明日の記事で.

[ | 固定リンク | 印刷用ページ ]

2012-03-19 Mon

#1057. LAEME Index of Sources の検索ツール Ver. 2 [laeme][web_service][cgi][dialect]

 [2011-11-25-1]の記事「#942. LAEME Index of Sources の検索ツール」で SQL による検索用 CGI を公開した.最近,研究で LAEME を本格的に使う機会があり,検索用のデータベースに少しく情報を追加した.そこで,上位互換となる Ver. 2 を作ったので,公開する.
 追加した情報は,PERIOD, COUNTY, DIALECT の3フィールド.PERIOD は,もともとの IOS で与えられていたテキストの DATE をもとに,半世紀区切りで大雑把に区分しなおしたもの.C13b2--C14a1 など区分のまたがる場合には,早いほうをとって C13b と読み替えた."ca. 1300" なども同様に,早いほうへ倒して C13b とした.DATE において C13, C14 など半世紀で区切れない年代が与えられている場合には,C13, C14 のようにそのまま残した.
 COUNTY は,LOC に与えられていた情報をもとに,3文字の略字表記で示した.DIALECT は,所属する州 (county) をもとに大雑把に N (Northern), NWM (North-West Midland), NEM (North-East Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) の7方言に区分したものである.方言線は州境と一致しているわけではないし,方言線そのものの選定も,「#130. 中英語の方言区分」 ([2009-09-04-1]) や「#1030. England の現代英語方言区分 (2)」 ([2012-02-21-1]) で見たように,難しい.したがって,今回の DIALECT の付与も,[2009-09-04-1]の中英語方言地図に大雑把に照らしての仮のものである.参考までに,COUNTY と DIALECT の対応表はこちら

    


 使用法は[2011-11-25-1]の旧版と同じで,テーブル名は "ios" (for "Index of Sources") で固定.フィールドは,全部で23フィールド (ID, MS, TEXT_ID, FILE, DATE, PERIOD, TEXT, GRID, LOC, COUNTY, DIALECT, COMMENT, SAMPLING, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES, WORDS, SCRIPT, OTHER, STATUS, BIBLIO, CROSS_REF, URL) .select 文のみ有効.以下,典型的な検索式を挙げておく.

# 各 PERIOD に振り分けられたテキストの数
select distinct PERIOD, count(*) from ios group by PERIOD;

# 各 COUNTY に振り分けられたテキストの数
select distinct COUNTY, count(*) from ios group by COUNTY;

# 各 DIALECT に振り分けられたテキストの数
select distinct DIALECT, count(*) from ios group by DIALECT;

# DIALECT/PERIOD ごとに,所属するテキストの多い順にリストアップ
select distinct DIALECT, PERIOD, count(*) from ios group by DIALECT, PERIOD order by count(*) desc;

# Worcestershire のテキストを取り出し,PERIOD 順に諸情報を羅列
select TEXT_ID, FILE, MS, COUNTY, PERIOD, TAGGED_WORDS from ios where COUNTY = 'WOR' order by PERIOD;

  *  

Referrer (Inside): [2012-12-17-1] [2012-10-10-1]

[ | 固定リンク | 印刷用ページ ]

2011-11-25 Fri

#942. LAEME Index of Sources の検索ツール [laeme][web_service][cgi]

 LAEME で Auxiliary Data Sets -> Index of Sources とメニューをたどると,LAEME が対象としているテキストソースのリスト (The LAEME Index of Sources) を,様々な角度から検索して取り出すことができる.LAEME のテキストデータベースを年代別,方言別,Grid Reference 別などの基準で分析したい場合に,適切なテキストの一覧を得られるので,LAEME 使いこなしのためには非常に重要な機能である.
 しかし,もう少し検索式に小回りを利かせられたり,一覧の出力がコンパクトに表形式で得られれば使い勝手がよいだろうと思っていた.そこで,Index of Sources を独自にデータベース化し,SQL を用いて検索可能にしてみた.LAEME の使用者で,かつSQLを扱える人以外には何も役に立たないのだが,せっかく作ったので公開.

    


 以下,使用法の説明.テーブル名は "ios" (for "Index of Sources") で固定.フィールドは,LAEME 本家の検索で対象となっている18のフィールドに加えて,整理番号としての "ID" と,テキスト情報の掲載されたオンラインページへの "URL" を加えた計20フィールド (ID, MS, TEXT_ID, FILE, DATE, TEXT, GRID, LOC, COMMENT, SAMPLING, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES, WORDS, SCRIPT, OTHER, STATUS, BIBLIO, CROSS_REF, URL) .select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# Ancrene Wisse/Riwle のテキスト情報の取り出し
select TEXT_ID, MS, FILE, GRID, LOC, DATE, TEXT from ios where FILE like "%ar%t.tag" and TEXT like "%Ancrene%";

# Poema Morale のテキスト情報の取り出し
select TEXT_ID, MS, FILE, GRID, LOC, DATE, TEXT from ios where FILE like "%pm%t.tag" and TEXT like "%Poema%";

# Grid Reference の与えられているテキストの取り出し
select TEXT_ID, MS, FILE, GRID from ios where GRID != "000 000";

# DATE に "C13a" を含むテキストの取り出し
select TEXT_ID, DATE from ios where DATE like "%C13a%";

# 年代ごとに集計
select DATE, count(DATE) from ios group by DATE order by DATE;

# タグ付けされている語数をテキストごとに確認
select TEXT_ID, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES from ios;

# 全テキスト情報へのリンク集
select TEXT_ID, MS, FILE, URL from ios;

Referrer (Inside): [2012-10-10-1] [2012-03-19-1]

[ | 固定リンク | 印刷用ページ ]

2011-08-31 Wed

#856. LAEME text database のデータ点とテキスト規模 [map][laeme][lalme]

 LAEME text database で扱われている scribal texts の数は,LAEME Index of Sources (PDF) によると,ざっと168個だが,そのなかで地図上の位置が特定されているものは121個(約72%)である.位置情報は Ordinance Survey National Grid Reference として得られるし,各テキストについてタグ付けされている語数も得られるので,組み合わせれば,データ点ごとにどの程度の規模のテキストがコーパスとして利用できるか,地図上に表現することができることになる.この作業を,[2011-08-21-1]の記事「HelMapperUK --- hellog 仕様の英国地図作成 CGI」で公開した地図作成ツールを用いて行なった.以下が結果である.

LAEME data points and text sizes

 異なるデータ点は96を数え,データ点と関連づけられるテキスト(群)を構成する語数の平均値は6307語ほどである(タグ付けされた語数はこれより若干下回る).凡例として地図の右上に示した赤塗りの円の面積がこの平均語数に相当し,この面積を基準として,各データ点が,語数に相当する面積をもつ白抜きの赤丸として描かれている(参考までに,HelMapperUK に読み込ませたデータはこちら).
 地図を眺めて直感的にわかることは,データ点にせよ収録語数にせよ,South-West Midland と South-East Midland に随分と集中しているということである.これは,LAEME の編者の1人である Laing が自らの論文 "Never the twain shall meet" で注意を喚起している通りである.LAEME のテキストの位置特定は,LALME が編み出した "fit technique" という理論的手法に負っているが,この手法の成否の鍵は "anchor texts" と呼ばれる確実な出発点が多く手に入るかどうかという点にある.だが,残念なことに,後期中英語と異なり初期中英語では "anchor texts" が格段に少ない."anchor texts" は,後の理論的な位置特定に際して磁石のように機能するため,出発点が東や西に離れて分布していると,これから "fit" させようと思っているテキストも相対的に東西のどちらか側に引きつけられてしまうという結果になることが多い.Midland の中央にデータ点がまばらなのは,このような事情にも帰せられる.
 地図作成ツール HelMapperUK は,半ば LAEME の活用のために作ったようなものだが,LAEME 自体を分析するのにも利用できそうだ.
 なお,LAEME Index of Sources は先に貼り付けたリンク より PDF で入手できるが,その他にもLAEME のトップページ から Auxiliary Data Sets -> Index of Sources とたどると,様々なパラメータによりソーステキストの情報検索ができる.

 ・ Laing, Margaret. "Never the twain shall meet: Early Middle English --- The East-West Divide." Placing Middle English in Context. Ed. I. Taavitsainen et al. Berlin: Mouton de Gruyter, 2000. 97--124.
 ・ McIntosh, Angus, M. L. Samuels, and M. Benskin. A Linguistic Atlas of Late Mediaeval English. 4 vols. Aberdeen: Aberdeen UP, 1986.

Referrer (Inside): [2012-10-10-1] [2011-08-21-1]

[ | 固定リンク | 印刷用ページ ]

2011-08-21 Sun

#846. HelMapperUK --- hellog 仕様の英国地図作成 CGI [cgi][web_service][map][lalme][laeme][bre]

 中英語の方言を研究していると,LALME の Dot Map 風のイングランド地図を描けると便利だと思う機会がある.LALME の地図を用いるのであればコピーしたりスキャンしたりすればよいし,オンラインの LAEME であれば "Mapping" 機能から "Feature Maps" で特に注目すべき言語項目に関する地図はデジタル画像で得られる.後者では,"Create a Feature Map" なるユーザーによる地図作成機能もおいおい追加されるとのことで,中英語方言学のヴィジュアル化は今後も進展して行くと思われる.
 しかし,それでも様々な困難や不便はある.例えば,LAEME でも,自分の関心のある言語項目が LAEME 自体で扱われていなければ地図作成機能は役に立たないし(例えば,私の中英語名詞複数の研究では名詞の歴史的な文法性が重要だが,LAEME text database では性がタグ付けされていないのでフルには活用できなかった),LALME についてはそもそも地図がデジタル化されていず応用しにくい(地図のデジタル化,少なくともテキスト情報や座標情報のデジタル化が一刻も早く望まれる).
 それでも,手をこまねいて待っているわけには行かない.既存のツールと自分の関心は大概ずれているものであり,自ら研究環境を作る必要に迫られるのが常だからだ.中英語の方言地図に関する限り,LALMELAEME からテキストの方言付与情報さえ得られれば,自ら集めた言語項目に関するデータを地図上にプロットすることは十分に可能である.(需要は少ないと思われるが)その作業を少しでも簡便化するために,HelMapperUK なる CGI を作成してみた.英国のベースマップ上にデータポイントをプロットするという単機能に特化しており,凡例をつけるなどの付加機能はないが,ヴィジュアル化して概観をつかむという用途には十分と思われる.



 以下で使い方の説明をするが,その前に,まずこちらのデータファイルの内容を上のテキストボックスに上書きコピペして出力結果の確認をどうぞ.これは,拙著の複数形研究で分析した初期中英語テキストの分布で,赤丸が手作業で分析したもの,青四角が LAEME text database を援用して分析したもの,それぞれの形で小さいものはテキストの全体ではなく部分を分析したものを表わす.(実際,Hotta (55) の地図はおよそこのようにして描かれた.)

 では,使い方の説明(基本的に作者個人仕様のものを公開しているだけなのでインターフェースは洗練されていません,あしからず).テキストボックスにあらかじめ入力されているとおり,入力データは設定部 (Configuration) で始まる.以下が設定可能な変数.

 ・ 「map」変数には "England" か "UK" が入る.これで,出力される地図の範囲を決定.
 ・ 「scale」変数は,X方向とY方向への拡大率を指定.拡大なし (scale=1 1) だと,出力画像は 386 * 313 Pixels (England) ,529 * 557 Pixels (UK) の大きさ.
 ・ 「pattern + 数字」変数は,プロットに用いる記号を定義する.イコールの後にはスペース区切りで (1) 形 ("box", "circle", "cross", "diamond", "invertedtriangle", "plus", or "triangle") ,(2) その形を塗りつぶすか否か (ex. "fill" or "stroke") ,(3) 色 (ex. "aqua", "black", "blue", "cyan", "green", "lime", "magenta", "red"; 他の大抵の色名にも対応しているはずだが出力される画像に反映されない色もある) ,(4) 大きさ(線の長さや円の直径に相当する Pixels)の4項目の値を与える.パターンは好きなだけユーザー定義可能.

 その後にデータ部 (Data points) が続く.1行に1データポイントで,各行はタブ区切りで (1) X座標,(2) Y座標,(3) 上で定義されたパターン名のいずれか ("pattern1" など)の3項目の値を与える(実際にはパターン名は省略可能.その場合,自動的に "pattern1" が用いられる.).座標系については,LALMELAEME で採用されている Ordinance Survey National Grid Reference の3桁ずつの座標系 (ex. "372 244") ,あるいは一般の経度・緯度 (ex. -2.408752393 52.09322081) のいずれも可能(自動で判定される).
 空行,あるいは "#" で始まるコメント行はデータとして無視される.

 出力結果は GIF 形式の画像として表われる.別途,EPS 形式のベクター画像としてもダウンロードできるようにした(こちらのファイルをいじれるのであれば,各種の設定を含めた細かいチューニングが可能).
 英国ベースマップの作成には,CIA World DataBank IIDCW Map Interface for Europe のデータを参照した.

(後記 2011/08/31(Wed):[2011-08-31-1]の記事「LAEME text database のデータ点とテキスト規模」で,HelMapperUK で作製した地図の実例を示した.)

 ・ McIntosh, Angus, M. L. Samuels, and M. Benskin. A Linguistic Atlas of Late Mediaeval English. 4 vols. Aberdeen: Aberdeen UP, 1986.
 ・ Laing, Margaret and Roger Lass, eds. A Linguistic Atlas of Early Middle English, 1150--1325. http://www.lel.ed.ac.uk/ihd/laeme1/laeme1.html . Online. Edinburgh: U of Edinburgh, 2007.
 ・ Hotta, Ryuichi. The Development of the Nominal Plural Forms in Early Middle English. Hituzi Linguistics in English 10. Tokyo: Hituzi Syobo, 2009.

[ | 固定リンク | 印刷用ページ ]

2011-03-18 Fri

#690. Northern Personal Pronoun Rule を LAEME で検証 [laeme][me_dialect][personal_pronoun][verb][nptr]

 昨日の記事[2011-03-17-1]で記事で取り上げた The Northern Personal Pronoun Rule (NPPR) は北部イングランドで中英語期に行なわれた統語規則とされる.初期中英語で実際に文証されるかどうかを,LAEME で確認してみたい.
 Laing and Lass (26--27) によれば,LAEME のコーパスでは NPPR が 動詞にタグ付けされているということなので,簡単に拾い出すことができる.Tasks ページから以下のようにメニューをたどり,検索表現として "(-)vps2%apn(%)" (代名詞の直後に現われる動詞の現在形複数)と "(-)vps2%bpn(%)" (代名詞の直前に現われる動詞の現在形複数)でそれぞれ検索してみた.検索表現をより細かく工夫することはできるが,これで当面の用は足せる.

[LISTS] -> [Make an Item List] -> [Inflections] and [Search by TAG] -> ( [(-)vps2%apn(%)] or [(-)vps2%bpn(%)] ) and Frequency Counts


 出力された情報を読み解くにも少々の知識と経験がいるが,各行は「検索対象となったテキスト番号」「そのテキストの言語が位置づけられている州の略名」「問題の語尾の種類と頻度」からなっている.NPPR では,複数人称代名詞の前後で動詞の現在形が( -e や -en もありうるが)ゼロ語尾を取るというのが最も顕著な特徴なので,語尾として "0" が含まれている行を探し出せばよい.その行を以下に抜き出す.

[for "(-)vps2%apn(%)"]
188DUR+E [2] 0 [2]
285NFK+E [7] +En [4] +ETH [3] +N [2] 0 [2] +EN [1]
295YWR+>I>Ey [17] 0 [9]
296YCT+E [16] 0 [14] +E [2]
297YER0 [36] +E [10] +IEy [2]
298YNR+E [43] 0 [31]
300NFK0 [31]

[for "(-)vps2%bpn(%)"]
119[-]0 [2]
173WOR+Ay [1] +E [1] +Ey [1] 0 [1]
247HRF+E [2] +ET [1] +T [1] 0 [1]
295YWR0 [4]
296YCT0 [5] +E [3]
297YER0 [8] +E [4]
298YNR0 [22] +E [10] 0+ [2]
2000WOR+E [6] 0 [3] +Ed [1] +IE [1]
2001WOR0 [3]


 州名を一覧すると,Durham, Yorkshire, Hereford, Worcester, Norfolk など北部から中部にかけて分布していることが分かる.特にテキスト番号295--298は Cursor Mundi という長大な詩を指し,14世紀前半の北部方言を代表するテキストとして知られている.
 テキスト298 (Edinburgh, Royal College of Physicians, MS of Cursor Mundi, hand B, fols. 16r-36v: Extracts from the Northern Homily Collection) から例を抜き出すと,例えば次のような NPPR を示す行が得られる.問題の動詞は赤字で記した.

- Yef þai lef her rihtwislie
- For in hali bok find we
- For if we schrif us clen of sinne
- Ye wen ful wel nou euerilkan
- Þan sau þai in vs goddes sede
- Of his offering today spec we


 Tasks ページから CONCORDANCING 機能により用例のコンコーダンス・ラインを出力することもできるが,検索の敷居はさらに高い.TAGGED TEXTS からテキストファイルを取り出して自分で検索したほうが容易かもしれない.

 ・ Laing, Margaret and Roger Lass. "Tagging." Chapter 4 of "A Linguistic Atlas of Early Middle English: Introduction." Available online at http://www.lel.ed.ac.uk/ihd/laeme1/pdf/Introchap4.pdf .

[ | 固定リンク | 印刷用ページ ]

2011-02-19 Sat

#663. 中英語方言学における綴字と発音の関係 [lalme][laeme][me_dialect][spelling_pronunciation_gap][grammatology][graphemics][x]

 初期中英語の方言地図 LAEME の機能が向上してきた.その先輩でもあり生みの親でもある後期中英語の方言地図 LALME は,綴字と発音の関係を考察する上で重要な知見をもたらしてきた.中英語における綴字の地理的分布が,発音の地理的分布と同様に方言学的な価値をもっていることを明らかにした.それまでは,綴字は発音に従属する二次的な体系であり,綴字の地理的分布が本質的に重要な価値をもっているとはみなされていなかったが,LALME は綴字を独立して観察されるべき体系として位置づけたのである.綴字を発音から解放したとでも言おうか.
 中英語方言学は,1986年の LALME の登場によって意表を突かれながら,新たな段階に入ることになった.ここに一種の解放感ならぬ開放感があったことは確かである.文書でしか残されていない中英語の言語的実態,ことに発音の実態を蘇らせたいと思えば,綴字の問題に行き着いてしまう.綴字がどのくらい忠実に発音を表わしているのかは,まさに隔靴掻痒たる問題である.例えば,悪名高いものに現代英語の shall に対応する後期中英語 East Anglia 地方の綴字 xul, xal がある(この語の他の奇妙な綴字は MED を参照).この <x> の文字で表わされる音価は [ks] なのか [ʃ] なのか,あるいは別の音なのか.このような難問が立ちはだかるなかで,綴字と発音を一度切り離して考えてみよう,綴字の側だけでも独立して考察してみよう,という研究上の選択肢が与えられることとなった.
 しかし,発音の呪縛からの解放感は永久に続くわけではない.LALME の出版後,(時代としてはより古いが)その続編として LAEME のプロジェクトが始まったが,プロジェクトの後半から本格的に参加した歴史形態音韻論の理論家 Lass は,綴字と発音の関係を再考して次のように述べている.

The statement in LALME (vol. 1, 6) that the maps constitute 'a dialect atlas of written Middle English', and that texts are 'treated as examples of a system of written language in its own right' is often misinterpreted. The emphasis on the independent value of written evidence was particularly apposite two decades ago, given the post-Bloomfieldian view that was current then (and to a large extent still is) that writing is of no independent linguistic interest, but merely 'parasitic on' speech. But this must not be misunderstood and taken to imply that phonological interpretation is per se unnecessary. The LALME editors take no such line. They were fully aware of the potential phonological implications of their data. LALME is rich in phonological commentary, while the series of Dot Maps (vol. 1) crucially depends on acknowledging the relationship between sound and symbol. (Lass and Laing 11--12)


 これは,20年ほどの解放感の後で xul の音価は何かという悪夢のような問題に立ち返らなければならないという宣言だろうか.上の論文でなされている Lass and Laing の文字論,書記素論の考察は,初期中英語の綴字問題にとどまらず,現代英語の綴字と発音の関係にも光を与えるものであり,読み応えがある.

 ・ Lass, Roger and Margaret Laing. "Interpreting Middle English." Chapter 2 of "A Linguistic Atlas of Early Middle English: Introduction." Available online at http://www.lel.ed.ac.uk/ihd/laeme1/pdf/Introchap2.pdf .
 ・ McIntosh, Angus, M. L. Samuels, and M. Benskin. A Linguistic Atlas of Late Mediaeval English. 4 vols. Aberdeen: Aberdeen UP, 1986.

Referrer (Inside): [2015-07-25-1] [2011-02-20-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow