hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 次ページ / page 5 (11)

corpus - hellog〜英語史ブログ

最終更新時間: 2022-06-28 08:40

2014-04-03 Thu

#1802. ARCHER 3.2 [corpus][archer][mode][frequency]

 昨年末のことになるが,近代英米語コーパス ARCHER: A Representative Corpus of Historical English RegistersUntagged 版が公開された.詳細は,公式の Documentation,あるいは VARIENG によるコーパスの解説からどうぞ.英語史研究会のオンライン会報より,三浦あゆみさんの記事「ARCHERの新版公開」も参考になる.
 ARCHER は,1990年代初頭より Biber and Finegan が編纂してきたもので,現在では14の大学が合同で管理している.2013年に公開されたこの3.2版は Manchester 大学 ( David Denison and Nuria Yáñez-Bouza) による提供である.コーパスの内容と用途を端的に表現すれば,"a multi-genre historical corpus of British and American English covering the period 1600--1999. The corpus has been designed as a tool for the analysis of language change and variation in a range of written and speech-based registers of English." ということである.
 コーパスの規模は1,710ファイル,3,298,080語からなり,語数での英米比は6:4ほど.また,時期として8期,内容により12種類にジャンル分けされている (a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries) .ファイル数と語数の内訳は以下の通り.

BRITISHadfhjlmnpsxyTOTAL
1600--49files01000010001000030
words032,34200021,0260032,74100086,109
1650--99files0101110101021100107510177
words030,32841,66721,81821,18620,46623,81122,304021,42738,76720,488262,262
1700--49files0101110111014100107710173
words027,86244,05721,51123,26521,31522,06621,612020,81233,89620,495256,891
1750--99files10101010101020100107011181
words25,38627,48445,19821,75221,28420,36721,00223,172020,59929,58923,043278,876
1800--49files10101010111010100102510126
words30,80431,21145,10721,77723,24920,53120,28622,951021,01512,67120,883270,485
1850--99files10101010101010100102610126
words30,68434,85643,42721,32221,24320,75722,26523,072021,81010,81921,789272,044
1900--49files10111010101010100102910130
words26,71731,39145,40821,12322,20821,16020,21321,977021,66412,52922,424266,814
1950--99files10111010101013100102810132
words23,43732,20045,10921,09322,72320,72120,99422,935021,38511,36122,060264,018
TOTALfiles50827270728098701070330711,075
words137,028247,674309,973150,396155,158166,343150,637158,02332,741148,712149,632151,1821,957,499
AMERICANadfhjlmnpsxyTOTAL
1750--99files310101010129100105810152
words9,21429,98038,98021,27121,89641,17723,54122,265020,66827,86021,315278,167
1800--49files1101001012010010101083
words2,82240,56844,676021,47633,409037,107020,90420,73920,695242,396
1850--99files8101110101010100102811128
words24,48032,72144,39421,05622,43628,50620,54721,994021,31111,36123,419272,225
1900--49files101010010110150105210138
words30,46052,51453,430021,66121,607022,802020,98425,02120,731269,210
1950--99files10101010101210100123010134
words29,56331,03744,38221,05122,10925,51722,61723,069025,62311,96121,654278,583
TOTALfiles325051305057295505217851635
words96,539186,820225,86263,378109,578150,21666,705127,2370109,49096,942107,8141,340,581


 Documentation のページより,完全単語リストをダウンロード可能.タグ付きの検索が可能な版もいずれ公開されるということなので,期待したい.「#1752. interpretorinterpreter (2)」 ([2014-02-12-1]) の記事で少し使ってみたので,そちらも参照を.

[ 固定リンク | 印刷用ページ ]

2014-03-05 Wed

#1773. ich, everich, -lich から語尾の ch が消えた時期 [me][corpus][hc][phonetics][personal_pronoun][consonant][-ly]

 「#1198. icI」 ([2012-08-07-1]) の記事で,古英語から中英語にかけて用いられた1人称単数代名詞の主格 ich が,語末の子音を消失させて近代英語の I へと発展した経緯について論じた.そこでは,純粋な音韻変化というよりは,機能語に見られる強形と弱形の競合が関わっているのではないかと提案した.
 しかし,音韻的な要因が皆無というわけではなさそうだ.Schlüter によれば,後続する語頭の音に種類によって,従来の長形 ich か刷新的な短形 i かのいずれかが選ばれやすいという事実が,確かにある.
 Schlüter は,Helsinki Corpus を用いて中英語期内で時代ごとに,そして後続音の種類別に,ich, everich, -lich それぞれの変異形の分布を調査した.以下に,Schlüter (224, 227, 226) に掲載されている,各々の分布表を示そう.

I1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
tokens%tokens%tokens%tokens%
before Vich169100121954300
I006513597253100
before <h>ich171100105973200
I003315698316100
before Cich51394363420000
I3364945811061002043100
EVERY1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
tokens%tokens%tokens%tokens%
before Veverich- 686764939
everiche- 1140000
every- 004361461
before <h>everich- 00120- 
everiche- 1100120- 
every- 00360- 
before Ceverich- 6292200
everiche- 10482200
every- 52410596138100
-LY1150--1250 (ME I)1250--1350 (ME II)1350--1420 (ME III)1420--1500 (ME IV)
tokens%tokens%tokens%tokens%
before V-lich231281212410
-liche162875177238215
-ly117112518842195
before <h>-lich13187211200
-liche5982247381400
-ly0026498476100
before C-lich7013181518220
-liche468859377395232
-ly1121087889394797


 3つの表で,とりわけ子音の前位置 (before C) で ch の脱落した短形のパーセンテージを通時的に追ってもらいたい.短形の拡大の速度に多少の違いはあるが,ME II と ME III の境である1350年の前後で,明らかな拡大が観察される.14世紀半ばに,ichI, everichevery, -lich → -ly の変化が著しく生じたことが読み取れる.
 もう少し細かくいえば,問題の3項目を比べる限り,ich, everich, -lich の順で,語尾の ch が,とりわけ子音の前位置において脱落していったことがわかる.この変化に関して重要なのは,音節境界における音韻的な要因は確かに作用しているものの,そこに語彙的な要因がかぶさるように作用しているらしいことである.Schlüter (228) の調査のまとめ部分を引用しよう.

. . . the affricate [ʧ] in final position has turned out to constitute another weak segment whose disappearance is codetermined by syllable structure constraints militating against the adjacency of two Cs or Vs across word boundaries. . . . [T]he three studies have shown that the demise of final [ʧ] proceeds at different speeds depending on the item concerned: it is given up fastest in the personal pronoun, not much later in the quantifier, and most hesitantly in the suffix. In other words, the phonetic erosion is overshadowed by lexical distinctions. Relics of the obsolescent long variants are typically found in high-frequency collocations like ich am or everichone, where the affricate is protected from erosion by the ideal phonotactic constellation it ensures.


 関連して,「#40. 接尾辞 -ly は副詞語尾か?」 ([2009-06-07-1]) 及び「#832. everyeach」 ([2011-08-07-1]) も参照.

 ・ Schlüter, Julia. "Weak Segments and Syllable Structure in ME." Phonological Weakness in English: From Old to Present-Day English. Ed. Donka Minkova. Basingstoke: Palgrave Macmillan, 2009. 199--236.

[ 固定リンク | 印刷用ページ ]

2014-02-12 Wed

#1752. interpretorinterpreter (2) [spelling][suffix][corpus][emode][hc][ppcme2][ppceme][archer][lc]

 標記の件については「#1740. interpretorinterpreter」 ([2014-01-31-1]) と「#1748. -er or -or」 ([2014-02-08-1]) で触れてきたが,問題の出発点である,16世紀に interpretorinterpreter へ置換されたという言及について,事実かどうかを確認しておく必要がある.この言及は『英語語源辞典』でなされており,おそらく OED の "In 16th cent. conformed to agent-nouns in -er, like speak-er" に依拠しているものと思われるが,手近にある16世紀前後の時代のいくつかのコーパスを検索し,詳細を調べてみた.
 まずは,MED で中英語の綴字事情をのぞいてみよう.初例の Wycliffite Bible, Early Version (a1382) を含め,33例までが -our あるいは -or を含み,-er を示すものは Reginald Pecock による Book of Faith (c1456) より2例のみである.初出以来,中英語期中の一般的な綴字は,-o(u)r だったといっていいだろう.
 同じ中英語の状況を,PPCME2 でみてみると,Period M4 (1420--1500) から Interpretours が1例のみ挙った.
 次に,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,2期に区分されたコーパスの第2期分 (1580--1680) から interpreterinterpretor がそれぞれ1例ずつあがったにすぎない.
 続いて,MEMEM (Michigan Early Modern English Materials) を試す.このオンラインコーパスは,こちらのページに説明のあるとおり,初期近代英語辞書の編纂のために集められた,主として法助動詞のための例文データベースだが,簡便なコーパスとして利用できる.いくつかの綴字で検索したところ,interpretour が2例,いずれも1535?の Thomas Elyot による The Education or Bringing up of Children より得られた.一方,現代的な interpreter(s) の綴字は,9の異なるテキスト(3つは16世紀,6つは17世紀)から計16例確認された.確かに,16世紀からじわじわと -er 形が伸びてきているようだ.
 LC (The Lampeter Corpus of Early Modern English Tracts) は,1640--1740年の大衆向け出版物から成る約119万語のコーパスだが,得られた7例はいずれも -er の綴字だった.
 同様の結果が,約330万語の近現代英語コーパス ARCHER 3.2 (A Representative Corpus of Historical English Registers) (1600--1999) でも認められた.1672年の例を最初として,13例がいずれも -er である.
 最後に,中英語から近代英語にかけて通時的にみてみよう.HC (Helsinki Corpus) によると,E1 (1500--70) の Henry Machyn's Diary より,"he becam an interpretour betwen the constable and certein English pioners;" が1例のみ見られた.HC を拡大させた PPCEME によると,上記の例を含む計17例の時代別分布は以下の通り.

 -o(u)r-er(s)
E1 (1500--1569)21
E2 (1570--1639)35
E3 (1640--1710)06


 以上を総合すると,確かに16世紀に,おそらくは同世紀の後半に,現代的な -er が優勢になってきたものと思われる.なお,OED では,1840年の例を最後に -or は姿を消している.

[ 固定リンク | 印刷用ページ ]

2014-02-03 Mon

#1743. ICE Frequency Comparer [corpus][web_service][cgi][frequency][new_englishes][variety][ice]

 「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]), 「#1739. AmE-BrE Diachronic Frequency Comparer」 ([2014-01-30-1]) で,the Brown family of corpora ([2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照)を利用した,変種間あるいは通時的な頻度比較ツールを作った.Brown family といえば,似たような設計で編まれた ICE (International Corpus of English) も想起される([2010-09-26-1]の記事「#517. ICE 提供の7種類の地域変種コーパス」を参照).1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパス群で,互いに比較可能となるように作られている.
 そこで,手元にある ICE シリーズのうち,Canada, Jamaica, India, Singapore, the Philippines, Hong Kong の英語変種コーパス計6種を対象に,前と同じように頻度表を作り,データベース化し,頻度比較が可能となるツールを作成した.使い方については,「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) を参照されたい.

    
Sort: ICE-Canada frequency ICE-Jamaica frequency ICE-India frequency ICE-Singapore frequency ICE-Philippines frequency ICE-Hong Kong frequency alphabetically nothing (non-regex mode only)


 どんな使い道があるかは,アイデア次第だが.例えば,"^snow(s|ed|ing)?$", "^Japan(ese)?$", "^bananas?$", "^Asia(n?)s?$" などで検索してみるとおもしろいかもしれない.

Referrer (Inside): [2020-09-25-1] [2015-04-22-1]

[ 固定リンク | 印刷用ページ ]

2014-01-30 Thu

#1739. AmE-BrE Diachronic Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][representativeness]

 「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で,2006年前後の書き言葉テキストを編纂した英米各変種コーパスを紹介し,それに基づいた頻度比較ツールを作成・公開した.そのツールを作成しながら気づいたのだが,同じ方法で編纂され,規模も同じく100万語程度の the Brown family of corpora (「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1]))と連携させれば,直近50年間ほどの通時的な英米間頻度比較が容易に可能となる.
 そこで,前の記事で紹介した Professor Paul Baker - Linguistics and English Language at Lancaster University による AmE06 と BrE06 に加えて,書き言葉アメリカ英語を代表する Brown (1961), Frown (1992),書き言葉イギリス英語を代表する LOB (1961), FLOB (1991) より語形頻度表を抽出し,合わせてデータベース化した.利用の仕方は,AmE-BrE 2006 Frequency Comparer とほぼ同じなので,そちらの取説 ([2014-01-21-1]) を参照されたい.ただし,出力される表では,問題の語形が出現するテキストの数や頻度順位は省いており,純粋に約100万語当たりの頻度を表示するにとどめているので,AmE06 と BE06 について前者の情報が必要な場合には,AmE-BrE 2006 Frequency Comparer をどうぞ.

    
Sort: by Brown freq by LOB freq by Frown freq by FLOB freq by AmE06 freq by BE06 freq alphabetically nothing (non-regex mode only)

 例えば,^movies?$ と入力してみると,伝統的にアメリカ英語的とされてきたこの語の分布が,過去50年ほどの間に,イギリス英語にも浸透してきている様子がわかる.
 英米差の通時的な変化を調査したいのであれば,単語だけではなく語句も受けつけ,かつ規模も巨大な「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) のほうが簡便だろう.しかし,今回のツールは,the Brown family of corpora をベースにしているがゆえに,(1) 均衡かつ比較可能であり,(2) 「素性」がわかっている(再現可能性が確保されている)という利点があることは指摘しておきたい.望ましいのは,小型できめ細かなコーパスと,大型で傾向を大づかみにするコーパスとを上手に連携させることだろう.

[ 固定リンク | 印刷用ページ ]

2014-01-21 Tue

#1730. AmE-BrE 2006 Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][spelling]

 先日,Professor Paul Baker - Linguistics and English Language at Lancaster University というページを教えてもらった.Baker 氏の編纂した現代英語・米語コーパス BE06 と AmE06 の情報と,そこから抽出した単語リストが得られる.当該のコーパス自体は,ユーザIDを請求すれば,ランカスター大学の CQP (Corpus Query Processor) system よりアクセスできる.
 BE06 と AmE06 は,2006年前後に出版されたイギリス変種とアメリカ変種の書き言葉均衡コーパスである.編纂方式や構成は「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1]) で紹介した The Brown family に準じており,500テキスト×2000語の計100万語ほどの規模だ.
 さて,上のページからダウンロードできる BE06 Wordlist in WordSmith 5 formatAmE06 Wordlist in WordSmith 5 format より(見出し語ではなく)語形による頻度表を抽出し,それぞれをデータベース化して,英米変種の語の頻度を比較してくれる AmE-BrE Frequency 2006 Comparer なるツールを作成してみた.

    
Sort: by AmE freq by BrE freq alphabetically nothing (non-regex mode only)


 入力するのは原則としてPerl5相当の正規表現だが,カンマ,タブ,改行などで区切った(非正規表現の)単語リストも受け付ける.1つの語形のみを入力したい場合には ^ と $ で挟んで ^loves$ のようにするか,あるいは "nothing (non-regex mode only)" のラジオボックスをオンにする.
 出力形式は,デフォルトではアメリカ英語コーパスにおける頻度の高い順でソートされるようになっている ("by AmE freq") が,イギリス英語コーパスの頻度順 ("by BrE freq"),語形のアルファベット順 ("alphabetically") も可能.単語リストで入力した場合に,入力したそのままの順序で出力したいときには,"nothing (non-regex mode only)" をオンにする.
 いずれも100万語規模の(今となっては)小さめのコーパスなので,語形によっては十分な頻度が得られないこともあるが,簡便に英米差をチェックしたいときには便利だろう.出力結果の WORD, AME_2006, BRE_2006 の3列を切り出して,最後の行にコーパスサイズとして "total\t1000000\t1000000" と補ったうえで,Log-Likelihood Tester, Ver. 1 に放り込めば,英米差を統計的に検定することができる.
 例として,「#244. 綴字の英米差のリスト」 ([2009-12-27-1]) のうち,とりわけよく知られている類の米英綴字のペアを抜き出したリストを挙げよう.以下をコピーして,上のテキストボックスに放り込み,"nothing (non-regex mode only)" を選択して実行すると,数値として米英差が実感できる.

acknowledgment, acknowledgement, aging, ageing, aluminum, aluminium, analyze, analyse, apologize, apologise, armor, armour, behavior, behaviour, center, centre, civilization, civilisation, color, colour, defense, defence, disk, disc, endeavor, endeavour, favor, favour, favorite, favourite, fiber, fibre, flavor, flavour, fulfill, fulfil, gray, grey, harbor, harbour, honor, honour, humor, humour, inquiry, enquiry, judgment, judgement, labor, labour, license, licence, liter, litre, marvelous, marvellous, mold, mould, mom, mum, neighbor, neighbour, neighborhood, neighbourhood, odor, odour, organize, organise, pajamas, pyjamas, parlor, parlour, program, programme, realize, realise, recognize, recognise, skeptic, sceptic, specter, spectre, sulfur, sulphur, theater, theatre, traveler, traveller, tumor, tumour


 これまでは,語彙や綴字に関する英米差のコーパスによる比較は,「#708. Frequency Sorter CGI」 ([2011-04-05-1]) を用いたり,「BNC Frequency Extractor」 ([2012-12-08-1]) と「#1322. ANC Frequency Extractor」 ([2012-12-09-1]) を組み合わせたり,the Brown Family corpora を併用するなど,各変種コーパスの個別比較により対処してきたが,今回のツールにより多少便利な環境ができた.

[ 固定リンク | 印刷用ページ ]

2014-01-07 Tue

#1716. shewshow (3) [spelling][corpus][clmet][representativeness]

 「#1415. shewshow (1)」 ([2013-03-12-1]) と「#1416. shewshow (2)」 ([2013-03-13-1]) で扱った問題を,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で紹介した The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) により再訪したい.具体的には,同タグ付きコーパスを "\bshow(s|n|ed|ing)?_VB" と "\bshew(s|n|ed|ing)?_VB" で検索して,3時代区分ごとに生起頻度数を比べた.以下の結果が出た.


shew 系列show 系列総語数
1710--17803351,54510,480,431
1780--18501593,10011,285,587
1850--1920925,11812,620,207


 前回「#1416. shewshow (2)」 ([2013-03-13-1]) で利用した PPCMBE (Penn Parsed Corpus of Modern British English) は100万語弱のコーパスだが,今回の CLMET3.0 は約3,400万語の巨大コーパスである.ほぼ同じ時代をカバーしているので比較には都合がよい.前回と同様に今回も showshew を着実に置き換えている様子がうかがえるが,前回と大きく異なるのは,1710--1780年の第1期においてすでに show が圧倒的に勝っていることである.これを信じるならば,後期近代英語期に入るまでに,すでに show は勝敗を決していたということになる.PPCMBE では shew は後期近代英語期中に「優勢→同列→劣勢」と推移したが,CLMET3.0 では「当初から劣勢→もっと劣勢→さらに劣勢」と推移している.2世紀にわたる通時的な視点からは両コーパスともに大雑把には似たような傾向を示すとはいえるものの,18世紀の共時的な分布については両コーパスの示す数値の差は大きすぎるように思われる.ここには「#1280. コーパスの代表性」 ([2012-10-28-1]) という問題が関わってきそうであり,慎重な解釈が求められることになろう.
 なお,1つの文脈で shewshow がともに用いられている興味深い例もいくつかあった.3例のみ挙げよう.

 ・ Why, you have shewn your wit upon the subject, and I mean to show your courage;
 ・ Mr. Wright, as well as Nadin, professed they were perfectly satisfied of this, and appeared to shew to me all the polite attention that they were capable of showing.
 ・ Assuredly I did not show him the face which I shewed Folderico.

Referrer (Inside): [2019-10-15-1] [2014-04-07-1]

[ 固定リンク | 印刷用ページ ]

2014-01-03 Fri

#1712. as regards [preposition][conjunction][impersonal_verb][corpus][clmet]

 標題の熟語は,形式張った文体で「?に関しては,?について(いうと)」の意味で用いられる.典型的には "As regards the result, you need not worry so much." のように新しい主題を導くのに用いられる.機能的には前置詞といってよいだろう.
 この複合前置詞は,歴史的には「#1201. 後期中英語から初期近代英語にかけての前置詞の爆発」 ([2012-08-10-1]) で示唆したように,近代英語で発達してきた.だが,細かくいえば as regards は初期近代英語ではなく後期近代英語での発達と考えられる.OED の regard, v. によると,語義 8b にこの用法が記述されており,初例としては1797年の "A distinction is made, as regards moral rectitude, in the minds of many individuals." という例文が挙げられている.

b. as regards, as regarded (now rare), †as regarding: with respect or reference to


 一方,同じ動詞の現在分詞から発展した regarding, prep. も同様に用いられるが,こちらの初例としては1779年から " The servant was called, and examined regarding the import of the answer he had brought from Madame la Comtesse." の例文が挙げられている.ただし,名詞句に後続する regarding については17世紀より例があり,これが現在分詞なのか前置詞なのかを決定することは難しい.
 初出年代の細かな問題はあるにせよ,as regardsregarding も後期近代英語期になって根付いた動詞由来の前置詞であると解釈することに大きな異論はないだろう.OED に記載のある †as regarding も含めて,動詞 regard から派生した前置詞の複数の異形が18世紀後半辺りに活躍しだしたと考えられる.
 それを確かめるべく,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で紹介した The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) により,as regards を検索してみた(as regarding は2例ほどヒット).70年間ごとに区切った頻度をまとめると以下のようになった.

DecadeFrequencyCorpus size
1710--17805 (5)10,480,431 words
1780--185070 (18)11,285,587
1850--1920347 (6)12,620,207


 OED が示唆するよりも少し早く,18世紀半ばからの例が確認される.しかし,例文を眺めてみると,おもしろいことに第1期からの例はいずれも so [as] far as regards . . . という形で現れている(上の表でかっこ内に示した頻度は,(in) so [as] far as regards . . . の形で現れる内数)."so far as regards the present subject", "as far as regards your knowledge", "so far as regards our present purpose" の如くである.第2期にも同種の例が多いことを考えると,as regardsas far as regards の省略形として発展・定着してきたとも考えられるかもしれない.
 なお,現在 as regards は複合前置詞としてとらえられており,統語的に分析する意味はないだろうが,歴史的な関心からあえて統語的に分析すれば,as は従属接続詞であり,主語を取らない非人称構文を導いているということになる.regards に後続する名詞句はあくまで動詞の目的語と分析される.

[ 固定リンク | 印刷用ページ ]

2013-11-21 Thu

#1669. longestlengest を置き換えたのはいつか? [hc][corpus][adjective][comparison][i-mutation][analogy]

 「#1649. longerleng(er) を置き換えたのはいつか?」 ([2013-11-01-1]) で,歴史的な i-mutation 形の比較級 leng(er) が,いつ類推形 longer に置換されたのかをコーパスによって調査した.今回は,同じ過程を経たと想定される最上級について同様の調査を施した結果を報告する.歴史的な i-mutation 形の最上級 lengest は,英語史のどの段階で類推形 longest に置換されたのだろうか.
 Helsinki Corpus で,語幹母音のヴァリエーションを念頭に置きつつ,両形を検索した.結果を通時的に整理すると以下のようになる.


LONGESTLENGEST
O100
O202
O3013
O403
M101
M200
M301
M401
E130
E240
E320


 比較級よりも例がずっと少ないが,傾向ははっきりしている.比較級の場合と同様に,E1 (1500--1570) が転換期となっている.もちろん,この少数の例のみで結論を急ぐことはできない.例えば,lōng (adj. (1)) の用例を参照すれば,後期中英語の15世紀の Higden's Polychronicon 訳において,"In Armeny..Ytaly and other regiones..the longeste day other ny3hte is but oonly of xv houres equinoccialle." として longest が確かに文証される.それでも,比較級のケースと通時的な分布が似ているということは,今回の結果を評価する上で,重要な点となるだろう.
 前回と同様,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,2期に区分されたコーパスの第1期分 (1418--1638) から longest が1例ヒットしたのみだったので,ここから意味ある見解を引き出すことはできかった.

[ 固定リンク | 印刷用ページ ]

2013-11-01 Fri

#1649. longerleng(er) を置き換えたのはいつか? [hc][corpus][adjective][comparison][i-mutation][analogy]

 現代英語の形容詞・副詞 long の比較級の形態は規則的な longer だが,古英語から中英語にかけては lenger (副詞としては leng も)のように語幹に前母音をもつ諸形態が用いられていた.ゲルマン祖語の比較級を表わす形態素 *-iþo が契機となって直前の語幹母音に i-mutation が生じ,本来の語幹の後母音が前母音へと変化した.その効果は,古英語 leng(ra) や中英語の leng(er) に現れている.
 ところが,原級は古英語でも中英語でも lang, long などと常に後母音を示していたので,やがて類推作用 (analogy) により比較級も原級に -er を付けるだけの規則的な形態を取るようになった.かつての i-mutation という音韻変化の効果が,類推という形態変化の効果により打ち消されたといえる.
 さて,類推により longer につらなる形態が現れたのがいつ頃のことかが気になったので,調べてみた.OED では longer として見出しは立っていないので,long の項で例文を探してみると,a1533 に longer が現れている.MED でも同じ事情だったので lōng (adj. (1)) の例文を探すと,a1400 (a1325) に langer が初出する.しかし,例文検索から得られる初出年の情報だけでは心許ない.
 一方,leng(er) の最終使用年代を調べるという逆方向の調べ方もしてみた.OED によると,副詞 leng の最終は Chaucer で c1386,形容詞・副詞の lenger は,副詞の用法としての Spenser の1590年が最終例だった.以上を総合すると,14--15世紀頃に longer が現れ,16世紀には歴史的な leng(er) を置き換えたという筋書きになりそうだ.
 だが,先に述べたように longer の見出しが立っていない以上,OED の例文に頼るのみで新旧形態の交代過程を結論づけるわけにはいかない.このような目的には,補助的に歴史コーパスが有用である.Helsinki Corpus により,ざっと新旧それぞれの異形態を拾い上げてみた.古英語では第2音節の r は原級の屈折形であることを考慮し,また取りこぼしや雑音混入の可能性にも気をつけたが,完璧ではないかもしれないことを断りつつ,以下に数字を示す.


LONGERLENG(ER)
O101
O2014
O3045
O407
M1014
M2021
M31126
M4325
E1116
E2190
E3460


 M3 (1350--1420) に longer が現れ,E1 (1500--1570) を最後に lenger が姿を消したことがわかる.1500年頃を境に新旧形態の立場が比較的急速に入れ替わったように見えるが,Helsinki Corpus も小規模なコーパスといわざるを得ないので,あくまで近似的な結論ととらえておく必要がある.だが,全体としてこの結果は OED からの証拠が示唆するところとおよそ同じであり,歴史辞書と歴史コーパスが互いに補完し合って結論を強めているといってよいだろう.
 さらに,手元にあった初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも同様の検索を施した.約24万6千語を含む第1期分 (1418--1638) と約20万4千語を含む第2期分 (1580--1680) を区別して調べたところ,以下の通りとなり,やはりおよそ16世紀後半には古い lenger が廃れたといえそうだ.


LONGERLENG(ER)
CEECS1316
CEECS2370

Referrer (Inside): [2013-11-21-1]

[ 固定リンク | 印刷用ページ ]

2013-10-20 Sun

#1637. CLMET3.0 で betweenbetwixt の分布を調査 [corpus][lmode][preposition][clmet]

 今年3月に Leuven 大学の Hendrik De Smet により The Corpus of Late Modern English Texts, version 3.0 (CLMET3.0) が公開された.編者にメールで使用許可をもらえば無償でダウンロードし利用できる.1710--1920年のイギリス英語コーパスで,約3,400万語からなるジャンルを整理したバランスコーパスである(先行版 CLMETEV の1500万語から大幅に拡大).プレーンテキストとタグ付きテキストで配布されており,70年間で分けた3つの時代区分ごとにヒット数を数える Perl スクリプトが付属しており,とりあえず使うのに便利である.コーパスの構成は以下の通り.

Sub-periodNumber of authorsNumber of textsNumber of words
1710--1780518810,480,431
1780--1850709911,285,587
1850--19209114612,620,207
TOTAL21233334,386,225

Genre1710--17801780--18501850--1920
Narrative fiction4,642,670 words4,830,7186,311,301
Narrative non-fiction1,863,8551,940,245958,410
Drama407,885347,493607,401
Letters1,016,745714,343479,724
Treatise1,114,5211,692,9921,782,124
Other1,434,7551,759,7962,481,247


 現在関心をもっている betweenbetwixt の揺れについて,後期近代英語でそれぞれがどのような分布を示すか,CLMET3.0 で軽く調査してみた.付属の検索ツールで検索した結果は,以下の通り.

Sub-periodbetweenbetwixt
1710--17804,869 words (464.58 wpm)657 (62.69 wpm)
1780--18505,457 (483.54 wpm)109 (9.66 wpm)
1850--19207,672 (607.91 wpm)51 (4.04 wpm)


 18世紀中は,between (88.11%) と並んで betwixt (11.89%) が,まだある程度の比率で使われていた.しかし,19世紀以降に激減し,現代英語における影の薄い変異形となったことがわかる.
 なお,De Smet は同じサイトで The Corpus of English Novels (CEN) も公開している.こちらは1882--1922年という1世代の間に書かれた英米の小説を集めたもので,短期間の言語変化調査や作家間の語法比較を念頭に置いたコーパスだという.全体で2,600万語からなる(内訳はソースHTMLを参照).こちらで調べると,between が9,905例 (98.86%),betwixt が114例 (1.14%) であり,確かに後者はすでに影が薄い.

[ 固定リンク | 印刷用ページ ]

2013-10-09 Wed

#1626. 現代日本語書き言葉均衡コーパス BCCWJ の各種インターフェース [web_service][corpus][link][japanese]

「#1567. 英語と日本語のオンラインコーパスをいくつか紹介」 ([2013-08-11-1]) で,現代日本語のコーパスとしてKOTONOHA 「現代日本語書き言葉均衡コーパス」に言及した.この『現代日本語書き言葉均衡コーパス』 (BCCWJ: Balanced Corpus of Contemporary Written Japanese) は,大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した本格的なコーパスである.
 コーパスの内容については,同サイトに「2012年3月現在、検索対象となっているのは、以下の11種のデータ、合計約1億500万語です」とある.サンプルは,1976--2008年にかけての文書で,その11のジャンルは書籍,雑誌,新聞,白書,教科書,広報紙,Yahoo!知恵袋,Yahoo!ブログ,韻文,法律,国会会議録にわたる.各テキストからは2種類のサンプルが取られており,「ひとつは長さを1000字に固定したサンプル (固定長サンプル)、もうひとつは、節や章など文章の意味上のまとまりに対応した単位の全体です (可変長サンプル)。これまでの調査によれば、可変長サンプルの平均長は新聞で約1000字、書籍で4000字弱です。」とある.
 BCCWJ を利用する方法やインターフェースはいくつかあるが,もっとも簡便なものが,上にもリンクを張った少納言である.登録不要で,表層の文字列によるコーパスの全文検索ができる.出力は無作為の500件と制限があるが,お手軽に試すことができる.
 一方,利用申請が必要な中納言では,同コーパスに対して,短単位・長単位・文字列の3つの方法により,形態論的な複雑な検索をかけることができる.
 また別のインターフェーとして,NINJAL-LWP for BCCWJ (NLB) がある.現行の1.20版では,BBCWJ のほとんどのデータを対象として,検索をかけることができる.検索ページはこちら
 関連して,NLB と同じインターフェースで利用できるもう1つの日本語コーパスを紹介する.筑波大学がウェブサイトからテキストを収集して編纂した11億語からなる筑波ウェブコーパス (Tsukuba Web Corpus: TWC) へのインターフェース,NINJAL-LWP for TWC (NLT)である.検索ページはこちら

[ 固定リンク | 印刷用ページ ]

2013-10-04 Fri

#1621. The Middle English Grammar Corpus (MEG-C) [corpus][preposition][me_dialect]

 ノルウェーの Stavanger 大学で,Merja Stenroos 氏が中心となって The Middle English Scribal Texts Programme (MEST) が進行中である.Glasgow 大学と Helsinki 大学の協力のもとに,中英語のテキストのコーパス化が進んでいる.このプログラムは具体的には2つのプロジェクトからなり,1つは1998年に Glasgow 大学が立ち上げた Middle English Grammar Project の延長線上にある The Middle English Grammar Corpus (MEG-C) の編纂で,もう1つは2012年に開始された Language and Geography in Middle English Local Documents (MELD) である.
 今回は,前者のプロジェクト MEG-C について紹介したい.このコーパスは,後期中英語の方言地図 LALME のソースとなったテキストを電子化するという目的で編纂されている.姉妹版である初期中英語の方言地図 LAEME が最初からコーパス付きでオンライン公開されたのと対照的に,LALME では,編纂された時代が時代だけに,方言地図が紙媒体で公表されたにすぎなかった.2013年に LALME が改訂・電子化され eLALME としてアクセスできるようになったが,方言地図作成のもととなった資料自体は電子化されていなかった.現在,そのコーパスファイル群がMEG-C files から自由にダウンロードできるようになっている.
 MEG-C は,実際には LALME の参照した1350--1500年のソーステキストのみならず,より早い時期のテキストをも含むコーパスとして成長している.長いテキストについては3000語のサンプルを取って収容しているが,現行の2011.1版では,目標とするテキストの半分ほどがカバーされているという.写本やファクシミリから転写しているというから,LAEME のコーパスに勝るとも劣らぬ大変な労力である.ありがたく利用させていただきたい.
 早速,MEG-C にちょっとした検索をかけてみた.「#1394. between の異形態の分布の通時的変化」 ([2013-02-19-1]) で見た between の歴史的異形の分布のなかで,とりわけ語尾において x をもつ betwix(t) タイプが,後期中英語でどれくらい使用されていたかに関心があった.そこで検索してみると,104例が -x で終わるタイプ,14例が -xe で終わるタイプ,2例が -xt で終わるタイプという結果が出た.この頻度の傾向は,Helsinki Corpus による M3--M4期からの証拠とほぼ符合する.互いのコーパスの信頼度を測ることができたといえるだろう.
 中英語の方言研究も,ますますツールが充実してきた感がある.

 ・ Stenroos, Merja, Martti Mäkinen, Simon Horobin, and Jeremy Smith. The Middle English Grammar Corpus, version 2011. 1. U of Stavanger, 2011. Online at http://www.uis.no/research/culture/the_middle_english_grammar_project/. Accessed : 4 October 2013.

Referrer (Inside): [2013-10-05-1]

[ 固定リンク | 印刷用ページ ]

2013-08-11 Sun

#1567. 英語と日本語のオンラインコーパスをいくつか紹介 [web_service][corpus][efl][link][japanese]

 ウェブ上で用いることのできるコーパスをいくつか紹介したい.
 まず,「#1441. JACET 8000 等のベース辞書による語彙レベル分析ツール」 ([2013-04-07-1]) で取り上げた染谷泰正氏は,Business Letter Corpus のオンライン・コンコーダンサーをこちらで公開している.27種のコーパスからの検索が選択可能となっているが,メインは100万語超からなる Business Letter Corpus (BLC2000) とそれにタグ付けした POS-tagged BLC の2つだ.これは1970年代以降の英米その他の出版物から収集したデータである.
 Instructions for the First-Time User でまとめられているように,種々のコーパスのなかには,167万語を超える State of the Union Address (1790--2006) などデータをダウンロードできるものもあり,有用である.英作文の学習・教育や,独自データベースのコンコーダンサー作成のために参考になる.
 なお,同サイトでは,上述の各種コーパスから N-Gram Search を行なえる Bigram Plus の機能も提供している.N-Gram の検索には,本ブログより「#956. COCA N-Gram Search」 ([2011-12-09-1]) も参照.
 次は,英国のリーズ大学 (University of Leeds) が作成した大規模な Leeds collection of Internet corpora.英語を始め,フランス語,日本語などの様々な言語のコーパスをオンラインで検索できる.
 日本語のコーパスの情報については詳しくないが,KOTONOHA 「現代日本語書き言葉均衡コーパス」は充実しているようだ.ほかの日本語コーパスの情報源としては,コーパス日本語学のための情報館 --- コーパス紹介が有用.

Referrer (Inside): [2013-10-09-1]

[ 固定リンク | 印刷用ページ ]

2013-07-30 Tue

#1555. unbeknownst [phonetics][corpus]

 昨日の記事「#1554. against の -st 語尾」 ([2013-07-29-1]) に引き続き,非語源的 -st 語の話題.標題の形式張った表現がある.主として文頭などに置かれ,文修飾として「?に知られないで」の意味で用いられる.BrE では unbeknown to が多く用いられるが,AmE では古めかしく見える unbeknownst to がより一般的である.unbeknow(e)ns のように -t が落ちた非標準的な形態も見られる.例文を挙げよう.

 ・ Unbeknownst to his parents, he and his girlfriend had gotten married.
 ・ Unbeknownst to her father, she began taking dancing lessons.
 ・ Unbeknownst to the students, the teacher had entered the room.
 ・ A person may overhear others unbeknownst to them.


 中英語にあった動詞 beknown (recognise, acknowledge) の否定過去分詞形 unbeknown がもとになっている(MEDbiknouen (v) を参照).OED によると,否定の接頭辞 un- のついた unbeknown は1636年に初出しているが,さらに語尾に -st を付加した unbeknownst の初出は1854年である.後者はもともと口語的,方言的な響きがあったようだが,20世紀にかけて広く使われるようになった.実際に,COCA (Corpus of Contemporary American English)Google Books Ngram Viewer で調べてみると,英米変種ともに20世紀後半からの伸び率が著しい.
 さて,unbeknownst の -st の語尾音添加 (paragoge) が説明を要する問題である.OED では不明とされており,各種の語源辞典では against, amongst などの -st 語尾からの類推だろうかと自信なさげに述べられている程度である.これらの語と unbeknownst to との類似点は, 前置詞的に機能しているということと,-st の直前の音が鼻音であることぐらいだろうか.-st(t)- という子音連続の観点からは,next to, thanks to などの表現とも関連してくるかもしれない.また,ほかの非語源的な -st 語 (against, amidst, amongst, betwixt, whilst) を並べてみると,およそ「間,中,最中」という共通の意味がくくり出されるように思われるが,unbeknownst も「知られない間に」と解釈することはできる.
 非語源的 -st 語に関する記事へのリンクを昨日の記事[2013-07-29-1]の末尾にまとめておいたので,要参照.

(後記 2014/02/24(Mon):Merriam-Webster の辞書の記述を参照.)

Referrer (Inside): [2013-08-17-1]

[ 固定リンク | 印刷用ページ ]

2013-05-13 Mon

#1477. The Salamanca Corpus --- 近代英語方言コーパス [corpus][emode][dialect][dialectology][caxton][popular_passage]

 英語史では,中英語の方言研究は盛んだが,近代英語期の方言研究はほとんど進んでいない.「#1430. 英語史が近代英語期で止まってしまったかのように見える理由 (2)」 ([2013-03-27-1]) でも触れた通り,近代英語期は英語が標準化,規範化していった時期であり,現代世界に甚大な影響を及ぼしている標準英語という視点に立って英語史を研究しようとすると,どうしても標準変種の歴史を追うことに専心してしまうからかもしれない.その結果か,あるいは原因か,近代英語方言テキストの収集や整理もほとんど進んでいない状況である.近代英語の方言状況を知る最大の情報源は,いまだ「#869. Wright's English Dialect Dictionary」 ([2011-09-13-1]) であり,「#868. EDD Online」 ([2011-09-12-1]) で紹介した通り,そのオンライン版が利用できるようになったとはいえ,まだまだである.
 2011年より,University of Salamanca がこの分野の進展を促そうと,近代英語期 (c.1500--c.1950) の方言テキストの収集とデジタル化を進めている.The Salamanca Corpus: Digital Archive of English Dialect Texts は,少しずつ登録テキストが増えてきており,今後,貴重な情報源となってゆくかもしれない.
 コーパスというよりは電子テキスト集という体裁だが,その構成は以下の通りである.まず,内容別に DIALECT LITERATURE と LITERARY DIALECTS が区別される.前者は方言で書かれたテキスト,後者は方言について言及のあるテキストである.次に,テキストの年代により1500--1700年, 1700--1800年, 1800--1950年へと大きく3区分され,さらに州別の整理,ジャンル別の仕分けがなされている.
 コーパスに収録されている最も早い例は,LITERARY DIALECTS -> 1500--1700年 -> The Northern Counties -> Prose と追っていったところに見つけた William Caxton による Eneydos の "Prologue"(1490年)だろう.テキストは221語にすぎないが,こちらのページ経由で手に入る.[2010-03-30-1]の記事「#337. egges or eyren」で引用した,卵をめぐる方言差をめぐる話しを含む部分である.やや小さいが,刊本画像も閲覧できる.Caxton の言語観を知るためには,[2010-03-30-1]の記事で引用した前後の文脈も重要なので,ぜひ一読を.

[ 固定リンク | 印刷用ページ ]

2013-04-06 Sat

#1440. 音節頻度ランキング [syllable][corpus][lexicon][phonetics][frequency][statistics]

 「#1424. CELEX2」 ([2013-03-21-1]) で紹介した巨大データベースで何かしてみようと考え,Version 2 で新たに加えられた音節頻度 (English Frequency, Syllables) のサブデータベースにより,現代英語で最も多い音節タイプのランキングを得た.
 これは,CELEX2 のもとになっているコーパス全体のうち,7.26%を構成する約130万語の話し言葉サブコーパスから引き出された音節頻度であり,タイプ頻度ではなくトークン頻度によるものである.つまり,話し言葉におけるある単語の頻度が高ければ,その分,その単語に含まれる音節タイプの頻度も高くなるということである.例えば,of を構成する "Ov" (= /ɒv/) と表現される音節は,第4位の頻度である.なお,強勢の有無は考慮せずに頻度を数えている.
 以下のリストに挙げる音素表記は,IPA ではなく CELEX 仕様の独特の表記なので,先に対応表を挙げておこう.

CELEX2 Phonetic Character Set

 では,以下にランキング表でトップ50位までを掲載する.高頻度の単音節語の音節タイプがそのまま上位に反映されていて,あまりおもしろい表ではないが,何かの役に立つときもあるかもしれない.

RankSyllableFrequency
1eI72971
2Di:60967
3tu:31446
4Ov30108
5In29906
6&nd28709
7aI23822
8lI19728
9@19566
10rI14356
11ju:12598
12dI12465
13D&t12118
14It11504
15wOz10834
16fO:r*9778
17Iz9517
18tI9161
19fO9042
20Sn,8969
21hi:8928
22r@n8638
23bi:8505
24bI7936
25nI7068
26wID7046
27On7030
28&z6919
29O:l6569
30h&d6240
31E6165
32bl,6021
33sI5836
34@U5824
35t@r*5687
36&t5652
37hIz5564
38bVt5416
39mI5397
40s@5391
41nOt5357
42D@r*5339
43I5283
44tId5259
45DeI5162
46IN5063
47t@5053
48s@U4974
49baI4894
50h&v4769


 全ランキング表を見たい方は,タブ区切り形式で Syllable Frequency Rank Table by CELEX2 を参照.ブラウザ上で閲覧したい方は,こちらからどうぞ.全体としては11492の異なる音節タイプが登録されており,頻度が1以上のものは7934タイプある.「#1023. 日本語の拍の種類と数」 ([2012-02-14-1]) の最後で,英語の音節タイプが日本語に比べて驚くほど多種多様であることに触れたが,この数をみれば納得できるだろう.関連して,syllable の各記事を参照.
 なお,CELEX2 のマニュアルには以下の但し書きが記されていたので,再掲しておく.

Please note that the English corpus used by CELEX for deriving these frequencies contains only 7.3% spoken material. This means there is a rather tenuous relationship between the full frequency figures, which are based on written forms, and the syllable frequencies, which merely refer to phonemic conversions of these graphemic transcriptions. Of course it could be argued that frequencies of syllables, as lexical sub-units, are less liable to get skewed from differences in medium than full words, but it has to be taken into account that NO FIRM EVIDENCE ABOUT SPOKEN FREQUENCIES can be derived from these data.

Referrer (Inside): [2019-07-03-1]

[ 固定リンク | 印刷用ページ ]

2013-03-25 Mon

#1428. ye = the [palaeography][spelling][thorn][th][pub][alphabet][graphemics][ppcme2][ppceme][ppcmbe][corpus]

 「#13. 英国のパブから ye が消えていくゆゆしき問題」 ([2009-05-11-2]) で,yeye が定冠詞 the の代わりに用いられる擬古的な綴字について触れた.
 þ (thorn) と y との字形の類似による混同は中英語期から見られたが,この混乱がいわば慣習化したのは þ が衰退してからである.þ が廃れていったのは,「#1329. 英語史における eth, thorn, <th> の盛衰」 ([2012-12-16-1]) や「#1330. 初期中英語における eth, thorn, <th> の盛衰」 ([2012-12-17-1]) で確認したように,Helsinki Corpus の時代区分によるME第4期 (1420--1500) 以降である.それに呼応して,擬古的な定冠詞 ye は近代英語期に入ってから頻度を増してきた.OED を参照すると,ye の使用は中英語から17世紀にかけて,とある.
 では,中英語から初期近代英語にかけて,具体的にどの程度 ye が用いられたのだろうか.これを調べるために PPCME2, PPCEME, PPCMBE のPOSファイル群で "ye/D" を検索してみた.MEからは1例のみ,EModEから1259例,LModEから5例が挙がった.各コーパスはおよそ130万語,180万語,100万語からなるが,総語数を考えずとも,傾向は歴然としている.初期近代英語で急激に現われだし,一気に衰微したということである.ただし,PPCEME の1259例のうち975例は,The Journal of George Fox (1673--74) という1作品からである.ほかには10例以上現われるテキストが4つあるのみで,残りは20テキストに少数例ずつ散らばっているにすぎないという分布ではある.隆盛を極めたというよりは,地味な流行といった感じだろうか.
 先日,ロンドンを訪れた際に,145 Fleet St の老舗パブ "Ye Olde Cheshire Cheese" と 42 Ludgate Hill の "Ye Olde London" の看板を撮影してきた.残念ながらここでエールを一杯やる機会はなかったけれども,別のパブでは一杯(だけではなく)やりました.

Ye Olde Cheshire Cheese Ye Olde London

Referrer (Inside): [2015-12-24-1]

[ 固定リンク | 印刷用ページ ]

2013-03-21 Thu

#1424. CELEX2 [corpus][dictionary][statistics][frequency][lexicology]

 英単語の頻度に関連する諸研究(Betty Phillips など)で,CELEX という語彙データベースが使用されているのを見かけることがある.現在取りかかっている研究で,巨大コーパスに基づいた信頼できる語彙頻度統計が必要になったので,郵送料込みで350ドルするこの高価なデータベースを入手してみた.現行版は第2版であり,CELEX2 として購入できる.(なお,予想していなかったが,入手した CD-ROM には,LDC99T42 というデータベースも含まれていた.ここには tagged Brown Corpus, Wall Street Journal, Switchboard tagged など Treebank 系のコーパスが入っている.)
 さて,CELEX2 には,英語語彙に関する複数のデータベースが納められている.それぞれのデータベースには,正書法,音韻,音節,形態,統語の各観点から,見出し語 (lemma) あるいは語形 (wordform) ごとに,ソース・コーパス内での頻度等の情報が格納されている.具体的には,次の11のデータベースが利用可能である.

 ect (English Corpus Types)
 efl (English Frequency, Lemmas)
 efs (English Frequency, Syllables)
 efw (English Frequency, Wordforms)
 eml (English Morphology, Lemmas)
 emw (English Morphology, Wordforms)
 eol (English Orthography, Lemmas)
 eow (English Orthography, Wordforms)
 epl (English Phonology, Lemmas)
 epw (English Phonology, Wordforms)
 esl (English Syntax, Lemmas)

 見出し語あるいは語形ごとの token 頻度の取り出しに強いデータベースという認識で購入したが,実際には,含まれている情報の種類は驚くほど豊富で,11のデータベースすべてを合わせたフィールド数はのべ250以上に及ぶ.行数は efl で52,447行,efw で160,595行という巨大さだ.検索用の SQLite DB をこしらえたら,容量にして90MBを超えてしまった.
 CELEX2 のソースは,辞書情報については Oxford Advanced Learner's Dictionary (1974) 及び Longman Dictionary of Contemporary English (1978) であり,頻度情報については 1790万語からなる COBUILD/Birmingham corpus である.このコーパスの構成は,1660万語 (92.74%) が書き言葉コーパス,130万語 (7.26%) が話し言葉コーパスで,前者を構成する284テキストのうち44テキスト (15.49%) がアメリカ英語である.しかし,これらのアメリカ英語はほとんどがイギリス英語の綴字に直されていることに注意したい.
 CELEX2 における "lemma" の定義は,以下の5点に依存する.

 (1) orthography of the wordforms: peek vs peak
 (2) syntactic class: meet (adj.) vs meet (adv.)
 (3) inflectional paradigm: water (v.) vs water (n.)
 (4) morphological structure: rubber (someone or something that rubs) vs rubber (the elastic substance)
 (5) pronunciation of the wordforms: recount [ˈriː-kaʊnt] vs recount [rɪ-ˈkaʊnt]

 したがって,通常異なる lexeme として扱われる bank (土手)と bank (銀行)などは,CELEX2 では同一の lemma として扱われているので注意が必要である.
 このように CELEX2 は非常に強力な語彙頻度データベースだが,その他にも語彙頻度研究に資するデータベースやツールは存在する.本ブログで触れたものとしては,frequency statistics lexicology の各記事や,特に以下の記事が参考になるだろう.

 ・ 「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1])
 ・ 「#607. Google Books Ngram Viewer」 ([2010-12-25-1])
 ・ 「#708. Frequency Sorter CGI」 ([2011-04-05-1])
 ・ 「#1159. MRC Psycholinguistic Database Search」 ([2012-06-29-1])

 ・ Baayen R. H., R. Piepenbrock and L. Gulikers. CELEX2. CD-ROM. Philadelphia: Linguistic Data Consortium, 1996.

[ 固定リンク | 印刷用ページ ]

2013-03-20 Wed

#1423. 初期近代英語の3複現の -s (2) [verb][conjugation][emode][corpus][ppceme][ppcbme][number][agreement][analogy][3pp]

 「#1413. 初期近代英語の3複現の -s」 ([2013-03-10-1]) の記事の続き.前の記事では,PPCEME による検索で,3複現の -s の例を50件ほど取り出すことができたと述べたが,文脈を見ながら手作業で整理したところ,全52例が確認された(データのテキストファイルはこちら).
 PPCEME では,E1 (1500--1569), E2 (1570--1639), E3 (1640--1710) の3期が区分されているが,その区分ごとに3複現の -s の生起数を示すと以下のようになる(各期のコーパスの総語数も示した).

PeriodTokensWordcount
E1 (1500--1569)13567,795
E2 (1570--1639)18628,463
E3 (1640--1710)21541,595
Total521,737,853


 Queen Elizabeth I's Boethius (E2), Thomas Middleton's A chaste maid in Cheapside (E2), Celia Fiennes's journeys (E3) などの特定のテキストに数回以上生起するとはいえ,全体として少ない生起数ながらも,およそむらなく分布しているとは言えるかもしれない.例文を眺めてみると,以下のように主語と動詞の倒置がみられるものがいくつかあり,現代英語の「there is + 複数名詞」のような構文を想起させる.

 ・ and after them comys mo harolds,
 ・ Here comes our Gossips now,
 ・ Now in goes the long Fingers that are wash't Some thrice a day in Vrin,


 さて,Lass (166) に3複現の -s について関連する言及を見つけたので,紹介しておこう.Lass は,3複現の -s の起源について,単数に比べれば時代は遅れたものの,北部方言からの伝播だと考えているようだ.

The {-s} plural appears considerably later than the {-s} singular, and if it too is northern (as seems likely), it represents a later diffusion. The earliest example cited by Wyld ([History of Modern Colloquial English] 346) is from the State Papers of Henry VIII (1515): 'the noble folk of the land shotes at hym'. It is common throughout the sixteenth and seventeenth centuries as a minority alternant of zero, and persists sporadically into the eighteenth century.


 16,17世紀を通じて行なわれていたということは,上記の PPCEME からの例で確かに認められた.なお,後期近代英語をカバーする PPCMBE で18世紀以降の状況を調べてみると,こちらの6例が挙がった.しかし,実体の数と観念の上で焦点化される数との不一致の例と読めるものも含まれており([2012-06-14-1]の記事「#1144. 現代英語における数の不一致の例」を参照),後期近代英語では3複現の -s は皆無に近いと考えてよさそうだ.


 ・ Lass, Roger. "Phonology and Morphology." 1476--1776. Vol. 3 of The Cambridge History of the English Language. Ed. Roger Lass. Cambridge: CUP, 1999. 56--186.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow