hellog〜英語史ブログ     ChangeLog 最新    

archer - hellog〜英語史ブログ

最終更新時間: 2019-02-17 07:05

2018-01-12 Fri

#3182. ARCHER で colourcolor の通時的英米差を調査 [ame_bre][spelling][archer][corpus][mode][webster]

 意外と簡単にできる調査として,標題の例を紹介したい.近代英米語コーパス「#1802. ARCHER 3.2」 ([2014-04-03-1]) を用いて,綴字の英米差の通時的な調査を手軽に行える.例として,最も知られている <colour> と <color> の英米差を調べてみよう.
 ARCHER Untagged にアクセスし,検索欄に "colour*" と "color*" 入れ,それぞれの結果を取り出す.それを「#1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter)」 ([2014-04-09-1]) にかけて,自動的に4つの図表を作成させる.この図表により,両綴字の英米差について,1600--1999年を8区分した時代別に,そして12のジャンル別に比較することが可能となる.時代区分とジャンルは以下の通り.

 ・ P1 = 1600--49, P2 = 1650--99, P3 = 1700--49, P4 = 1750--99, P5 = 1800--49, P6 = 1850--99, P7 = 1900--49, P8 = 1950--99
 ・ a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries

 では,まずイギリス英語からみていこう.上の図表が伝統的なイギリス式の <colour> の数値を示し,下が典型的にアメリカ式スペリングといわれる <color> の数値である.期待を裏切らず,イギリス英語では時代にかかわらず,ほぼ <colour> 一辺倒といってよい.

<colour> in BrE in ARCHER
<color> in BrE in ARCHER

 次にアメリカ英語の結果だが,こちらも英語史の期待を裏切らない.P4(1750--99年)までは伝統を受け継ぐ <colour> の綴字が圧倒的だが,P5 以降は著しく衰退し,代わりに <color> が伸びていく.P5 といえば,Noah Webster が An American Dictionary of the English Language を出版した1828年を含む半世紀の時代区分であり,米国式スペリングがその後数十年の時間をかけつつ定着していく様をよく表わしている.

<colour> in AmE in ARCHER
<color> in AmE in ARCHER

 現在は超巨大な Google Books Ngram Viewer に簡単にアクセスできるため,ARCHER よりもさらに簡便に同じような調査を行えるようになっている.しかし,ARCHER ではコンコーダンス・ラインを引き出せるために文の中身を吟味することもできるし,ヒット件数が手作業でまかなえるほどに抑えられるというのも,考えようによっては利点といえる.要は使い方次第だ.ARCHER を使用した他の調査例として,「#1806. ARCHER で shew と show」 ([2014-04-07-1]),「#1807. ARCHER で between と betwixt」 ([2014-04-08-1]),「#1752. interpretorinterpreter (2)」 ([2014-02-12-1]) も参照.

[ | 固定リンク | 印刷用ページ ]

2014-04-09 Wed

#1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter) [cgi][web_service][corpus][archer][mode]

 この2日間の記事「#1806. ARCHER で shewshow」 ([2014-04-07-1]) と「#1807. ARCHER で betweenbetwixt」 ([2014-04-08-1]) で,ARCHERUntagged 版 を用いて,語の変異形の頻度が通時的にどのように推移してきたかを調査した.
 近代英語の初期から後期を含むコーパスとしては,ほかに CEECS (The Corpus of Early English Correspondence, LC (The Lampeter Corpus of Early Modern English Tracts), CLMET3.0 (The Corpus of Late Modern English Texts, version 3.0), PPCMBE, COHA などがあり,それぞれに特徴があるが,ARCHER は,1600--1999年というまとまった期間をカバーし,英米変種それぞれについてジャンル分けがなされており,比較的大型の歴史コーパスとして価値が高い.しかし,「#1802. ARCHER 3.2」 ([2014-04-03-1]) で紹介した通り,現在ウェブ上で一般公開されている版については,いまだタグ検索などが実装されておらず,可能性を最大限に利用することはできない.しかし,工夫次第でいろいろと活用できる.実装されている Frequency lists や Keywords の機能はアイディア次第で有効に使えそうだし,コーパス全体の単語頻度リスト (TXT)も公開されている.
 通時的な言語変化という観点から ARCHER に望む機能は,この2日間の記事で調査したように,ある検索語の頻度が時期を追って(ついでにジャンル別に)どのように推移してきたかを,簡単に確認できるようにすることだ.Restricted query で時期とジャンルを絞り,検索欄に検索語を入力してヒット数を数えてゆくということは手作業でできるが,時間がかかるし面倒だ.「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) や COHA では,この通時的な一覧を可能にする機能が実装されているので,ARCHER でも余計に同様の機能が欲しくなる.そこで,欲しいのならば作ってしまおうということで,簡単なスクリプトを組んだ.ARCHER の検索結果のコンコーダンス・ラインには,テキストを表わすファイル名が付されているが,ファイル名の仕様によれば,末尾3文字がそれぞれジャンル,時期,英米変種のいずれかを表わす記号となっている.そこで,検索結果をコピーして,以下のテキストボックスに貼り付けてやると,適切にファイル名を解析し,時期,ジャンル,変種ごとにヒット数を整理してくれ,グラフ化してくれるというツール (ARCHER Period-Genre Sorter) を作成した.ARCHER での出力結果が数ページにまたがる場合には,少し手数がかかるが,各ページをコピペして累積していけばよい.

    


 このツールの使用の応用例として,ここ数世紀の間で使用頻度が衰退しただろうと疑われる4語,shall, thou (= thou, thy, thee, thine), upon, whom を取り上げる.今回は,イギリス英語のサブコーパスのみに限定した.以下は,ツールが返した集計表をもとにグラフ化したものである.(ツールがどのように機能するかを確認するために,試しに ARCHER による 'thou' の出力結果のテキストファイル (194KB) の内容を上のテキストボックスにコピペされたい.)

'shall', 'thou', 'upon', and 'whom' in ARCHER

Referrer (Inside): [2018-01-12-1]

[ | 固定リンク | 印刷用ページ ]

2014-04-08 Tue

#1807. ARCHER で betweenbetwixt [spelling][corpus][archer][mode]

 昨日の記事「#1806. ARCHER で shewshow」 ([2014-04-07-1]) に引き続き,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,別の問題に臨む.標記の betweenbetwixt の後期近代英語における分布について,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で話題にしたが,ARCHERUntagged 版ではどのような調査結果が出るだろうか.
 検索にあたっては,とりわけ17世紀の段階では綴字が完全に定まっていたわけではないため,それぞれの語の異綴字も考慮に入れた.具体的には,between 系列として between, betweene, betwen, betwene, betwn が,betwixt 系列として betwixt, betwext が異綴字として挙がってきた.昨日と同様に,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.以下に,集計結果のグラフのみ示す(データファイルと頻度表はソースHTMLを参照されたい).なお,betwixt and between の形では1例も現れていない.

'between' or 'betwixt' in ARCHER

 全体として,17--19世紀のどの時期においても between が圧倒していることは,以前の CLMET3.0 による調査結果からも予想されたことである.しかし,P2--P3 (1650--1749) の時期に限ってではあるが,betwixt が20%ほどのシェアを占めていたという事実は注目してよい(P1のサブコーパスは他の各時期のサブコーパスの1/3ほどの規模であることにも注意).CLMET3.0 による調査でも18世紀中までは bewixt が10%ほどのシェアを占めていたという結果が出ているから,大雑把にいって1750年くらいまでは betwixbetween の異形としてそれなりの存在感を示していたことが確認できた.

[ | 固定リンク | 印刷用ページ ]

2014-04-07 Mon

#1806. ARCHER で shewshow [spelling][corpus][archer][mode]

 標記の語を巡る綴字の変異について,「#1415. shewshow (1)」 ([2013-03-12-1]),「#1416. shewshow (2)」 ([2013-03-13-1]),「#1716. shewshow (3)」 ([2014-01-07-1]) で取り上げてきた.今回は,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,近代英語期における両綴字の分布を改めて確認しよう.
 ARCHER: A Representative Corpus of Historical English RegistersUntagged 版で,shew 系列 (shew, shews, shewed, shewn, shewing) と show 系列 (show, shows, showed, shown, showing) の語形を検索し,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.データファイルと頻度表はソースHTMLを参照してもらうとして,結果をグラフ化したもののみ示そう.

'shew' or 'show' in ARCHER

 ジャンルの考慮はおいておくとして,通時的な推移に注目しよう.P1 (1600--49) から P4 (1750--99) まで,つまり17--18世紀には,絶対頻度で shew のほうが show より優勢だが,P5 (1800--49) に両者がおよそ肩を並べ,P6 以降には show が一気に shew を駆逐してゆく過程が見てとれる.この推移の概要は,過去の記事で調査した Helsinki Corpus および PPCMBE の結果とは符合するが,CLMET3.0 の結果とは少々異なる.CLMET3.0 では,[2014-01-07-1]の記事で見たように,18世紀中から絶対頻度で showshew を圧倒的に上回っていたのである.このコーパス間の違いが,各コーパスの代表性の違いによるものなのか,それともジャンル分け等が関与しているのか,あるいは複数の語形を一括して数えたことに由来するものなのか,詳しくは調査していない(P1のサブコーパスについては,他の各時期のサブコーパスの1/3ほどの規模であることに注意).しかし,両系列の相対的な盛衰ではなく,shew 系列の衰退という観点で考えるのであれば,いずれのコーパスを参照しても,それは19世紀前半の出来事とみなしてよいだろう.

[ | 固定リンク | 印刷用ページ ]

2014-04-03 Thu

#1802. ARCHER 3.2 [corpus][archer][mode][frequency]

 昨年末のことになるが,近代英米語コーパス ARCHER: A Representative Corpus of Historical English RegistersUntagged 版が公開された.詳細は,公式の Documentation,あるいは VARIENG によるコーパスの解説からどうぞ.英語史研究会のオンライン会報より,三浦あゆみさんの記事「ARCHERの新版公開」も参考になる.
 ARCHER は,1990年代初頭より Biber and Finegan が編纂してきたもので,現在では14の大学が合同で管理している.2013年に公開されたこの3.2版は Manchester 大学 ( David Denison and Nuria Yáñez-Bouza) による提供である.コーパスの内容と用途を端的に表現すれば,"a multi-genre historical corpus of British and American English covering the period 1600--1999. The corpus has been designed as a tool for the analysis of language change and variation in a range of written and speech-based registers of English." ということである.
 コーパスの規模は1,710ファイル,3,298,080語からなり,語数での英米比は6:4ほど.また,時期として8期,内容により12種類にジャンル分けされている (a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries) .ファイル数と語数の内訳は以下の通り.

BRITISHadfhjlmnpsxyTOTAL
1600--49files01000010001000030
words032,34200021,0260032,74100086,109
1650--99files0101110101021100107510177
words030,32841,66721,81821,18620,46623,81122,304021,42738,76720,488262,262
1700--49files0101110111014100107710173
words027,86244,05721,51123,26521,31522,06621,612020,81233,89620,495256,891
1750--99files10101010101020100107011181
words25,38627,48445,19821,75221,28420,36721,00223,172020,59929,58923,043278,876
1800--49files10101010111010100102510126
words30,80431,21145,10721,77723,24920,53120,28622,951021,01512,67120,883270,485
1850--99files10101010101010100102610126
words30,68434,85643,42721,32221,24320,75722,26523,072021,81010,81921,789272,044
1900--49files10111010101010100102910130
words26,71731,39145,40821,12322,20821,16020,21321,977021,66412,52922,424266,814
1950--99files10111010101013100102810132
words23,43732,20045,10921,09322,72320,72120,99422,935021,38511,36122,060264,018
TOTALfiles50827270728098701070330711,075
words137,028247,674309,973150,396155,158166,343150,637158,02332,741148,712149,632151,1821,957,499
AMERICANadfhjlmnpsxyTOTAL
1750--99files310101010129100105810152
words9,21429,98038,98021,27121,89641,17723,54122,265020,66827,86021,315278,167
1800--49files1101001012010010101083
words2,82240,56844,676021,47633,409037,107020,90420,73920,695242,396
1850--99files8101110101010100102811128
words24,48032,72144,39421,05622,43628,50620,54721,994021,31111,36123,419272,225
1900--49files101010010110150105210138
words30,46052,51453,430021,66121,607022,802020,98425,02120,731269,210
1950--99files10101010101210100123010134
words29,56331,03744,38221,05122,10925,51722,61723,069025,62311,96121,654278,583
TOTALfiles325051305057295505217851635
words96,539186,820225,86263,378109,578150,21666,705127,2370109,49096,942107,8141,340,581


 Documentation のページより,完全単語リストをダウンロード可能.タグ付きの検索が可能な版もいずれ公開されるということなので,期待したい.「#1752. interpretorinterpreter (2)」 ([2014-02-12-1]) の記事で少し使ってみたので,そちらも参照を.

[ | 固定リンク | 印刷用ページ ]

2014-02-12 Wed

#1752. interpretorinterpreter (2) [spelling][suffix][corpus][emode][hc][ppcme2][ppceme][archer][lc]

 標記の件については「#1740. interpretorinterpreter」 ([2014-01-31-1]) と「#1748. -er or -or」 ([2014-02-08-1]) で触れてきたが,問題の出発点である,16世紀に interpretorinterpreter へ置換されたという言及について,事実かどうかを確認しておく必要がある.この言及は『英語語源辞典』でなされており,おそらく OED の "In 16th cent. conformed to agent-nouns in -er, like speak-er" に依拠しているものと思われるが,手近にある16世紀前後の時代のいくつかのコーパスを検索し,詳細を調べてみた.
 まずは,MED で中英語の綴字事情をのぞいてみよう.初例の Wycliffite Bible, Early Version (a1382) を含め,33例までが -our あるいは -or を含み,-er を示すものは Reginald Pecock による Book of Faith (c1456) より2例のみである.初出以来,中英語期中の一般的な綴字は,-o(u)r だったといっていいだろう.
 同じ中英語の状況を,PPCME2 でみてみると,Period M4 (1420--1500) から Interpretours が1例のみ挙った.
 次に,初期近代英語期 (1418--1680) の約45万語からなる書簡コーパスのサンプル CEECS (The Corpus of Early English Correspondence でも検索してみたが,2期に区分されたコーパスの第2期分 (1580--1680) から interpreterinterpretor がそれぞれ1例ずつあがったにすぎない.
 続いて,MEMEM (Michigan Early Modern English Materials) を試す.このオンラインコーパスは,こちらのページに説明のあるとおり,初期近代英語辞書の編纂のために集められた,主として法助動詞のための例文データベースだが,簡便なコーパスとして利用できる.いくつかの綴字で検索したところ,interpretour が2例,いずれも1535?の Thomas Elyot による The Education or Bringing up of Children より得られた.一方,現代的な interpreter(s) の綴字は,9の異なるテキスト(3つは16世紀,6つは17世紀)から計16例確認された.確かに,16世紀からじわじわと -er 形が伸びてきているようだ.
 LC (The Lampeter Corpus of Early Modern English Tracts) は,1640--1740年の大衆向け出版物から成る約119万語のコーパスだが,得られた7例はいずれも -er の綴字だった.
 同様の結果が,約330万語の近現代英語コーパス ARCHER 3.2 (A Representative Corpus of Historical English Registers) (1600--1999) でも認められた.1672年の例を最初として,13例がいずれも -er である.
 最後に,中英語から近代英語にかけて通時的にみてみよう.HC (Helsinki Corpus) によると,E1 (1500--70) の Henry Machyn's Diary より,"he becam an interpretour betwen the constable and certein English pioners;" が1例のみ見られた.HC を拡大させた PPCEME によると,上記の例を含む計17例の時代別分布は以下の通り.

 -o(u)r-er(s)
E1 (1500--1569)21
E2 (1570--1639)35
E3 (1640--1710)06


 以上を総合すると,確かに16世紀に,おそらくは同世紀の後半に,現代的な -er が優勢になってきたものと思われる.なお,OED では,1840年の例を最後に -or は姿を消している.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow