hellog〜英語史ブログ     ChangeLog 最新    

mode - hellog〜英語史ブログ

最終更新時間: 2023-05-27 11:36

2018-01-12 Fri

#3182. ARCHER で colourcolor の通時的英米差を調査 [ame_bre][spelling][archer][corpus][mode][webster]

 意外と簡単にできる調査として,標題の例を紹介したい.近代英米語コーパス「#1802. ARCHER 3.2」 ([2014-04-03-1]) を用いて,綴字の英米差の通時的な調査を手軽に行える.例として,最も知られている <colour> と <color> の英米差を調べてみよう.
 ARCHER Untagged にアクセスし,検索欄に "colour*" と "color*" 入れ,それぞれの結果を取り出す.それを「#1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter)」 ([2014-04-09-1]) にかけて,自動的に4つの図表を作成させる.この図表により,両綴字の英米差について,1600--1999年を8区分した時代別に,そして12のジャンル別に比較することが可能となる.時代区分とジャンルは以下の通り.

 ・ P1 = 1600--49, P2 = 1650--99, P3 = 1700--49, P4 = 1750--99, P5 = 1800--49, P6 = 1850--99, P7 = 1900--49, P8 = 1950--99
 ・ a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries

 では,まずイギリス英語からみていこう.上の図表が伝統的なイギリス式の <colour> の数値を示し,下が典型的にアメリカ式スペリングといわれる <color> の数値である.期待を裏切らず,イギリス英語では時代にかかわらず,ほぼ <colour> 一辺倒といってよい.

<colour> in BrE in ARCHER
<color> in BrE in ARCHER

 次にアメリカ英語の結果だが,こちらも英語史の期待を裏切らない.P4(1750--99年)までは伝統を受け継ぐ <colour> の綴字が圧倒的だが,P5 以降は著しく衰退し,代わりに <color> が伸びていく.P5 といえば,Noah Webster が An American Dictionary of the English Language を出版した1828年を含む半世紀の時代区分であり,米国式スペリングがその後数十年の時間をかけつつ定着していく様をよく表わしている.

<colour> in AmE in ARCHER
<color> in AmE in ARCHER

 現在は超巨大な Google Books Ngram Viewer に簡単にアクセスできるため,ARCHER よりもさらに簡便に同じような調査を行えるようになっている.しかし,ARCHER ではコンコーダンス・ラインを引き出せるために文の中身を吟味することもできるし,ヒット件数が手作業でまかなえるほどに抑えられるというのも,考えようによっては利点といえる.要は使い方次第だ.ARCHER を使用した他の調査例として,「#1806. ARCHER で shew と show」 ([2014-04-07-1]),「#1807. ARCHER で between と betwixt」 ([2014-04-08-1]),「#1752. interpretorinterpreter (2)」 ([2014-02-12-1]) も参照.

Referrer (Inside): [2020-11-12-1] [2020-09-17-1]

[ 固定リンク | 印刷用ページ ]

2016-11-05 Sat

#2749. "Present Perfect Puzzle" --- 近現代英語からの「違反」例 [perfect][aspect][tense][adverb][present_perfect_puzzle][mode]

 「#2492. 過去を表わす副詞と完了形の(不)共起の歴史 」 ([2016-02-22-1]),「#2633. なぜ現在完了形は過去を表わす副詞と共起できないのか --- Present Perfect Puzzle」 ([2016-07-12-1]) で紹介したように,現代英語には,現在完了と過去の特定の時点を表わす副詞語句は共起できないという規則がある.ところが,近代英語やとりわけ中英語では,このような共起の例が散見される.現代英語にかけて,なぜこのような制限規則が定まったのかという問題,いわゆる "Present Perfect Puzzle" については,様々な提案がなされてきたが,完全には解明されていない.
 Visser (2197) より,近代英語期,さらに20世紀を含む時代からの例をいくつか引こう.

 ・ 1601 Shakesp., All's Well IV, iii, 3, I have delivered it an hour since.
 ・ 1669 Pepys's Diary April 11th, which I have forgot to set down in my Journal yesterday.
 ・ 1777 Sheridan, School f. Sc. I, i, I am told he has had another execution in the house yesterday.
 ・ 1820 Scott. Monastery XXX, The Englishman . . . has murdered young Halbert . . . yesterday morning.
 ・ 1847 Ch. Brontë, Jane Eyre XVI, Indeed I have seen Blanche, six or seven years ago, when she was a girl of eighteen.
 ・ 1912 Standard, Aug. 16, Prince Henry has decided to travel to Tokio by the overland route. Twice already he has visited Japan, in 1892 and 1900 (Kri).
 ・ 1920 Galsworthy, In Chancery IV, I have been to Richmond last Sunday.
 ・ 1962 Everyman's Dictionary of Literary Biography p. 609--10, He [sc. Shakespeare] is, of course, unmeasurably the greatest of all English writers, and has been so recognized even in those periods that were antipathetic to the Elizabethan genius.

 このような現代的な規則から逸脱している例について,Visser (2197) は他の研究者を参照しつつ次のように述べている.

Several scholars (e.g. 1958 F. T. Wood; 1926 Poutsma) account for these idioms by suggesting that the writer or speaker has embarked on the given form before the idea of a temporal adjunct comes into his mind, and then adds this adjunct as a kind of afterthought. Another explanation is based on the assumption that instances like those quoted here may be seen as survivals of a usage that formerly---when there was not yet the strict line of demarcation between the different uses---occurred quite normally.


 ここでは2つの提案がなされているが,前者の "afterthought" 説は理解しやすい.しかし,上記の例のすべてが,後から思いついての付け足しとして説明できるかどうかは,客観的に判断できないように思われる.第2の「古くからの残存」説は,その通りなのかもしれないが,現代英語にかけてくだんの共起制限が課されたのはなぜかという "Present Perfect Puzzle" に直接に迫るものではない.
 このパズルは未解決と言わざるを得ない.

 ・ Visser, F. Th. An Historical Syntax of the English Language. 3 vols. Leiden: Brill, 1963--1973.

Referrer (Inside): [2016-11-06-1]

[ 固定リンク | 印刷用ページ ]

2014-05-15 Thu

#1844. ドイツ語式の名詞語頭の大文字使用は英語にもあった (2) [punctuation][printing][mode][writing][standardisation][lexical_diffusion][swift][capitalisation]

 「#583. ドイツ語式の名詞語頭の大文字使用は英語にもあった」 ([2010-12-01-1]) で話題にしたように,Addison, Dryden, Swift などの活躍した17--18世紀には,名詞の語頭大文字化がはやった.当初の書き手の趣旨はキーワードとなる名詞を大文字化することだったが,一時期,名詞であれば何であれ大文字化するという慣習が芽生えた.Horobin (157) によれば,この慣習の背後には植字工の介入があったという.

The convention seems to have been for a writer to leave the business of spelling to the compositors who were responsible for setting the type for printed texts. This practice led to the introduction of a distinctive feature of punctuation found in this period: the capitalization of nouns. This practice has its origins in an author's wish to stress certain important nouns within a piece of writing. Because ultimate authority for spelling and punctuation lay with compositors, who were often unable to distinguish capital letters from regular ones in current handwriting, they adopted a policy of capitalization of nouns by default.


 「#1829. 書き言葉テクストの3つの機能」 ([2014-04-30-1]) の記事で参照したエスカルピ (45--46) は,印刷業者が現代においてもテクストの諸機能に影響を及ぼしていることを指摘している.

印刷されたテキストでは、資料機能のレヴェルでは部分的に、図像機能のレヴェルではほとんどもっぱら産業機構が介入し、それに対して書き手は必ずしも力をもたない。実はそれゆえに、自分の本が印刷されたのを読む作家は、自分が手で書いたのとは別の本を前にしている感じを抱くのである。印刷されたものから出てくる権威は彼の外にある。


 その後,名詞の語頭はすべて大文字化するという句読法の慣習は長続きせず,ついに標準化されることはなかった.しかし,書き言葉の標準化における植字工や印刷家の潜在的な役割には注意しておく必要があるだろう.なお,最近の研究では印刷業者の書き言葉標準化への関与を従来よりも小さめに見積もる傾向が認められるが,彼らの関与そのものを否認しているわけではない.一定の介入は間違いなくあったろう.関連して,cat:printing standardisation のいくつかの記事を参照されたい.
 英語では途中で断ち切れになったが,名詞大文字化の慣習はドイツ語では標準化している.私はドイツ語史には暗いが,昨年8月に Oslo 大学で開かれた ICHL 21 (International Conference on Historical Linguistics) に参加した折りに,ドイツ語におけるこの句読法の発展についての研究発表があり,興味深く聴いた.手元に残っているメモによると,ドイツ語では16--17世紀にこの慣習が発展したが,最初からすべての名詞が大文字化されたわけではなく,[+animal] の意味素性をもつ名詞から始まり,[+agentive], [+material] などの順で進行したという.統語的にも,主語としてのほうが目的語としてよりも名詞の大文字化が早かったという.綴字習慣の変化も語彙拡散 (lexical_diffusion) に従い得るのかと関心したのを覚えている.
 ローマ字における大文字と小文字の区別の発生については,「#1309. 大文字と小文字」 ([2012-11-26-1]) を参照.

 ・ Horobin, Simon. Does Spelling Matter? Oxford: OUP, 2013.
 ・ ロベール・エスカルピ 著,末松 壽 『文字とコミュニケーション』 白水社〈文庫クセジュ〉,1988年.

[ 固定リンク | 印刷用ページ ]

2014-04-09 Wed

#1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter) [cgi][web_service][corpus][archer][mode]

 この2日間の記事「#1806. ARCHER で shewshow」 ([2014-04-07-1]) と「#1807. ARCHER で betweenbetwixt」 ([2014-04-08-1]) で,ARCHERUntagged 版 を用いて,語の変異形の頻度が通時的にどのように推移してきたかを調査した.
 近代英語の初期から後期を含むコーパスとしては,ほかに CEECS (The Corpus of Early English Correspondence, LC (The Lampeter Corpus of Early Modern English Tracts), CLMET3.0 (The Corpus of Late Modern English Texts, version 3.0), PPCMBE, COHA などがあり,それぞれに特徴があるが,ARCHER は,1600--1999年というまとまった期間をカバーし,英米変種それぞれについてジャンル分けがなされており,比較的大型の歴史コーパスとして価値が高い.しかし,「#1802. ARCHER 3.2」 ([2014-04-03-1]) で紹介した通り,現在ウェブ上で一般公開されている版については,いまだタグ検索などが実装されておらず,可能性を最大限に利用することはできない.しかし,工夫次第でいろいろと活用できる.実装されている Frequency lists や Keywords の機能はアイディア次第で有効に使えそうだし,コーパス全体の単語頻度リスト (TXT)も公開されている.
 通時的な言語変化という観点から ARCHER に望む機能は,この2日間の記事で調査したように,ある検索語の頻度が時期を追って(ついでにジャンル別に)どのように推移してきたかを,簡単に確認できるようにすることだ.Restricted query で時期とジャンルを絞り,検索欄に検索語を入力してヒット数を数えてゆくということは手作業でできるが,時間がかかるし面倒だ.「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) や COHA では,この通時的な一覧を可能にする機能が実装されているので,ARCHER でも余計に同様の機能が欲しくなる.そこで,欲しいのならば作ってしまおうということで,簡単なスクリプトを組んだ.ARCHER の検索結果のコンコーダンス・ラインには,テキストを表わすファイル名が付されているが,ファイル名の仕様によれば,末尾3文字がそれぞれジャンル,時期,英米変種のいずれかを表わす記号となっている.そこで,検索結果をコピーして,以下のテキストボックスに貼り付けてやると,適切にファイル名を解析し,時期,ジャンル,変種ごとにヒット数を整理してくれ,グラフ化してくれるというツール (ARCHER Period-Genre Sorter) を作成した.ARCHER での出力結果が数ページにまたがる場合には,少し手数がかかるが,各ページをコピペして累積していけばよい.

    


 このツールの使用の応用例として,ここ数世紀の間で使用頻度が衰退しただろうと疑われる4語,shall, thou (= thou, thy, thee, thine), upon, whom を取り上げる.今回は,イギリス英語のサブコーパスのみに限定した.以下は,ツールが返した集計表をもとにグラフ化したものである.(ツールがどのように機能するかを確認するために,試しに ARCHER による 'thou' の出力結果のテキストファイル (194KB) の内容を上のテキストボックスにコピペされたい.)

'shall', 'thou', 'upon', and 'whom' in ARCHER

Referrer (Inside): [2018-01-12-1]

[ 固定リンク | 印刷用ページ ]

2014-04-08 Tue

#1807. ARCHER で betweenbetwixt [spelling][corpus][archer][mode]

 昨日の記事「#1806. ARCHER で shewshow」 ([2014-04-07-1]) に引き続き,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,別の問題に臨む.標記の betweenbetwixt の後期近代英語における分布について,「#1637. CLMET3.0 で betweenbetwixt の分布を調査」 ([2013-10-20-1]) で話題にしたが,ARCHERUntagged 版ではどのような調査結果が出るだろうか.
 検索にあたっては,とりわけ17世紀の段階では綴字が完全に定まっていたわけではないため,それぞれの語の異綴字も考慮に入れた.具体的には,between 系列として between, betweene, betwen, betwene, betwn が,betwixt 系列として betwixt, betwext が異綴字として挙がってきた.昨日と同様に,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.以下に,集計結果のグラフのみ示す(データファイルと頻度表はソースHTMLを参照されたい).なお,betwixt and between の形では1例も現れていない.

'between' or 'betwixt' in ARCHER

 全体として,17--19世紀のどの時期においても between が圧倒していることは,以前の CLMET3.0 による調査結果からも予想されたことである.しかし,P2--P3 (1650--1749) の時期に限ってではあるが,betwixt が20%ほどのシェアを占めていたという事実は注目してよい(P1のサブコーパスは他の各時期のサブコーパスの1/3ほどの規模であることにも注意).CLMET3.0 による調査でも18世紀中までは bewixt が10%ほどのシェアを占めていたという結果が出ているから,大雑把にいって1750年くらいまでは betwixbetween の異形としてそれなりの存在感を示していたことが確認できた.

[ 固定リンク | 印刷用ページ ]

2014-04-07 Mon

#1806. ARCHER で shewshow [spelling][corpus][archer][mode]

 標記の語を巡る綴字の変異について,「#1415. shewshow (1)」 ([2013-03-12-1]),「#1416. shewshow (2)」 ([2013-03-13-1]),「#1716. shewshow (3)」 ([2014-01-07-1]) で取り上げてきた.今回は,[2014-04-03-1]の記事で紹介した「#1802. ARCHER 3.2」を利用して,近代英語期における両綴字の分布を改めて確認しよう.
 ARCHER: A Representative Corpus of Historical English RegistersUntagged 版で,shew 系列 (shew, shews, shewed, shewn, shewing) と show 系列 (show, shows, showed, shown, showing) の語形を検索し,ヒット数を12ジャンルおよび1600--1999年を50年刻みにした8期に分けて数え上げた.データファイルと頻度表はソースHTMLを参照してもらうとして,結果をグラフ化したもののみ示そう.

'shew' or 'show' in ARCHER

 ジャンルの考慮はおいておくとして,通時的な推移に注目しよう.P1 (1600--49) から P4 (1750--99) まで,つまり17--18世紀には,絶対頻度で shew のほうが show より優勢だが,P5 (1800--49) に両者がおよそ肩を並べ,P6 以降には show が一気に shew を駆逐してゆく過程が見てとれる.この推移の概要は,過去の記事で調査した Helsinki Corpus および PPCMBE の結果とは符合するが,CLMET3.0 の結果とは少々異なる.CLMET3.0 では,[2014-01-07-1]の記事で見たように,18世紀中から絶対頻度で showshew を圧倒的に上回っていたのである.このコーパス間の違いが,各コーパスの代表性の違いによるものなのか,それともジャンル分け等が関与しているのか,あるいは複数の語形を一括して数えたことに由来するものなのか,詳しくは調査していない(P1のサブコーパスについては,他の各時期のサブコーパスの1/3ほどの規模であることに注意).しかし,両系列の相対的な盛衰ではなく,shew 系列の衰退という観点で考えるのであれば,いずれのコーパスを参照しても,それは19世紀前半の出来事とみなしてよいだろう.

[ 固定リンク | 印刷用ページ ]

2014-04-03 Thu

#1802. ARCHER 3.2 [corpus][archer][mode][frequency]

 昨年末のことになるが,近代英米語コーパス ARCHER: A Representative Corpus of Historical English RegistersUntagged 版が公開された.詳細は,公式の Documentation,あるいは VARIENG によるコーパスの解説からどうぞ.英語史研究会のオンライン会報より,三浦あゆみさんの記事「ARCHERの新版公開」も参考になる.
 ARCHER は,1990年代初頭より Biber and Finegan が編纂してきたもので,現在では14の大学が合同で管理している.2013年に公開されたこの3.2版は Manchester 大学 ( David Denison and Nuria Yáñez-Bouza) による提供である.コーパスの内容と用途を端的に表現すれば,"a multi-genre historical corpus of British and American English covering the period 1600--1999. The corpus has been designed as a tool for the analysis of language change and variation in a range of written and speech-based registers of English." ということである.
 コーパスの規模は1,710ファイル,3,298,080語からなり,語数での英米比は6:4ほど.また,時期として8期,内容により12種類にジャンル分けされている (a = advertising, d = drama, f = fiction, h = sermons, j = journals, l = legal, m = medicine, n = news, p = early prose, s = science, x = letters, y = diaries) .ファイル数と語数の内訳は以下の通り.

BRITISHadfhjlmnpsxyTOTAL
1600--49files01000010001000030
words032,34200021,0260032,74100086,109
1650--99files0101110101021100107510177
words030,32841,66721,81821,18620,46623,81122,304021,42738,76720,488262,262
1700--49files0101110111014100107710173
words027,86244,05721,51123,26521,31522,06621,612020,81233,89620,495256,891
1750--99files10101010101020100107011181
words25,38627,48445,19821,75221,28420,36721,00223,172020,59929,58923,043278,876
1800--49files10101010111010100102510126
words30,80431,21145,10721,77723,24920,53120,28622,951021,01512,67120,883270,485
1850--99files10101010101010100102610126
words30,68434,85643,42721,32221,24320,75722,26523,072021,81010,81921,789272,044
1900--49files10111010101010100102910130
words26,71731,39145,40821,12322,20821,16020,21321,977021,66412,52922,424266,814
1950--99files10111010101013100102810132
words23,43732,20045,10921,09322,72320,72120,99422,935021,38511,36122,060264,018
TOTALfiles50827270728098701070330711,075
words137,028247,674309,973150,396155,158166,343150,637158,02332,741148,712149,632151,1821,957,499
AMERICANadfhjlmnpsxyTOTAL
1750--99files310101010129100105810152
words9,21429,98038,98021,27121,89641,17723,54122,265020,66827,86021,315278,167
1800--49files1101001012010010101083
words2,82240,56844,676021,47633,409037,107020,90420,73920,695242,396
1850--99files8101110101010100102811128
words24,48032,72144,39421,05622,43628,50620,54721,994021,31111,36123,419272,225
1900--49files101010010110150105210138
words30,46052,51453,430021,66121,607022,802020,98425,02120,731269,210
1950--99files10101010101210100123010134
words29,56331,03744,38221,05122,10925,51722,61723,069025,62311,96121,654278,583
TOTALfiles325051305057295505217851635
words96,539186,820225,86263,378109,578150,21666,705127,2370109,49096,942107,8141,340,581


 Documentation のページより,完全単語リストをダウンロード可能.タグ付きの検索が可能な版もいずれ公開されるということなので,期待したい.「#1752. interpretorinterpreter (2)」 ([2014-02-12-1]) の記事で少し使ってみたので,そちらも参照を.

[ 固定リンク | 印刷用ページ ]

2013-04-15 Mon

#1449. 言語における「範疇」 [category][number][gender][tense][aspect][person][mode][terminology][sapir-whorf_hypothesis][linguistic_relativism]

 言語学では範疇 (category) という術語が頻用される.もともとは哲学用語であり,日本語の「範疇」は,中国の『書経』の「洪範九疇」ということばをもとに,英語 category やドイツ語 Kategorie の訳語として,明治時代の西洋哲学の移入時に,井上哲次郎(一説に西周)が作ったものとされる.原語はギリシア語の katēgoríā であり,その動詞 katēgoreînkata- (against) + agoreúein (to speak in the assembly) から成る.「公の場で承認されうる普遍的な概念の下に包みこんで訴える」ほどの原義に基づいて,アリストテレスは「分類の最も普遍的な規定,すなわち最高類概念」の語義を発展させ,以降,非専門的な一般的な語義「同じ種類のものの所属する部類・部門」も発展してきた.
 英語の category も,まずは16世紀末に哲学用語としてラテン語から導入され,17世紀中葉から一般用語として使われ出した.現在では,OALD8 の定義は "a group of people or things with particular features in common" とあり,日常化した用語と考えてよい.
 では,言語学で用いられる「範疇」とは何か.さすがに専門用語とだけあって,日常的な単なる「部類・部門」の語義で使われるわけではない.では,言語的範疇の具体例を見てみよう.英文法では文法範疇 (grammatical category) ということが言われるが,例えば数 (number) ,人称 (person) ,時制 (tense) ,法 (mode) などが挙げられる.これらは動詞を中心とする形態的屈折にかかわる範疇だが,性 (gender or sex) など語彙的なものもあるし,定・不定 (definiteness) や相 (aspect) などの統語的なものもある.これらの範疇は英文法の根本にある原理であり,文法記述に欠かせない概念ととらえることができる.これで理解できたような気はするが,では,言語的範疇をずばり定義せよといわれると難しい.このもやもやを解決してくれるのは,Bloomfield の定義である.以下に引用しよう.

Large form-classes which completely subdivide either the whole lexicon or some important form-class into form-classes of approximately equal size, are called categories. (270)


 文法性 (gender) で考えてみるとわかりやすい.名詞という語彙集合を前提とすると,例えばフランス語には形態的,統語的な振る舞いに応じて,規模の大きく異ならない2種類の部分集合が区別される.一方を男性名詞と名付け,他方を女性名詞と名付け,この区別の基準のことを性範疇を呼ぶ,というわけである.
 category の言語学的用法が一般的用法ではなく哲学的用法に接近していることは,言語的範疇がものの見方や思考様式の問題と直結しやすいからである.この点についても,Bloomfield の説明がすばらしい.

The categories of a language, especially those which affect morphology (book : books, he : she), are so pervasive that anyone who reflects upon his language at all, is sure to notice them. In the ordinary case, this person, knowing only his native language, or perhaps some others closely akin to it, may mistake his categories for universal forms of speech, or of "human thought," or of the universe itself. This is why a good deal of what passes for "logic" or "metaphysics" is merely an incompetent restating of the chief categories of the philosopher's language. A task for linguists of the future will be to compare the categories of different languages and see what features are universal or at least widespread. (270)


 ・ Bloomfield, Leonard. Language. 1933. Chicago and London: U of Chicago P, 1984.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow