hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 3 4 5 6 7 8 9 10 次ページ / page 1 (10)

corpus - hellog〜英語史ブログ

最終更新時間: 2020-10-25 11:06

2020-10-19 Mon

#4193. インド系英語における discuss about [verb][indian_english][glowbe][corpus][accommodation]

 先月教えてもらったばかりの「#4169. GloWbE --- Corpus of Global Web-Based English」 ([2020-09-25-1]) を用いて,しかもつい数日前に院生の指摘からインスピレーションを受けた標題の話題について調べてみた.その意味では完全に人頼みの記事です(←ありがとうございます).
 標準英語では discuss は他動詞であり,前置詞を伴わずに直後に目的語を要求する.日本語母語話者としては,訳語がたいてい「〜について論じる」となるので,about 辺りの前置詞を介在させたくなり,discuss about としてしまうことがあるのだが,これは規範文法的には誤用とされる.しかし,実際には discuss about も耳にしたり目にする機会がある.インド英語などで広く行なわれる表現であるということは聞いたことがあった.
 そこで,現代の世界英語変種を比較できるコーパス GloWbE (= Corpus of Global Web-Based English) の出番である.難しいことはない,検索欄に "discuss about" を入力するだけである.この超簡単な検索だけで,超おもしろい結果を味わうことができる.自動的に出力されたチャートは次の通り.

Search of

 横方向のほぼ中央(ちょっとだけ左寄り)の一群で棒グラフが相対的に高い値を示している.この近辺はインド(亜大陸)系英語の数値である.統計学的な検定をかけるまでもなく,明らかに左右両端の英語変種とは異なる分布を示す.
 バングラデシュやインド等の南アジア圏を相手とする21世紀の商談においては,accommodation 理論に従い,われわれ極東アジア人も "Shall we discuss about our business?" と始めたほうがビジネスの成功率は高そうだ.
 コーパス利用はとかく苦手意識により敬遠されることが多いのだが,これくらいのところから始めてもよいのでは.

[ | 固定リンク | 印刷用ページ ]

2020-09-25 Fri

#4169. GloWbE --- Corpus of Global Web-Based English [glowbe][corpus][ice][englishes][world_englishes][variety][ame_bre][spelling]

 「#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも)」 ([2020-09-22-1]) で触れた World Englishes のコーパス GloWbE (= Corpus of Global Web-Based English) を少し試してみた.(先日の駒場英語史研究会にて本コーパスを導入していただきました菊地翔太先生(明海大学)には,改めて感謝します.)
 このコーパスは20カ国からの英語変種を総合した19億語からなる巨大コーパスで,変種間の比較が容易に行なえる仕様となっている.変種間比較についていえば,私はこれまで「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1]),「#1743. ICE Frequency Comparer」 ([2014-02-03-1]) などで取り上げたように ICE (International Corpus of English) しか知らなかったのだが,コーパスの世界は急速に進化しているようだ.GloWbE のインターフェースは,COCA (Corpus of Contemporary American English) や COHA (Corpus of Historical American English) などと共通なので,そちらに慣れたユーザーであれば,とっついやすいはずだ.
 きわめて単純な使い方ではあるが,GloWbE の最大の売りである変種間比較を colorcolour のスペリングに関して行なってみた.一般に color はアメリカ式,colour はイギリス式のスペリングといわれるが,この2変種間の比較に満足せず,20変種間で比べてみようという試みだ.インターフェースより単純に Chart 出力機能を選択し,各々のスペリングで検索し,返された図表を眺めるだけなのだが,それだけでも十分におもしろい.まずは,アメリカ式 color の図表から.



 次に,イギリス式 colour の図表を挙げよう.



 横方向の中央辺りに東南アジアの国々が集まっており,歴史的にはイギリス式が多いと予想される地域なわけだが,実はアメリカ式スペリングのほうが優勢のようだ.近年の英語のアメリカ化 (americanisation) の影響が疑われよう.一方,左側には(米国を除く)アングロサクソン系諸国が集まっており,そこでは予想通りにイギリス式が優勢である.右側に集まっているアフリカ諸国では,両スペリングの差はさほど大きくない.
 color vs colour の問題を米英間の問題として論じる時代は過ぎ去りつつある.凄いツールが出てきたものである.

Referrer (Inside): [2020-10-19-1]

[ | 固定リンク | 印刷用ページ ]

2020-09-22 Tue

#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも) [academic_conference][corpus][eebo][glowbe][laeme][lalme][historiography][standardisation]

 一昨日の9月20日(日),2020年度駒場英語史研究会にて,特別企画「電子コーパスやオンライン・リソースを使った英語史研究 ― その実践と可能性」に発表者として参加しました.Zoom でのオンライン大会でしたが,円滑に会が進行しました.(企画のご提案から会の主催までお世話になりました寺澤盾先生(東京大学),発表者の家入葉子先生(京都大学)と菊地翔太先生(明海大学),および参加者すべての方々には,貴重な機会とインスピレーションをいただきました.お礼申し上げます.)
 トップバッターの私自身の発表では「LAEME & LALME を用いた英語史研究入門」と題して,中英語を代表する2つの姉妹コーパス LAEMEeLALME を紹介しました.続いて,家入先生の「データベースの利用によるコーパス言語学 --- Early English Books Onlineを中心に」と題する発表では,初期近代英語期を代表するコーパス EEBO Online corpus が紹介されました.最後に,菊地先生による「Corpus of Global Web-Based English(GloWbE)を用いた World Englishes 研究の可能性」という発表により,21世紀の World Englishes 時代を象徴する GloWbE が導入されました(←私にとって未知だったので驚きの連続でした).
 各々の発表はコーパスの紹介とデモにとどまらず,その可能性や「利用上の注意」にまで触れた内容であり,発表後のディスカッションタイムでは,英語史研究においてコーパス利用はどのような意義をもつのかという方法論上の肝心な議論にまで踏み込めたように思います(時間が許せば,もっと議論したいところでした!).
 中英語,近代英語,21世紀英語という3つの異なる時代の英語を対象としたコーパスを並べてみたわけですが,研究会が終わってからいろいろと考えが浮かんできました.同じ英語のコーパスとはいえ,対象とする時代が異なるだけで,なぜ検索の仕方も検索の結果もインターフェースもここまで異なるのだろうかということです.その答えは「各々の時代における英語の(社会)言語学的事情が大きく異なっているから,それと連動して(現代の研究者が編纂する)コーパスのあり方も大きく異ならざるを得ない」ということではないかと思い至りました.
 逆からみれば,各時代のコーパスがどのように編纂され,どのように使用されているかを観察することにより,その時代の英語の(社会)言語学的事情が浮き彫りになってくるのではないか,ということです.そうして時代ごとの特徴がきれいに浮き彫りになってくるようであれば,それを並べてみれば,ある種の英語史記述となるにちがいない.換言すれば,各時代のコーパス検索に伴うクセや限界みたいなものを指摘していけば,その時代の背後にある言語事情が透けて見えてくるのではないかと.ここから「コーパスのあり方からみる英語史」のような試みが可能となってきそうです.
 時代順にみていきます.中英語期は標準形が不在なので,ある単語を検索しようとしても,そもそもどの綴字で検索すればよいのかという出発点からして問題となります (cf. 「#1450. 中英語の綴字の多様性はやはり不便である」 ([2013-04-16-1])).実際,中英語辞書 MED である単語を引くにしても,そこそこ苦労することがあります.LAEME や LALME でも検索インターフェースには様々な工夫はなされていますが,やはり事前の知識や見当づけが必要ですので,検索が簡単であるとは口が裂けても言えません.現実に標準形がないわけですから,致し方がありません.
 次に初期近代英語期ですが,EEBO は検索インターフェースが格段にとっつきやすく,一見すると検索そのものに問題があるようには見えません.しかし,英語史的にはあくまで標準化を模索している時代にとどまり,標準化が達成された現代とは事情が異なります.つまり,標準形とおぼしきものを検索欄に入れてクリックしたとしても,実は拾い漏れが多く生じてしまうのです.公式には実装されているとされる lemma 検索も,実際には思うほど精度は高くありません.落とし穴がいっぱいです.
 最後に,21世紀英語の諸変種を対象とする GloWbE については,(ポスト)現代英語が相手ですから,当然ながら標準形を入力して検索できます.しかし,BNC や COCA のような「普通の」コーパスと異なるのは,返される検索結果が諸変種に由来する多様な例だということです.
 大雑把にまとめると次のようになります.

 代表コーパス検索法などに反映される「コーパスのあり方」(社会)言語学的事情
中英語LAEME, LALME検索法が難しい標準形がない
初期近代英語EEBO検索法が一見すると易しい標準形が中途半端にしかない
21世紀英語GloWbE検索法が易しい標準形はあるが,その機能は変種によって多様


 異なる時代のコーパスを比べてみると,英語史がみえてくるということがよく分かりました.駒場英語史研究会での発表の機会をいただき,改めて感謝します.

Referrer (Inside): [2020-09-25-1]

[ | 固定リンク | 印刷用ページ ]

2020-06-25 Thu

#4077. MED の辞書としての特徴 [lexicography][dictionary][med][me][corpus][website][link][bibliography][onomastics]

 昨日の記事「#4076. Dictionary of Old EnglishDictionary of Old English Corpus」 ([2020-06-24-1]) に引き続き,英語史研究にはなくてはならないツールについて.中英語研究といえば,何をおいても MED を挙げなければならない (Kurath, Hans, Sherman M. Kuhn, John Reidy, and Robert E. Lewis. Middle English Dictionary. Ann Arbor: U of Michigan P, 1952--2001. Available online at http://quod.lib.umich.edu/m/med/) .昨日の DOE と DOEC の関係と同様に,MED にも関連する MEC というコーパスがあり,こちらもたいへん有用である (MEC = McSparran, Frances, ed. Middle English Compendium. Ann Arbor: U of Michigan P, 2006. Available online at http://quod.lib.umich.edu/m/mec/) .
 MED は1952年に最初の小冊が出版され,1991年に最後の小冊が出版されて完成した.その後,2000年にオンライン版の Middle English Compendium に組み込まれ,使い勝手が大幅に向上した.細かな検索ができることはもちろん,hyperbibliography の充実振りが嬉しい.56,000件ほどの見出し語を誇る中英語最大の辞書であることはいうにおよばず,中英語研究史上の最大の成果物といえる.2018年にはほぼ20年振りの改訂版が公開され,現在も中英語研究の第一線を走っている.
 MED には,使用に当たって知っておくべきいくつかの特徴がある.Durkin (1150--52) に拠って指摘しておこう.まず,MED は,語義に多くの注意を払う辞書だということだ.OED ではある語の語形を大きな基準として記述を仕分けているが,MED のエントリーの最大の構成原理は語義である.ある意味では語形の違いなどは方言差と割り切って,LALME や LAEME に委ねているといった風である.しかし,この語義優先という特徴により,語学的な研究のみならず,文化的,歴史的な研究にも資するツールとなっているという側面がある.
 語義の重視と関連して,MED は該当語の固有名詞としての使用にも意を払っている.たいてい最後の語義として言及されるが,これは固有名詞研究や歴史研究に有用である.多言語テキストに記されている英語の地名なども拾い上げられており,他言語文献や言語接触の研究にも資する情報である.
 MED で惜しむらく点は,語源記述が少ないことだ.直前の古英語形や借用語であればソース言語での形態などを挙げているにとどまり,深みがない.
 最後に指揮しておくべきは,例文に付されている年代について,(1) 写本(証拠)そのものの年代と,(2) テキストが作成されたとおぼしき年代とが,分けて記されている点である(後者はカッコでくくられている).両年代を念頭におけば,例えば異写本間での語形の比較に際して貴重な判断材料となるだろう.この重要な情報は,diplomatic な読みを追求する文献学的な関心に答えてくれる可能性を秘めている.
 関連して「#4016. 中英語研究のための基本的なオンライン・リソース」 ([2020-04-25-1]) も参照.

 ・ Durkin, Philip. "Resources: Lexicographic Resources." Chapter 73 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1149--63.

Referrer (Inside): [2020-06-26-1]

[ | 固定リンク | 印刷用ページ ]

2020-06-24 Wed

#4076. Dictionary of Old EnglishDictionary of Old English Corpus [lexicography][dictionary][doe][corpus][oe][website][link][bibliography]

 標題の辞書は,目下進行中の古英語辞書編纂プロジェクトの所産である(cf. 「#3006. 古英語の辞書」 ([2017-07-20-1])).進行中なので未完成ということになるが,現在 The Dictionary of Old English (DOE) のサイト より,Dictionary of Old English: A to I online, ed. Angus Cameron, Ashley Crandell Amos, Antonette diPaolo Healey et al. (Toronto: Dictionary of Old English Project, 2018). の項目をオンラインで閲覧・参照できる(限定利用できる無料版あり).
 この DOE と連動する形で古英語コーパス (DOEC) の編纂も同時に進行しており,Dictionary of Old English Web Corpus よりオンラインでアクセスできるようになっている(限定利用できる無料版あり).現存する古英語の文献資料は語数にして約300万語とされ,網羅的な目録を編纂し,網羅的な検索ツールを作ることは可能な範囲である.DOEC は,そのような目的の下,DOE 編纂プロジェクトの一環として,まず高頻度語を収録したマイクロフィッシュ版が1980年と1985年に公開された.その後,1997年にオンライン版が公開される一方,2005年には A--F までの項目を収録した CD-ROM 版も世に出た.その後も現在に至るまで,編纂者たちの地道な努力によって公開項目が増してきている.
 DOE の各語のエントリーでは,文証されるスペリング,語義や用例,(翻訳テキストの場合)対応するラテン単語などの情報が得られ,OED への参照を含めた参考資料へのアクセスも提供されている.
 この世に完璧なツールはないように,DOE(C) にも使用に際して注意すべき点はある.古英語テキストに複数のバージョンがある場合,文献学的には各々の単語の variants の情報が得られることが望ましいが,DOE(C) ではテキストによってその収録幅に揺れがある.また,語としての variants はおよそ拾い上げられているとしても,統語的,形態的,音韻的な意義をもつ variants にはさほど意が払われていない.さらに,書記上の省略が暗黙のうちに展開されているという点にも注意が必要である.語源情報が与えられていない点も,辞書として残念ではある.
 それでも,古英語研究における DOE の重要性と期待の大きさは計りしれない.OED にも古英語単語は収録されているが,あくまで部分的であり,1150年を超えて生き延びた古英語単語に限定されている.編纂プロジェクトのインスピレーション自体は,OED の初版が完成されつつあった100年ほど前の Craigie のアイディアに由来するというから,実に息の長いプロジェクトなのである.応援していきましょう.
 DOEC については,CoRD (Corpus Resource Database) よりこちらの情報もどうぞ.

 ・ Lowe, Kathryn A. "Resources: Early Textual Resources." Chapter 71 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1119--31.
 ・ Traxel, Oliver M. "Resources: Electronic/Online Resources." Chapter 72 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1131--48.
 ・ Durkin, Philip. "Resources: Lexicographic Resources." Chapter 73 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 1149--63.

Referrer (Inside): [2020-06-26-1] [2020-06-25-1]

[ | 固定リンク | 印刷用ページ ]

2020-04-25 Sat

#4016. 中英語研究のための基本的なオンライン・リソース [bibliography][website][link][corpus][dictionary][hel_education][auchinleck][oed][htoed][laeme][lalme][med][ceec][me]

 標記について,Smith (47--48) の参考文献表よりいくつか抜き出し,整理し,リンクを張ってみた(現時点で生きたリンクであることを確認済み).本ブログでは,その他各種のオンライン・リソースも紹介してきたが,まとめきれないので link を参照.とりわけ Chaucer 関連のリンクは「#290. Chaucer に関する Web resources」 ([2010-02-11-1]) をどうぞ.



 ・ AM = Burnley, David and Alison Wiggins, eds. Auchinleck Manuscript. National Library of Scotland, 2003. Available online at http://www.nls.uk/auchinleck/ .
 ・ CEEC = Nevalainen, Terttu, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi, and Minna Palander-Collin. Corpus of Early English Correspondence (CEEC). Department of English, U of Helsinki. Available online at http://www.helsinki.fi/varieng/CoRD/corpora/CEEC/index.html .
 ・ CSC = Meurman-Solin, Anneli. Corpus of Scottish Correspondence. U of Helsinki, 2007. Available online at http://www.helsinki.fi/varieng/CoRD/corpora/CSC/ .
 ・ CTP = Robinson, Peter and Barbara Bordalejo. The Canterbury Tales Project. Institute of Textual Scholarship and Electronic Editing, U of Birmingham, 1996--. Available online at http://server30087.uk2net.com/canterburytalesproject.com/index.html .
 ・ HTOED = Kay, Christian, Jane Roberts, Michael Samuels, and Irené Wotherspoon, eds. Historical Thesaurus of the Oxford English Dictionary. Oxford: OUP, 2009. Available online via http://www.oed.com/ .
 ・ LAEME = Laing, Margaret and Roger Lass. LAEME: A Linguistic Atlas of Early Middle English, 1150--1325. U of Edinburgh, 2007. Available online at http://www.lel.ed.ac.uk/ihd/laeme2/laeme2.html .
 ・ LALME = McIntosh, Angus, Michael Samuels, and Michael Benskin, with Margaret Laing and Keith Williamson. A Linguistic Atlas of Late Mediaeval English (LALME). Aberdeen: Aberdeen UP, 1986. Available online as eLALME at http://www.lel.ed.ac.uk/ihd/elalme/elalme_frames.html .
 ・ LAOS = Williamson, Keith. A Linguistic Atlas of Older Scots, Phase 1: 1380--1500 (LAOS). 2007. Available online at http://www.lel.ed.ac.uk/ihd/laos1/laos1.html .
 ・ MEC = McSparran, Frances, ed. Middle English Compendium. Ann Arbor: U of Michigan P, 2006. Available online at http://quod.lib.umich.edu/m/mec/ .
 ・ MED = Kurath, Hans, Sherman M. Kuhn, John Reidy, and Robert E. Lewis. Middle English Dictionary. Ann Arbor: U of Michigan P, 1952--2001. Available online at http://quod.lib.umich.edu/m/med/ .
 ・ MEG-C = Stenroos, Merja, Martti Mákinen, Simon Horobin, and Jeremy Smith. The Middle English Grammar Corpus (MEG-C). Version 2011.2. Available online at https://www.uis.no/research/history-languages-and-literature/the-mest-programme/the-middle-english-grammar-corpus-meg-c/ .
 ・ OED = Simpson, John, ed. The Oxford English Dictionary. 3rd ed. Oxford UP, 2000--. Available online at http://www.oed.com/.
 ・ TOE = Edmonds, Flora, Christian Kay, Jane Roberts, and Irené Wotherspoon. Thesaurus of Old English. U of Glasgow, 2005. Available online at https://oldenglishthesaurus.arts.gla.ac.uk/ .
 ・ VARIENG = Nevalainen, Terttu, Irma Taavitsainen, and Sirpa Leppänen. The Research Unit for Variation, Contacts and Change in English (VARIENG). Department of English, U of Helsinki. Available online at http://www.helsinki.fi/varieng/index.html .



 ・ Smith, Jeremy J. "Periods: Middle English." Chapter 3 of English Historical Linguistics: An International Handbook. 2 vols. Ed. Alexander Bergs and Laurel J. Brinton. Berlin: Mouton de Gruyter, 2012. 32--48.

Referrer (Inside): [2020-06-25-1]

[ | 固定リンク | 印刷用ページ ]

2020-03-07 Sat

#3967. コーパス利用の注意点 (3) [corpus][methodology][representativeness]

 標題については,以下の記事を含む様々な機会に取り上げてきた.

 ・ 「#307. コーパス利用の注意点」 ([2010-02-28-1])
 ・ 「#367. コーパス利用の注意点 (2)」 ([2010-04-29-1])
 ・ 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])
 ・ 「#1280. コーパスの代表性」 ([2012-10-28-1])
 ・ 「#2584. 歴史英語コーパスの代表性」 ([2016-05-24-1])
 ・ 「#2779. コーパスは英語史研究に使えるけれども」 ([2016-12-05-1])

 コーパスを利用した英語(史)研究はますます盛んになってきており,学界でも当然視されるようになったが,だからこそ利用にあたって注意点を確認しておくことは大事である.主旨はおよそ繰り返しとなるが,今回は英語歴史統語論の概説書を著わした Fischer et al. (14) より,4点を指摘しよう.

(i) there can be tension between what is easily retrieved through corpus searches and what is thought to be linguistically most significant; a historical syntactic case in point involves patterns of co-reference of noun phrases . . . ; these have been largely neglected because they involve information status, which is currently not part of any standard annotation scheme;

(ii) when a data search yields large numbers of hits, there may be a temptation to interpret corpus results merely as numbers, which is a severely reductive approach; in cases of grammaticalization, for example, changes in frequency may act as tell-tale signs . . . , but an exclusive quantitative focus will mean that one is ignoring the changes in meaning and context that form the core of the process;

(iii) the substantial amounts of data that can be collected from a corpus can also blind researchers to the dangers of making generalizations about the language as a whole on the basis of a partial view of it; this is a particularly relevant problem for diachronic research, because we only have very incomplete evidence for the state of the language in any historical period . . . ;

(iv) trying to achieve greater representativness by collecting and comparing data from various corpora can also be tricky: principles guiding text inclusion vary widely, there is little standardization in user interfaces, and they can require a significant time investment to learn to operate.


 この4点を私の言葉で超訳すれば,次のようになる.

 (i) コーパスで遂行しやすい問題が,言語学的には必ずしも意味のある問題ではないかもしれない点に注意すべし
 (ii) 量的な観点を重視する研究には役立ちそうだが,質的な観点が見過ごされてしまう危険性がある
 (iii) 巨大なコーパスであったとしても,完全に representative であるわけではない(いわゆる歴史言語学における "bad-data problem")
 (iv) コーパス編纂者の前提やインターフェース作成者の意図をつかんだ上で,使用法を心して習熟すべし

 ・ Fischer, Olga, Hendrik De Smet, and Wim van der Wurff. A Brief History of English Syntax. Cambridge: CUP, 2017.

[ | 固定リンク | 印刷用ページ ]

2019-12-22 Sun

#3891. 現代英語の様々な句読記号の使用頻度 [punctuation][alphabet][diacritical_mark][net_speak][brown][corpus][frequency][statistics]

 英語は同じローマン・アルファベットを用いる文字圏のなかでも,句読法 (punctuation) に関しては比較的単純な部類に入る.現代的な句読記号が出そろったのは500年前くらいであり,その数も多くない (cf. 「#575. 現代的な punctuation の歴史は500年ほど」 ([2010-11-23-1])) .また,文字そのものが26文字しかない上に,フランス語やドイツ語などにみられる,文字の周辺に付す特殊な発音区別符(号) (diacritical mark; cf. 「#870. diacritical mark」 ([2011-09-14-1])) も原則として用いられない.さらに,現代の印刷文化では句読記号が控えめに使われるようになってきているとも言われる.一方,net_speak などでは,新たな句読記号の使用法が生み出されていることも確かであり,句読法の発展が止まってしまったわけではないようだ (cf. 「#808. smileys or emoticons」 ([2011-07-14-1])) .
 さて,約100万語のアメリカ英語の書き言葉コーパス Brown Corpus を用いた調査によると,英語の主要な句読記号の使用頻度 (%) は次の通りだという (Cook 92) .

Commas47
Full stops45
Dashes2
Parentheses2
Semi-colons2
Question marks1
Colons1
Exclamation marks1


 用いられている句読記号の9割以上が <,> か <.> であるというのは,英語の読み手・書き手の直感としてうなづける.英語の読み書き学習の観点からいえば,まずはこの2つの句読記号に習熟することに努めればよいことになる.
 ローマン・アルファベット文字圏の句読記号の変異について関心のある方は,Character design standards - Punctuation for Latin 1 などを参照されたい.

 ・ Cook, Vivian. The English Writing System. London: Hodder Education, 2004.

[ | 固定リンク | 印刷用ページ ]

2019-07-09 Tue

#3725. 語彙力診断テストや語彙関連ツールなど [lexicology][bnc][coca][corpus][webservice][link]

 以前「#833. 語彙力診断テスト」 ([2011-08-08-1]) を紹介したが,今回は中田(著)『英単語学習の科学』 (12) で取り上げられていた別の語彙診断力テスト Test Your Vocabulary Online With VocabularySize.com を紹介しよう.140問の4択問題をクリックしながら解き進めていくことで,word family ベースでの語彙力が判定できる.母語を日本語に設定して診断する.また,英語での出題のみとなるが,同じ語彙セットを用いた100問からなる語彙診断テストの改訂版もある.
 関連して中田 (13) では,英単語の頻度レベルを調べるツールとして,Compleat Lexical TutorVocabProfilers が便利だとも紹介されている.BNC や COCA などを利用して,入力した単語(群)の頻度を1000語レベル,2000語レベルなどと千語単位で教えてくれる.ある程度の長さの英文を放り込むと,各単語を語彙レベルごとに色づけしてくれたり,分布の統計を返してくれる優れものだ.ただし,インターフェースがややゴチャゴチャしていて分かりにくい.
 日本人の英語学習者にとっては,「標準語彙水準 SVL 12000」などに基づいて英文の語彙レベルを判定してくれる Word Level Checker も便利である.単語ごとにレベルを返してくれるわけではなく,入力した英文内の語彙レベルとその分布を返してくれるというツールである.
 英文を入力すると,単語の語注をアルファベット順に自動作成してくれる Apps 4 EFLText to Flash というツールも便利だ.さらにこれの応用版で,単語をクリックすると意味がポップアップ表示される英文読解ページを簡単に作れる Pop Translation なるツールもある.世の中,便利になったものだなあ.

 ・ 中田 達也 『英単語学習の科学』 研究社,2019年.

Referrer (Inside): [2019-07-11-1]

[ | 固定リンク | 印刷用ページ ]

2019-05-21 Tue

#3676. 英語コーパスの使い方 [corpus][hel_education][link][methodology]

 たいそうな題名の記事ですが,これまでにコーパス利用について書いてきたブログ記事その他へのリンク集にすぎません.
 まず英語学でコーパスを利用しようと思ったら,様々な参考図書があるものの,まずは研究社のウェブサイトより「リレー連載 実践で学ぶ コーパス活用術」の連載記事(全37本)に目を通すのがよいと思います.筆者の堀田も影は薄いですが寄稿しています (cf. 「#2186. 研究社Webマガジンの記事「コーパスで探る英語の英米差 ―― 基礎編 ――」」 ([2015-04-22-1]) と「#2216. 研究社Webマガジンの記事「コーパスで探る英語の英米差 ―― 実践編」 ([2015-05-22-1])).
 本ブログからは corpus の各記事をご覧いただきたいのですが,その中から特に重要な記事を選んでおきます.

 ・ 「#568. コーパスの定義と英語コーパス入門」 ([2010-11-16-1])

 ・ 「#307. コーパス利用の注意点」 ([2010-02-28-1])
 ・ 「#367. コーパス利用の注意点 (2)」 ([2010-04-29-1])
 ・ 「#2779. コーパスは英語史研究に使えるけれども」 ([2016-12-05-1])

 ・ 「#363. 英語コーパス発展の3軸」 ([2010-04-25-1])
 ・ 「#368. コーパスは研究の可能性を広げた」 ([2010-04-30-1])
 ・ 「#1165. 英国でコーパス研究が盛んになった背景」 ([2012-07-05-1])

 ・ 「#1280. コーパスの代表性」 ([2012-10-28-1])
 ・ 「#2584. 歴史英語コーパスの代表性」 ([2016-05-24-1])
 ・ 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])
 ・ 「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1])

 ・ 「#271. 語彙研究ツールとしての辞書とコーパス」 ([2010-01-23-1])

 歴史英語コーパスのハブというべきサイトといえば,「#506. CoRD --- 英語歴史コーパスの情報センター」 ([2010-09-15-1]) を挙げないわけにはいきません.現時点で最も有用な歴史英語の情報集積サイトです.
 BNC, COCA, ICE, Brown Family, COHA, HC (= Helsinki Corpus), LAEME, EEBO, CLMET など個別の(歴史)コーパスについては,それぞれのタグをつけた bnc, coca, ice, brown, coha, hc, laeme, eebo, clmet もご参照ください.
 その他,リンク集としては「コーパスで探る英語の英米差 ―― 基礎編 ――」」 ([2015-04-22-1]) の記事も参照.

[ | 固定リンク | 印刷用ページ ]

2019-05-03 Fri

#3658. 歴史語用論の分類と課題 (2) [pragmatics][historical_pragmatics][hisopra][methodology][corpus]

 「#2000. 歴史語用論の分類と課題」 ([2014-10-18-1]) に引き続いて.歴史語用論 (historical_pragmatics) は,ここ数年の間に国際的にも国内的にも知名度をあげてきた.国内では私も HiSoPra* (= HIstorical SOciolinguistics and PRAgmatics) 研究会に参加させてもらっているし,周囲の学生や研究者をみてみても確実に関心が広まってきているのを感じる.
 歴史語用論の扱う領域は広く,従来の主流派言語学では取りこぼされてきた「雑多な」話題をカバーすることが多い.歴史語用論の研究領域を整理しようとする試みは,前の記事 ([2014-10-18-1]) でも紹介したように,いくつかある.今回は,Arnovick (96) が英語歴史語用論を念頭に置きつつ挙げている3分法を紹介しよう.

   Pragmatic forms: discourse markers, terms of address, connectives, and interjections;
   Interactional pragmatics: speech acts, politeness, impoliteness;
   Discursive domains: scientific and medical discourse, journalism, religious and political discourse, courtroom discourse, literary discourse, public and private correspondence.


 Arnovick の同じ論文では,英語歴史語用論とコーパス利用の親和性についても説かれている.導入的な文章となっているので,英語歴史語用論に初めて関心をもったら,ぜひ読んでもらいたい.

 ・ Arnovick, Leslie K. "Historical Pragmatics in the Teaching of the History of English." Chapter 9 of Approaches to Teaching the History of the English Language: Pedagogy in Practice. Introduction. Ed. Mary Heyes and Allison Burkette. Oxford: OUP, 2017. 93--105.

[ | 固定リンク | 印刷用ページ ]

2019-02-22 Fri

#3588. -o で終わる名詞の複数形語尾 --- pianospotatoes か? [plural][spelling][corpus]

 -o で終わる加算名詞から規則的な複数形を作る場合に,綴字上 -s のみを付す pianos タイプと,-es とする potatoes タイプが区別される.
 LGSWE (285) は,LGSWE Corpus によって両タイプの分布を調査した.両語尾の間で揺れを示すものもあるので,80%以上の生起率を基準にして,いずれかのタイプかに割り振ったリストである.別途『徹底例解ロイヤル英文法』から補った類例( * を付した)も含めつつ,以下に列挙しよう.

 ・ pianos タイプ: *autos, avocados, casinos, commandos, concertos, discos, *dynamos, embryos, Eskimos, *ghettos, jumbos, kilos, memos, pesos, photos, pianos, portfolios, radios, scenarios, shampoos, solos, stereos, studios, taboos, tacos, tattoos, *torsos, trios, twos, videos, weirdos, zeros, zoos

 ・ potatoes タイプ: buffaloes, cargoes, echoes, heroes, mangoes, mosquitoes, mottoes, negroes, potatoes, tomatoes, tornadoes, torpedoes, vetoes, volcanoes

 一般論をいえば,-s のみを付す pianos タイプが原則である.特に,略語に由来する -o 語や最近の新語として加わった -o 語は -s で複数形を作るのがデフォルトである.また,語末が「母音字+ o」となる場合にも,綴字配列の都合と思われるが,-s のみを付けるのが規則である (e.g. bamboos, cameos, cuckoos, curios, folios, radios, studios, trios) .
 一方,potatoes タイプはどちらかといえば「例外」の側になるわけだが,このタイプには英語化した度合いの比較的強い,日常語が含まれるので注意を要する.
 また,-s と -es の間で揺れを示す名詞も少なくない.『徹底例解ロイヤル英文法』では,例として banjo(e)s, buffalo(e)s, cargo(e)s, fresco(e)s, ghetto(e)s, grotto(e)s, halo(e)s, mango(e)s, manifesto(e)s, mosquito(e)s, motto(e)s, tornado(e)s, volcano(e)s, zero(e)s が挙げられている.先に挙げたリストと重複する単語もあることから,-o 語の複数形をもっと細かく調査すれば,実際にはさらに広範な揺れが観察されるのかもしれない.
 なお,この話題と関連して,単数形 potato の綴りを potatoe と誤って覚えていたアメリカ元副大統領 Dan Quayle のスキャンダル,通称「potato 事件」について,Horobin (2--3) あるいはその拙訳 (16--17) を参照.1文字のスペリング・ミス(だけではないが)で,政治生命が断たれることもあるという驚くべき事例である.pianospotatoes かという問題は決して侮れない.

 ・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
 ・ 綿貫 陽(改訂・著);宮川幸久, 須貝猛敏, 高松尚弘(共著) 『徹底例解ロイヤル英文法』 旺文社,2000年.
 ・ Horobin, Simon. Does Spelling Matter? Oxford: OUP, 2013.
 ・ サイモン・ホロビン(著),堀田 隆一(訳) 『スペリングの英語史』 早川書房,2017年.

Referrer (Inside): [2019-04-13-1]

[ | 固定リンク | 印刷用ページ ]

2019-01-13 Sun

#3548. Parsed Corpus of Early English Correspondence (PCEEC) [corpus][emode][ceec]

 現在取りかかっている研究テーマの調査のために,CoRD ( Corpus Resource Database )Parsed Corpus of Early English Correspondence (PCEEC) より情報を得て,The Oxford Text Archive (OTA) 経由で PCEEC を入手した.統語タグ付きコーパスとして提供されているものだが,複雑な統語環境の条件によるサーチは必要ないので,附属のプレーンテキストか品詞タグ付きテキストからなるコーパスで今回は十分に用を足しそうだ.しかし,必要とあらば検索ツール Corpus Search 2 を用いて凝ったサーチもできる.
 このコーパスの元となっている Corpus of Early English Correspondence (CEEC) は,1996--98年にヘルシンキ大学にて編纂作業が進められたコーパスで,1410?--1681年の書簡テキストが送り手の情報とともに集積されている.96の書簡集からなり,書き手は778人,書簡は6039通,そして総語数が270万語に及ぶコーパスである.編纂の狙いは,社会言語学的な手法を歴史英語へ適用することにあった.
 この CEEC からいくつかの姉妹コーパスが派生しており,その1つが統語タグ付きの PCEEC である.CEEC 自体は一般公開されておらず,一般に入手できるのは PCEEC と Corpus of Early English Correspondence Sampler (CEECS) のみである.PCEEC は,CEEC から著作権の関係で1/4ほどを取り除いたコーパスとなっている.
 その他の(未公開)派生コーパスである,Corpus of Early English Correspondence Supplement (CEECSU)Corpus of Early English Correspondence Extension (CEECE) も合わせて,量的な情報を一覧しておこう.

Corpustime coveredwordsletterswriterscollectionspublished
CEEC1410?--16812.7 million603977896----
CEECS1418--16800.45 million1147194231998
PCEEC1410?--16812.2 million4979657842006
CEECE1681--1800c. 2.2 millionc. 4900> 30074----
CEECSU1402--1663c. 0.44 millionc. 900> 10020----


 PCEEC について,時代区分を設けて語数をカウントすると以下の通り.

PeriodDateWord countToken count
M31350--141919,505684
M41420--1499364,31720,039
E11500--1569309,22011,056
E21570--1639910,67544,067
E31640--1710555,41529,185


・ CEEC = Corpus of Early English Correspondence. Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin at the Department of Modern Languages, University of Helsinki. 1998.
・ PCEEC = Parsed Corpus of Early English Correspondence, parsed version. Annotated by Ann Taylor, Arja Nurmi, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Compiled by the CEEC Project Team. York: University of York and Helsinki: University of Helsinki. 2006. Distributed through the Oxford Text Archive; Parsed Corpus of Early English Correspondence, tagged version. Annotated by Arja Nurmi, Ann Taylor, Anthony Warner, Susan Pintzuk, and Terttu Nevalainen. Compiled by the CEEC Project Team. York: University of York and Helsinki: University of Helsinki. 2006. Distributed through the Oxford Text Archive; Parsed Corpus of Early English Correspondence, text version. 2006. Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin, with additional annotation by Ann Taylor. Helsinki: University of Helsinki and York: University of York. 2006. Distributed through the Oxford Text Archive.
・ CEECS = Corpus of Early English Correspondence Sampler. Compiled by Compiled by Terttu Nevalainen, Helena Raumolin-Brunberg, Keränen, Minna Nevala, Arja Nurmi and Minna Palander-Collin at the Department of Modern Languages, University of Helsinki. 1998

[ | 固定リンク | 印刷用ページ ]

2018-11-16 Fri

#3490. dreamt から dreamed [clmet][corpus][lmode][verb][conjugation][preterite][participle]

 Is it 'Dreamed' or 'Dreamt'? と題する Merriam-Webster の語法記事を読んだ.dream の過去形(および過去分詞形)が dreamt から dreamed へと規則化してきた近現史に焦点が当てられている.
 『メリアム・ウェブスター英英辞典』を含むいくつかの辞書では,dreamed の綴字のもとに /ˈdrɛmt, ˈdriːmd/ の2つの発音が記載されている.これは,動詞 dream の過去形・過去分詞形として dreamt/dreamed の両形態が交替可能であることを反映した併用・混用といえるだろうか.さすがに dreamt と綴って /ˈdriːmd/ と発音する旨の記述はない.(dreamt の発音の短母音については,「#2290. 形容詞屈折と長母音の短化」 ([2015-08-04-1]) を参照.)
 上の語法記事には,19世紀前半にはすでに dreamed が優勢となっていたとの記述があったので,これを確かめるべく後期近代英語コーパス CLMET3.0 で例文を集めてみた(検索結果のテキストファイルはこちら).頻度を集計した結果は次の通り.

Period (subcorpus size)dreamtdreamed
1710--1780 (10,480,431 words)5554
1780--1850 (11,285,587)75137
1850--1920 (12,620,207)71242


 18世紀の大半を含む第1期には両形は互角だったが,確かに19世紀前半を中心とする第2期に dreamed が大きく伸張している.そして,19世紀後半以降には dreameddreamt をさらに圧倒していった.
 とはいえ,現在に至るまで dreamt が「抹殺」されずにきたという事実を認識しておくことも重要である.言語変化は,個々の事例にもよるが,これほどゆっくり進むものである.
 動詞の「規則化」あるいは「強弱移行」については,「#178. 動詞の規則活用化の略歴」 ([2009-10-22-1]) ,「#527. 不規則変化動詞の規則化の速度は頻度指標の2乗に反比例する?」 ([2010-10-06-1]) ,「#528. 次に規則化する動詞は wed !?」 ([2010-10-07-1]),「#764. 現代英語動詞活用の3つの分類法」 ([2011-05-31-1]),「#1287. 動詞の強弱移行と頻度」 ([2012-11-04-1]) を参照.逆の「不規則化」「弱強移動」については「#3385. 中英語に弱強移行した動詞」 ([2018-08-03-1]) を参照.

Referrer (Inside): [2019-05-15-1] [2018-11-17-1]

[ | 固定リンク | 印刷用ページ ]

2018-10-24 Wed

#3467. 文献学における校訂の信頼性の問題 [philology][methodology][manuscript][punctuation][editing][corpus]

 英語史・英語文献学に携わる者にとって,標題は本質的な問題,もっといえば死活問題でもある.この問題について,児馬 (31) が古英語資料との関係でポイントを要領よくまとめている.

OE資料を使う際に,校訂の信頼性という問題は避けて通れない.歴史言語学で引用されているデータ(例文)の多くは写本研究,すなわち写本から校訂・編集を経て活字となった版 (edition) か,ないしは,特に最近はその版に基づいた電子コーパスに基づくことが多い.そうした文献学研究の多大な恩恵を受けて,歴史言語学研究が成り立っていることも忘れてはならないが,と同時に,校訂者 (editor) の介入がオリジナル写本を歪めることもありうるのである.一つの作品にいくつか複数の写本があって,異なる写本に基づいた複数の版が刊行されていることもあるので,その点は注意しなければならない.現代と同じように,構成素の切れ目をわかりやすくしたり,大・小文字の区別をする punctuation の明確な慣習はOE写本にはない.行の区切り,文単位の区切りなどが校訂者の判断でなされており,その判断は絶対ではないということを忘れてはならない.ここでは深入りしないが,それらの校訂本に基づいて作成された電子コーパスの信頼性もさらに問題となろう.少なくとも,歴史言語学で使用するデータに関しては,原典(本来は写本ということになるが,せいぜい校訂本)に当たることが不可欠である.


 上で述べられていることは,古英語のみならず中英語にも,そしてある程度は近代英語以降の研究にも当てはまる.文献学における「証拠」を巡るメタな議論は非常に重要である.
 関連して,「#681. 刊本でなく写本を参照すべき6つの理由」 ([2011-03-09-1]) ,「#682. ファクシミリでなく写本を参照すべき5つの理由」 ([2011-03-10-1]),「#2514. Chaucer と Gawain 詩人に対する現代校訂者のスタンスの違い」 ([2016-03-15-1]),「#1052. 英語史研究の対象となる資料 (2)」 ([2012-03-14-1]),「#2546. テキストの校訂に伴うジレンマ」 ([2016-04-16-1]) .

 ・ 児馬 修 「第2章 英語史概観」服部 義弘・児馬 修(編)『歴史言語学』朝倉日英対照言語学シリーズ[発展編]3 朝倉書店,2018年.22--46頁.

[ | 固定リンク | 印刷用ページ ]

2018-10-16 Tue

#3459. 16--17世紀の君主の称号は GraceHighnessMajesty か? [eebo][corpus][title][address_term][honorific][monarch]

 標題は「#3095. Your Grace, Your Highness, Your Majesty」 ([2017-10-17-1]) で取り上げた話題である.初期近代英語期のトピックなので,EEBO (Early English Books Online) で調査するのにふさわしいと思い,Early English Books Online corpus のインターフェースを用いて検索してみた.
 検索欄には "your|his|her majesty|majestie|highness|grace" を入力し,検索結果として出力されたデータについて,所有代名詞の種類や異綴字は一緒くたに扱いつつ,GRACE 系,Highness 系,Majesty 系の3つに整理した.本来であれば実際の指示対象が君主か否かをコンコーダンスラインで逐一確認する必要があるのだが,今回はあくまで傾向を知るための粗い調査なので,あしからず.

 1470s1480s1490s1500s1510s1520s1530s1540s1550s1560s1570s1580s1590s1600s1610s1620s1630s1640s1650s1660s1670s1680s1690sTotal
GRACE651331459269130319622544773116921241174168216641483179020883222229632004092321632092
HIGHNESS00000000006000731038192212521328272713608671
MAJESTY000000000001821881425921856791977536102546312735901251701
Total6513314592691303196225447731175214211951770181321063646100451289796509991195541358892464


 傾向は明確である.16世紀中は GRACE がほぼ唯一の称号だが,17世紀に入ると MAJESTY が加速度的に増え,1630年代には GRACE を追い抜く.MAJESTY は James I の治世 (1603--25) の後半に確立したとされてきたが,今回の結果もほぼそれに合致している.一方,HIGHNESS は17世紀半ばに突如として増えてはくるが,他の2つより優勢になったことはない.

[ | 固定リンク | 印刷用ページ ]

2018-09-18 Tue

#3431. 各種の EEBO 検索インターフェース [eebo][corpus][emode][site][web_service][link][n-gram][kwic]

 初期近代英語期の膨大なテキストを収録した EEBO (Early English Books Online) について,「#3117. EEBO corpus がリリース」 ([2017-11-08-1]) で BYU 提供の EEBO 検索インターフェース Early English Books Online corpus を紹介した.
 それとは別に,Early Modern Print: Text Mining Early Printed English というサイトのプロジェクトで,n-gram や KWIC などの検索インターフェースが提供されていることを知ったので紹介しておきたい.全体的なイントロは,こちらのページをどうぞ.個々の具体的なツールは,次のリンクからアクセスできる.

 ・ EEBO N-Gram Browser (説明はこちら
 ・ EEBO-TCP Key Words in Context (説明はこちら
 ・ EEBO-TCP and ESTC Text Counts
 ・ EEBO-TCP Words Per Year

 また,University of Michigan の提供する Early English Books Online の各種サーチや Lancaster University による EEBO on CQPweb (V3) も同様に有用.
 各種インターフェースのいずれを用いるか迷うところだ.

Referrer (Inside): [2020-05-16-1]

[ | 固定リンク | 印刷用ページ ]

2018-09-08 Sat

#3421. 英語ことわざの文体・語彙的特徴を示す統計値 [proverb][statistics][corpus][stylistics]

 「#3419. 英語ことわざのキーワード」 ([2018-09-06-1]) と「#3420. キーワードを含む英語ことわざ」 ([2018-09-07-1]) に引き続き,英語ことわざの話題.安藤邦男(著)『ことわざから探る 英米人の知恵と考え方』の紹介ページより取り出した866件の英語ことわざについて,その文体的・語彙的な特徴を数字で示してみたい.特徴を浮き彫りにするには,英語ことわざコーパスを,より大きな一般的なコーパスと比較する必要があるので,昨日と同様に100万語規模の British English 06 (BE06) を使用した.結果として,次のような基本的な統計値が得られた.  *  *

CorpusProverbsBE06
tokens (running words) in text6,2761,011,020
types (distinct words)1,61645,298
type/token ratio (TTR)25.754.48
standardised TTR45.2543.90
STTR std.dev.46.4254.62
STTR basis1,0001,000
mean word length (in characters)4.094.69
word length std.dev.1.922.58
sentences86953,466
mean (in words)7.2218.91
std.dev.2.8614.38
1-letter words29238,775
2-letter words1,020168,273
3-letter words1,345205,211
4-letter words1,370166,961
5-letter words996110,856
6-letter words55388,195
7-letter words35979,174
8-letter words16356,645
9-letter words9639,767
10-letter words5326,170
11-letter words1715,493
12-letter words68,208
13-letter words44,557
14-letter words11,687
15-letter words1623


 見るべき点として,まず "type/token ratio" を指摘しておこう.この数値が高いほど,コーパス内で異なる語が多く用いられていると解釈できる.純粋に数値を見ると,一般コーパスよりもことわざコーパスのほうが高い値を示しており,語彙が多様であると解釈できそうだが,「#2336. Text Analyser --- 簡易テキスト統計分析器」 ([2015-09-19-1]) で示したように,コーパスサイズが互いに大きく異なるので,この指標単独ではそれほど情報量はない.
 "mean word length" と "word length std.dev." は1語当たりの文字数である.両コーパス間の違いはそれほど大きくないが,示唆的ではある.ことわざコーパスのほうが一般コーパスよりも,より短い綴字の単語を好むと解釈できるが,どんなものだろうか.確かに,いたずらに長い単語は一般コーパスよりも出にくいようには感じられる.
 最もなるほどと感じさせられるのは,1文がいくつの単語から成り立っているかを示す "mean (in words)" とその "std.dev." だろう.これらの数値もコーパスサイズに依存するとはいえ,ことわざでは平均して7.22語,一般では18.91語というのは,差が歴然としている.標準偏差も合わせて考えると,ことわざを構成する1文は全体的に短いことが分かる.「短く,語呂がよくてなんぼ」というのが,ある意味ではことわざの形式的な特徴でもあるから,この結果はまったく不思議ではないが,こうして客観的に数値を目の当たりにするとおもしろい.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.

[ | 固定リンク | 印刷用ページ ]

2018-09-06 Thu

#3419. 英語ことわざのキーワード [proverb][keyword][statistics][corpus]

 今年6月に開拓社より出版された安藤邦男(著)『ことわざから探る 英米人の知恵と考え方』の紹介ページに,同著で言及された英語ことわざの索引や,その他の関連するリストが公開されている.こちらから英語のことわざ866件を取り出し,簡単にキーワード分析してみた.  *
 一般的な参照コーパスとして,British English 06 (BE06) を指定した.このコーパスについては「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で紹介しているが,端的にいえば2006年(頃)に出版されたイギリス英語の諸テキストからなる100万語規模のコーパスである.計算の結果,キーワード度数の高かった順に50の単語を挙げよう.  *

is, makes, good, man, cannot, a, never, you, love, wise, better, thief, devil, ill, than, fool, horse, no, truth, fortune, sweet, adversity, evil, make, shall, travels, friend, every, don't, beauty, knows, not, money, neighbor, speak, words, will, worth, fair, hath, best, blind, deceives, dog, longest, comes, honor, man's, great, bread


 上位語には機能語も多く入っているが,ことわざの文体の雰囲気をよく示しているように思われ,興味深い.cannot, never, you, than, no, shall, every, don't, not, hath などは,いかにもことわざと似合う機能語である.
 それに劣らず内容語のラインナップもおもしろい.動詞では make, know, deceive というのがいかにもだし,名詞では man, thief, devil, fool, horse, truth, fortune, adversity, evil, friend, beauty, money, neighbor, words, dog, honor, bread など,思わず首肯してしまうものばかりだ.形容詞や副詞では,good, better, best, ill はもちろんのこと,wise, fair, blind, longest などには納得させられる.善悪,真偽,賢愚の対比や比較により,道徳上・生活上の知恵を授けるという英語ことわざの本質が見えてくるようなキーワードだ.
 このような文体に関わるキーワード分析は,極めて客観的でありながら,往々にして直観に適う結果が出る(あるいはそれ以上に発見がある)という点でおもしろい.ほかにも,「いかにもなキーワード」シリーズの記事として,「#317. 拙著で自分マイニング(キーワード編)」 ([2010-03-10-1]),「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]),「#880. いかにもイギリス英語,いかにもアメリカ英語の単語」 ([2011-09-24-1]),「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.歴史英語の通時的なキーワード分析については,初期中英語コーパス LAEME を利用した Hotta (2013) 論文もある.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.
 ・ Hotta, Ryuichi. "Representativeness, Word Frequency, and Keywords in the LAEME Corpus." Journal of the Faculty of Letters: Language, Literature and Culture 112 (2013): 67--84.

Referrer (Inside): [2018-09-08-1] [2018-09-07-1]

[ | 固定リンク | 印刷用ページ ]

2018-04-22 Sun

#3282. The Parsed Corpus of Middle English Poetry (PCMEP) [corpus][me][hc][ppcme][laeme][link]

 中英語の韻文を集めた統語タグ付きコーパスをみつけた.The Parsed Corpus of Middle English Poetry より編纂者 Richard Zimmermann 氏の許可を得て利用できる.
 現段階で,同コーパスは41のテキスト,160432語からなっている(テキスト・リストはこちら).カバーする時代範囲は c. 1150--1420年,すなわち Helsinki Corpus の区分でいえば M1, M2, M3 に相当する時代である.統語タグは Penn Parsed Corpora of Historical English と同じ方法で付されており,Corpus Search 2 などのツールを用いて解析できる.
 Related Corpora のページの情報も有用.そこにある中英語に関する各種コーパスやデータベースへのリンクを,以下にも張りつけておきたい.

 ・ The Penn-Parsed Corpus of Middle English
 ・ The Corpus of Middle English Prose and Verse
 ・ The Innsbruck Corpus of Middle English Prose
 ・ A Parsed Linguistic Atlas of Early Middle English (P-LAEME)
 ・ Database of Middle English Romance

 アンテナ張りを怠っているうちに,いろいろなプロジェクトや成果物が現われていたのだなという感慨.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow