hellog〜英語史ブログ     ChangeLog 最新    

ice - hellog〜英語史ブログ

最終更新時間: 2024-11-12 07:24

2021-09-03 Fri

#4512. 英米英語と比較したカメルーン英語のキーワード [keyword][corpus][ice][flob][frown]

 複数のコーパスを用いたキーワード分析は,私も何度か行なったことがある (cf. keyword) .特定のコーパスに特徴的に現われるキーワードを,別の一般的なコーパスとの対比によって統計的に抜き出してくる手法で,うまくいくと言語文化的な観点からおもしろい結果が出る.
 今回は,Polzenhagen and Wolf の論考を読んでいて,ICE (International Corpus of English) が提供するカメルーン英語のコーパスからキーワードを抜き出した調査が紹介されているのを見つけたので,それを紹介したい.対比のための参照コーパスとして,イギリス英語の FLOB とアメリカ英語の FROWN が用いられている.
 さて,調査の結果だが,カメルーン英語のキーワードとして以下の単語群が上位に浮かび上がってきたという (161) .

 ・ community
 ・ communal
 ・ family
 ・ relative
 ・ kin / kinship / kinsman / kinspeople
 ・ brotherhood
 ・ marriage
 ・ marry
 ・ marital
 ・ husband
 ・ wife
 ・ parent / parental / parenting
 ・ maternity / maternal
 ・ Birth
 ・ child / childhood / childless
 ・ Offspring

 意味の場として共通項をくくり出せば「親族」と「共同体」といったところだろうか.カメルーン社会の顕点が明らかになっているといってよいだろう.民族誌や認知人類学にも洞察を与えてくれる興味深い結果といえる.ただし,対比のための参照ポイントが英米変種(文化)であること,つまり結果が相対的なものであることは,常に意識しておく必要があるだろう.

 ・ Polzenhagen, Frank and Hans-Georg Wolf, "World Englishes and Cognitive Linguistics." Chapter 8 of The Oxford Handbook of World Englishes. Ed. by Markku Filppula, Juhani Klemola, and Devyani Sharma. New York: OUP, 2017. 147--72.

[ 固定リンク | 印刷用ページ ]

2021-08-30 Mon

#4508. World Englishes のコーパス研究の未来 [world_englishes][variety][corpus][multilingualism][methodology][ice]

 連日 World Englishes に関する話題を取り上げている.比較的新しい分野であるとはいえ,この分野でのコーパスを用いた研究には少なくとも数十年ほどの実績がある.その走りは,1960年代以降,世紀末にかけて徐々に蓄積されてきた,主として英米変種に焦点を当てた各100万語からなるコーパス群,いわゆる "The Brown family of corpora" だったといってよいだろう (cf. 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])) .
 この "Brown family" は,次なる大型プロジェクトにもインスピレーションを与えた.「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1]) で紹介した International Corpus of English である.1990年に Sydney Greenbaum が計画を発表して以来,イギリス英語とアメリカ英語はもちろん,現在までにカナダ英語,東アフリカ英語,香港英語,インド英語,アイルランド英語,ジャマイカ英語,ニュージーランド英語,ナイジェリア英語,フィリピン英語,シンガポール英語,スリランカ英語など様々な英語変種の100万語規模のコーパスが編纂されてきた(一部のものはダウンロード可能).互いに比較可能な形でデザインされており,ICECUP という検索ソフトウェアも用意されている.本ブログの ice の記事も参照.
 続いて,2013年にこの分野における近年の最大の成果である GloWbE (= Corpus of Global Web-Based English) がオンライン公開された.「#4169. GloWbE --- Corpus of Global Web-Based English」 ([2020-09-25-1]) で紹介した通り,20カ国からの英語変種を総合した19億語からなる巨大世界英語変種コーパスである.現在,このコーパスは世界英語に関する研究でよく利用されている.
 このように World Englishes を巡るコーパスの編纂と使用が促進されてきたが,今後,この方面ではどのような展開が予想されるだろうか.Mair (118--19) は今後の展開(あるいは希望)として3点を挙げている.

 (1) 諸変種の歴史の初期段階のコーパスの編纂が待たれる
 (2) 諸変種の実態についてウェブ上のデータを利用することがますます有用となってくる
 (3) 諸変種の多くについてマルチリンガルな状況で使用されているのが実態である以上,従来の英語のモノリンガル・コーパスという枠組みではなく,英語を含むマルチリンガル・コーパスというつもりで編纂されていくべきである

 とりわけ (3) は,伝統的な「英語学」を学んできた私のような者にとっては,ショッキングな,目から鱗が落ちるような未来像でもある.World Englishes 研究は,すでに英語学の枠からはみ出し,"sociolinguistics of globalisation" (Mair 119) というべき目標へと踏み出していることを示唆する.そして「英語史」の研究も,世界英語を考慮に入れる以上,こうした動向と連動して,ますます開かれたものになっていくのだろう.

 ・ Mair, Christian. "World Englishes and Corpora." Chapter 6 of The Oxford Handbook of World Englishes. Ed. by Markku Filppula, Juhani Klemola, and Devyani Sharma. New York: OUP, 2017. 103--22.

Referrer (Inside): [2021-10-19-1]

[ 固定リンク | 印刷用ページ ]

2020-09-25 Fri

#4169. GloWbE --- Corpus of Global Web-Based English [glowbe][corpus][ice][englishes][world_englishes][variety][ame_bre][spelling]

 「#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも)」 ([2020-09-22-1]) で触れた World Englishes のコーパス GloWbE (= Corpus of Global Web-Based English) を少し試してみた.(先日の駒場英語史研究会にて本コーパスを導入していただきました菊地翔太先生(明海大学)には,改めて感謝します.)
 このコーパスは20カ国からの英語変種を総合した19億語からなる巨大コーパスで,変種間の比較が容易に行なえる仕様となっている.変種間比較についていえば,私はこれまで「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1]),「#1743. ICE Frequency Comparer」 ([2014-02-03-1]) などで取り上げたように ICE (International Corpus of English) しか知らなかったのだが,コーパスの世界は急速に進化しているようだ.GloWbE のインターフェースは,COCA (Corpus of Contemporary American English) や COHA (Corpus of Historical American English) などと共通なので,そちらに慣れたユーザーであれば,とっついやすいはずだ.
 きわめて単純な使い方ではあるが,GloWbE の最大の売りである変種間比較を colorcolour のスペリングに関して行なってみた.一般に color はアメリカ式,colour はイギリス式のスペリングといわれるが,この2変種間の比較に満足せず,20変種間で比べてみようという試みだ.インターフェースより単純に Chart 出力機能を選択し,各々のスペリングで検索し,返された図表を眺めるだけなのだが,それだけでも十分におもしろい.まずは,アメリカ式 color の図表から.



 次に,イギリス式 colour の図表を挙げよう.



 横方向の中央辺りに東南アジアの国々が集まっており,歴史的にはイギリス式が多いと予想される地域なわけだが,実はアメリカ式スペリングのほうが優勢のようだ.近年の英語のアメリカ化 (americanisation) の影響が疑われよう.一方,左側には(米国を除く)アングロサクソン系諸国が集まっており,そこでは予想通りにイギリス式が優勢である.右側に集まっているアフリカ諸国では,両スペリングの差はさほど大きくない.
 color vs colour の問題を米英間の問題として論じる時代は過ぎ去りつつある.凄いツールが出てきたものである.

[ 固定リンク | 印刷用ページ ]

2018-03-11 Sun

#3240. Singapore English における used to (過去)ならぬ use to (現在) [singapore_english][auxiliary_verb][corpus][ice]

 「#735. なぜ助動詞 used to に現在形がないか」 ([2011-05-02-1]) の記事で,「?したものだった」を意味する used to という過去の助動詞がありながら,なぜ「(現在)?する習慣がある」ほどを意味する現在の助動詞 use to がないのかについて考えた.そこでは,use to は実際のところ歴史的には文証されるのだが,現在までに廃用となったと述べた.
 しかし,Milroy and Milroy (89) に次のような言及を見つけ,へぇーと感じた.

One syntactic feature which is very characteristic of Singaporean English and appears to be gaining currency, even in written varieties, is the expression use to as a mark of habitual aspect. Thus, all Europeans use to go there is glossed as 'Europeans commonly go there'.


 ということで,「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]) で利用した Singapore English のコーパス (ICE-SIN) で調べてみたら,2例のみではあるが,関係する例文が見つかった.1つめの例は,Singlish の使用について複数の話者が討論している文脈からの例である.どのような場面で Singlish を用いるかという話題のなかで,話者 B が「(Singlish を)話すのが普通という時と場所があると思う」と述べている.

C: There are many informal situations in the home where Singlish is used. You see I feel very much that this discussion is kind of passe really is uh we're we're being a bit old-fashioned here in discussing discussing Singlish in the first place
B: No I think there's a time and place where I use to speak
D: There is a time and place precisely


 もう1つの例文は,"Fortunately for me, nice and satisfied clients use to write me complimentary letters." である.前後の文脈が現在・習慣を表わすものであることは確認済みであり,過去の used to の発音・綴字上の代用としての use to ではない.
 なお,同コーパスでは,当然のことながら過去の used to の例も数多くヒットする.

 ・ Milroy, Lesley and James Milroy. Authority in Language: Investigating Language Prescription and Standardisation. 4th ed. London and New York: Routledge, 2012.

[ 固定リンク | 印刷用ページ ]

2014-02-03 Mon

#1743. ICE Frequency Comparer [corpus][web_service][cgi][frequency][new_englishes][variety][ice]

 「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]), 「#1739. AmE-BrE Diachronic Frequency Comparer」 ([2014-01-30-1]) で,the Brown family of corpora ([2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照)を利用した,変種間あるいは通時的な頻度比較ツールを作った.Brown family といえば,似たような設計で編まれた ICE (International Corpus of English) も想起される([2010-09-26-1]の記事「#517. ICE 提供の7種類の地域変種コーパス」を参照).1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパス群で,互いに比較可能となるように作られている.
 そこで,手元にある ICE シリーズのうち,Canada, Jamaica, India, Singapore, the Philippines, Hong Kong の英語変種コーパス計6種を対象に,前と同じように頻度表を作り,データベース化し,頻度比較が可能となるツールを作成した.使い方については,「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) を参照されたい.

    
Sort: ICE-Canada frequency ICE-Jamaica frequency ICE-India frequency ICE-Singapore frequency ICE-Philippines frequency ICE-Hong Kong frequency alphabetically nothing (non-regex mode only)


 どんな使い道があるかは,アイデア次第だが.例えば,"^snow(s|ed|ing)?$", "^Japan(ese)?$", "^bananas?$", "^Asia(n?)s?$" などで検索してみるとおもしろいかもしれない.

Referrer (Inside): [2020-09-25-1] [2015-04-22-1]

[ 固定リンク | 印刷用ページ ]

2010-09-27 Mon

#518. Singapore English のキーワードを抽出 [text_tool][corpus][flob][ice][singapore_english][keyword]

 昨日の記事[2010-09-26-1]ICE ( International Corpus of English ) からいくつかの英語地域変種コーパスが手に入る旨を紹介したが,そのなかから Singapore English のコーパス ( ICE-SIN ) を少しいじってみた.
 [2010-03-10-1]の記事で WordSmith の KeyWords 抽出機能を拙著の英文で試したが,今回は ICE-SIN で同様に試してみるとどうなるだろうかと思った.そこで今回も,1990年代初頭のイギリス英語を対象に編纂された比較可能な FLOB corpus ( see [2010-06-29-1] ) を参照コーパスとし,British English に照らして Singapore English に特徴的な語(=キーワード)を抽出してみた.キーワード性の高い上位20語について,WordSmith に出力された表を掲げよう(上位100語までのリストはこのページのHTMLソースを参照).

nwordice-sin.freq.ice-sin.lst %flob.freq.flob.lst %keyness
1uh8,2300.748 19,246.0
2you18,1751.647,2580.2917,768.5
3uhm3,8380.350 9,021.1
4ya3,5800.3210 8,283.9
5i15,1661.3712,2300.497,051.3
6singapore3,0410.2764 6,570.0
7word3,4900.324820.025,621.8
8know4,7680.431,5340.065,345.5
9okay2,2960.2128 5,112.0
10so6,7590.614,4520.184,113.8
11lah1,7470.162 4,074.4
12it's3,5850.321,1860.053,949.9
13your3,4850.311,6420.072,972.2
14oh1,9520.183440.012,900.2
15think2,7610.251,2080.052,501.5
16ah1,2880.12142 2,204.9
17we5,8840.535,4060.222,190.7
18is15,0221.3620,5880.832,027.9
19don't2,3720.211,1960.051,904.9
20what4,6350.424,0720.161,865.8


 上位リストを眺めていたら2つの特徴が浮かんできた.

(1) 当然ながら Singapore English としばしば結びつけられる表現が上位に食い込んでいる.例えば,11位の lah は日本語でいう終助詞「ね」「よ」や間投詞のような働きをする pragmatic marker で,Singapore (and Malaysian) English らしい表現として知られている.しかし,やはり局地的な表現だからか手元の英語辞書にはほとんど掲載されておらず,唯一 Macmillan English Dictionary for Advanced Learners, 2nd ed. で次のような説明があった.

adverb INFORMAL
used by people in Malaysia and Singapore for making something they are saying sound more friendly and informal


 例文を挙げるには,ICE-SIN から直接拾ってくると早い.会話文ではもちろんのこと,次のような親しい手紙文でも使われている.

Anyway, life is getting colder here. Hottest degree - 16 degrees celcius, coldest so far is 8oc. Brr..rr!! I'm wearing 3 to 4 layers now, like I did in England. So heavy one lah! Get back ache, you know!


 ほかには,Singapore が6位に入っていたり,dollar(s), Chinese, Singaporeans, Malay などが上位100語以内に入っている.

(2) lah の頻度の高さとも関係するが,口語性の高い語,会話で頻出すると考えられる語が目立つ.直示性を表わす人称代名詞や副詞,また語調を和らげる語 ( hedge ) が特に多い.広く語用論的な機能をもつ語群としてまとめてよいかもしれない.もっとも話し言葉と結びつけられるキーワードが多いことは予想されたことではある.書き言葉は標準に準拠しやすく,地域変種間の差が少ないのが普通だからである.とりわけ話し言葉に地域変種の差が出やすいということが,今回のキーワード抽出で確かめられたということだろう.

 今回のようなキーワード抽出は,もちろん他の地域変種にも応用できる.参照コーパスをイギリス英語以外に動かして相対的に各変種の特徴をみるというのもおもしろそうだ.

[ 固定リンク | 印刷用ページ ]

2010-09-26 Sun

#517. ICE 提供の7種類の地域変種コーパス [corpus][ice]

 International Corpus of English @ ICE-corpora.net からは,7種類の英語地域変種コーパスがダウンロードできる.ダウンロードした圧縮ファイルにパスワードがかかっており,別途パスワードを申請(郵送かFAXにより無料)しなければならない.

 ・ Canada (ICE-CAN): http://ice-corpora.net/ice/icecan.htm
 ・ East Africa (Kenya & Tanzania) (ICE-EA): http://ice-corpora.net/ice/iceea.htm
 ・ Hong Kong (ICE-HK): http://ice-corpora.net/ice/icehk.htm
 ・ India (ICE-IND): http://ice-corpora.net/ice/iceind.htm
 ・ Jamaica (ICE-JA): http://ice-corpora.net/ice/icejam.htm
 ・ Philippines (ICE-PHI): http://ice-corpora.net/ice/icephi.htm
 ・ Singapore (ICE-SIN): http://ice-corpora.net/ice/icesin.htm

 ICEでは,他にも相互比較可能な地域変種コーパスが編纂されている最中であり,中にはすでに有料で手に入るものもある.いずれも1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパスである.編纂方式や構成は[2010-06-29-1]の記事で紹介した The Brown family of corpora に準じており,500テキスト×2000語となっている.corpus design や annotation scheme の詳細については,ICEトップページの上部メニューから参照できる.いくつかの地域変種には話し言葉のサンプル音源もあり有用.
 この手の英語地域変種コーパスでかつ相互比較可能なものは今のところ他に出ていないだろうから,その目的の研究には重宝するだろう.
 ゼミ研究で地域変種を扱っている学生は特に見ておいてください.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow