hellog〜英語史ブログ     ChangeLog 最新    

ice - hellog〜英語史ブログ

最終更新時間: 2020-12-03 09:56

2020-09-25 Fri

#4169. GloWbE --- Corpus of Global Web-Based English [glowbe][corpus][ice][englishes][world_englishes][variety][ame_bre][spelling]

 「#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも)」 ([2020-09-22-1]) で触れた World Englishes のコーパス GloWbE (= Corpus of Global Web-Based English) を少し試してみた.(先日の駒場英語史研究会にて本コーパスを導入していただきました菊地翔太先生(明海大学)には,改めて感謝します.)
 このコーパスは20カ国からの英語変種を総合した19億語からなる巨大コーパスで,変種間の比較が容易に行なえる仕様となっている.変種間比較についていえば,私はこれまで「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1]),「#1743. ICE Frequency Comparer」 ([2014-02-03-1]) などで取り上げたように ICE (International Corpus of English) しか知らなかったのだが,コーパスの世界は急速に進化しているようだ.GloWbE のインターフェースは,COCA (Corpus of Contemporary American English) や COHA (Corpus of Historical American English) などと共通なので,そちらに慣れたユーザーであれば,とっついやすいはずだ.
 きわめて単純な使い方ではあるが,GloWbE の最大の売りである変種間比較を colorcolour のスペリングに関して行なってみた.一般に color はアメリカ式,colour はイギリス式のスペリングといわれるが,この2変種間の比較に満足せず,20変種間で比べてみようという試みだ.インターフェースより単純に Chart 出力機能を選択し,各々のスペリングで検索し,返された図表を眺めるだけなのだが,それだけでも十分におもしろい.まずは,アメリカ式 color の図表から.



 次に,イギリス式 colour の図表を挙げよう.



 横方向の中央辺りに東南アジアの国々が集まっており,歴史的にはイギリス式が多いと予想される地域なわけだが,実はアメリカ式スペリングのほうが優勢のようだ.近年の英語のアメリカ化 (americanisation) の影響が疑われよう.一方,左側には(米国を除く)アングロサクソン系諸国が集まっており,そこでは予想通りにイギリス式が優勢である.右側に集まっているアフリカ諸国では,両スペリングの差はさほど大きくない.
 color vs colour の問題を米英間の問題として論じる時代は過ぎ去りつつある.凄いツールが出てきたものである.

Referrer (Inside): [2020-11-12-1] [2020-10-19-1]

[ | 固定リンク | 印刷用ページ ]

2018-03-11 Sun

#3240. Singapore English における used to (過去)ならぬ use to (現在) [singapore_english][auxiliary_verb][corpus][ice]

 「#735. なぜ助動詞 used to に現在形がないか」 ([2011-05-02-1]) の記事で,「〜したものだった」を意味する used to という過去の助動詞がありながら,なぜ「(現在)〜する習慣がある」ほどを意味する現在の助動詞 use to がないのかについて考えた.そこでは,use to は実際のところ歴史的には文証されるのだが,現在までに廃用となったと述べた.
 しかし,Milroy and Milroy (89) に次のような言及を見つけ,へぇーと感じた.

One syntactic feature which is very characteristic of Singaporean English and appears to be gaining currency, even in written varieties, is the expression use to as a mark of habitual aspect. Thus, all Europeans use to go there is glossed as 'Europeans commonly go there'.


 ということで,「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]) で利用した Singapore English のコーパス (ICE-SIN) で調べてみたら,2例のみではあるが,関係する例文が見つかった.1つめの例は,Singlish の使用について複数の話者が討論している文脈からの例である.どのような場面で Singlish を用いるかという話題のなかで,話者 B が「(Singlish を)話すのが普通という時と場所があると思う」と述べている.

C: There are many informal situations in the home where Singlish is used. You see I feel very much that this discussion is kind of passe really is uh we're we're being a bit old-fashioned here in discussing discussing Singlish in the first place
B: No I think there's a time and place where I use to speak
D: There is a time and place precisely


 もう1つの例文は,"Fortunately for me, nice and satisfied clients use to write me complimentary letters." である.前後の文脈が現在・習慣を表わすものであることは確認済みであり,過去の used to の発音・綴字上の代用としての use to ではない.
 なお,同コーパスでは,当然のことながら過去の used to の例も数多くヒットする.

 ・ Milroy, Lesley and James Milroy. Authority in Language: Investigating Language Prescription and Standardisation. 4th ed. London and New York: Routledge, 2012.

[ | 固定リンク | 印刷用ページ ]

2014-02-03 Mon

#1743. ICE Frequency Comparer [corpus][web_service][cgi][frequency][new_englishes][variety][ice]

 「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]), 「#1739. AmE-BrE Diachronic Frequency Comparer」 ([2014-01-30-1]) で,the Brown family of corpora ([2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照)を利用した,変種間あるいは通時的な頻度比較ツールを作った.Brown family といえば,似たような設計で編まれた ICE (International Corpus of English) も想起される([2010-09-26-1]の記事「#517. ICE 提供の7種類の地域変種コーパス」を参照).1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパス群で,互いに比較可能となるように作られている.
 そこで,手元にある ICE シリーズのうち,Canada, Jamaica, India, Singapore, the Philippines, Hong Kong の英語変種コーパス計6種を対象に,前と同じように頻度表を作り,データベース化し,頻度比較が可能となるツールを作成した.使い方については,「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) を参照されたい.

    
Sort: ICE-Canada frequency ICE-Jamaica frequency ICE-India frequency ICE-Singapore frequency ICE-Philippines frequency ICE-Hong Kong frequency alphabetically nothing (non-regex mode only)


 どんな使い道があるかは,アイデア次第だが.例えば,"^snow(s|ed|ing)?$", "^Japan(ese)?$", "^bananas?$", "^Asia(n?)s?$" などで検索してみるとおもしろいかもしれない.

Referrer (Inside): [2020-09-25-1] [2015-04-22-1]

[ | 固定リンク | 印刷用ページ ]

2010-09-27 Mon

#518. Singapore English のキーワードを抽出 [text_tool][corpus][flob][ice][singapore_english]

 昨日の記事[2010-09-26-1]ICE ( International Corpus of English ) からいくつかの英語地域変種コーパスが手に入る旨を紹介したが,そのなかから Singapore English のコーパス ( ICE-SIN ) を少しいじってみた.
 [2010-03-10-1]の記事で WordSmith の KeyWords 抽出機能を拙著の英文で試したが,今回は ICE-SIN で同様に試してみるとどうなるだろうかと思った.そこで今回も,1990年代初頭のイギリス英語を対象に編纂された比較可能な FLOB corpus ( see [2010-06-29-1] ) を参照コーパスとし,British English に照らして Singapore English に特徴的な語(=キーワード)を抽出してみた.キーワード性の高い上位20語について,WordSmith に出力された表を掲げよう(上位100語までのリストはこのページのHTMLソースを参照).

nwordice-sin.freq.ice-sin.lst %flob.freq.flob.lst %keyness
1uh8,2300.748 19,246.0
2you18,1751.647,2580.2917,768.5
3uhm3,8380.350 9,021.1
4ya3,5800.3210 8,283.9
5i15,1661.3712,2300.497,051.3
6singapore3,0410.2764 6,570.0
7word3,4900.324820.025,621.8
8know4,7680.431,5340.065,345.5
9okay2,2960.2128 5,112.0
10so6,7590.614,4520.184,113.8
11lah1,7470.162 4,074.4
12it's3,5850.321,1860.053,949.9
13your3,4850.311,6420.072,972.2
14oh1,9520.183440.012,900.2
15think2,7610.251,2080.052,501.5
16ah1,2880.12142 2,204.9
17we5,8840.535,4060.222,190.7
18is15,0221.3620,5880.832,027.9
19don't2,3720.211,1960.051,904.9
20what4,6350.424,0720.161,865.8


 上位リストを眺めていたら2つの特徴が浮かんできた.

(1) 当然ながら Singapore English としばしば結びつけられる表現が上位に食い込んでいる.例えば,11位の lah は日本語でいう終助詞「ね」「よ」や間投詞のような働きをする pragmatic marker で,Singapore (and Malaysian) English らしい表現として知られている.しかし,やはり局地的な表現だからか手元の英語辞書にはほとんど掲載されておらず,唯一 Macmillan English Dictionary for Advanced Learners, 2nd ed. で次のような説明があった.

adverb INFORMAL
used by people in Malaysia and Singapore for making something they are saying sound more friendly and informal


 例文を挙げるには,ICE-SIN から直接拾ってくると早い.会話文ではもちろんのこと,次のような親しい手紙文でも使われている.

Anyway, life is getting colder here. Hottest degree - 16 degrees celcius, coldest so far is 8oc. Brr..rr!! I'm wearing 3 to 4 layers now, like I did in England. So heavy one lah! Get back ache, you know!


 ほかには,Singapore が6位に入っていたり,dollar(s), Chinese, Singaporeans, Malay などが上位100語以内に入っている.

(2) lah の頻度の高さとも関係するが,口語性の高い語,会話で頻出すると考えられる語が目立つ.直示性を表わす人称代名詞や副詞,また語調を和らげる語 ( hedge ) が特に多い.広く語用論的な機能をもつ語群としてまとめてよいかもしれない.もっとも話し言葉と結びつけられるキーワードが多いことは予想されたことではある.書き言葉は標準に準拠しやすく,地域変種間の差が少ないのが普通だからである.とりわけ話し言葉に地域変種の差が出やすいということが,今回のキーワード抽出で確かめられたということだろう.

 今回のようなキーワード抽出は,もちろん他の地域変種にも応用できる.参照コーパスをイギリス英語以外に動かして相対的に各変種の特徴をみるというのもおもしろそうだ.

[ | 固定リンク | 印刷用ページ ]

2010-09-26 Sun

#517. ICE 提供の7種類の地域変種コーパス [corpus][ice]

 International Corpus of English @ ICE-corpora.net からは,7種類の英語地域変種コーパスがダウンロードできる.ダウンロードした圧縮ファイルにパスワードがかかっており,別途パスワードを申請(郵送かFAXにより無料)しなければならない.

 ・ Canada (ICE-CAN): http://ice-corpora.net/ice/icecan.htm
 ・ East Africa (Kenya & Tanzania) (ICE-EA): http://ice-corpora.net/ice/iceea.htm
 ・ Hong Kong (ICE-HK): http://ice-corpora.net/ice/icehk.htm
 ・ India (ICE-IND): http://ice-corpora.net/ice/iceind.htm
 ・ Jamaica (ICE-JA): http://ice-corpora.net/ice/icejam.htm
 ・ Philippines (ICE-PHI): http://ice-corpora.net/ice/icephi.htm
 ・ Singapore (ICE-SIN): http://ice-corpora.net/ice/icesin.htm

 ICEでは,他にも相互比較可能な地域変種コーパスが編纂されている最中であり,中にはすでに有料で手に入るものもある.いずれも1990年以降の書き言葉と話し言葉が納められた100万語規模のコーパスである.編纂方式や構成は[2010-06-29-1]の記事で紹介した The Brown family of corpora に準じており,500テキスト×2000語となっている.corpus design や annotation scheme の詳細については,ICEトップページの上部メニューから参照できる.いくつかの地域変種には話し言葉のサンプル音源もあり有用.
 この手の英語地域変種コーパスでかつ相互比較可能なものは今のところ他に出ていないだろうから,その目的の研究には重宝するだろう.
 ゼミ研究で地域変種を扱っている学生は特に見ておいてください.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow