hellog〜英語史ブログ

#518. Singapore English のキーワードを抽出[text_tool][corpus][flob][ice][singapore_english][keyword]

2010-09-27

 昨日の記事[2010-09-26-1]ICE ( International Corpus of English ) からいくつかの英語地域変種コーパスが手に入る旨を紹介したが,そのなかから Singapore English のコーパス ( ICE-SIN ) を少しいじってみた.
 [2010-03-10-1]の記事で WordSmith の KeyWords 抽出機能を拙著の英文で試したが,今回は ICE-SIN で同様に試してみるとどうなるだろうかと思った.そこで今回も,1990年代初頭のイギリス英語を対象に編纂された比較可能な FLOB corpus ( see [2010-06-29-1] ) を参照コーパスとし,British English に照らして Singapore English に特徴的な語(=キーワード)を抽出してみた.キーワード性の高い上位20語について,WordSmith に出力された表を掲げよう(上位100語までのリストはこのページのHTMLソースを参照).

nwordice-sin.freq.ice-sin.lst %flob.freq.flob.lst %keyness
1uh8,2300.748 19,246.0
2you18,1751.647,2580.2917,768.5
3uhm3,8380.350 9,021.1
4ya3,5800.3210 8,283.9
5i15,1661.3712,2300.497,051.3
6singapore3,0410.2764 6,570.0
7word3,4900.324820.025,621.8
8know4,7680.431,5340.065,345.5
9okay2,2960.2128 5,112.0
10so6,7590.614,4520.184,113.8
11lah1,7470.162 4,074.4
12it's3,5850.321,1860.053,949.9
13your3,4850.311,6420.072,972.2
14oh1,9520.183440.012,900.2
15think2,7610.251,2080.052,501.5
16ah1,2880.12142 2,204.9
17we5,8840.535,4060.222,190.7
18is15,0221.3620,5880.832,027.9
19don't2,3720.211,1960.051,904.9
20what4,6350.424,0720.161,865.8


 上位リストを眺めていたら2つの特徴が浮かんできた.

(1) 当然ながら Singapore English としばしば結びつけられる表現が上位に食い込んでいる.例えば,11位の lah は日本語でいう終助詞「ね」「よ」や間投詞のような働きをする pragmatic marker で,Singapore (and Malaysian) English らしい表現として知られている.しかし,やはり局地的な表現だからか手元の英語辞書にはほとんど掲載されておらず,唯一 Macmillan English Dictionary for Advanced Learners, 2nd ed. で次のような説明があった.

adverb INFORMAL
used by people in Malaysia and Singapore for making something they are saying sound more friendly and informal


 例文を挙げるには,ICE-SIN から直接拾ってくると早い.会話文ではもちろんのこと,次のような親しい手紙文でも使われている.

Anyway, life is getting colder here. Hottest degree - 16 degrees celcius, coldest so far is 8oc. Brr..rr!! I'm wearing 3 to 4 layers now, like I did in England. So heavy one lah! Get back ache, you know!


 ほかには,Singapore が6位に入っていたり,dollar(s), Chinese, Singaporeans, Malay などが上位100語以内に入っている.

(2) lah の頻度の高さとも関係するが,口語性の高い語,会話で頻出すると考えられる語が目立つ.直示性を表わす人称代名詞や副詞,また語調を和らげる語 ( hedge ) が特に多い.広く語用論的な機能をもつ語群としてまとめてよいかもしれない.もっとも話し言葉と結びつけられるキーワードが多いことは予想されたことではある.書き言葉は標準に準拠しやすく,地域変種間の差が少ないのが普通だからである.とりわけ話し言葉に地域変種の差が出やすいということが,今回のキーワード抽出で確かめられたということだろう.

 今回のようなキーワード抽出は,もちろん他の地域変種にも応用できる.参照コーパスをイギリス英語以外に動かして相対的に各変種の特徴をみるというのもおもしろそうだ.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow