01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
道具が揃っていれば簡単に実行でき,しかも結果がとてもおもしろいコーパスの使い方として,キーワード抽出がある.その原理については[2010-03-10-1]の記事「#317. 拙著で自分マイニング(キーワード編)」で概説し,[2010-09-27-1]の記事「#518. Singapore English のキーワードを抽出」でもキーワード抽出の事例を紹介した.
今回はより身近な疑問として,(1) アメリカ英語に対していかにもイギリス英語的な単語は何か,(2) イギリス英語に対していかにもアメリカ英語的な単語は何か,を FLOB と Frown の2コーパスを用いて取り出してみたい(両コーパスについては[2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照).解析のお供は,以前と同様 WordSmith の KeyWords 抽出機能である.
両変種の語彙頻度表を互いに突き合わせ,それぞれキーワード性 (keyness) の高い順に上位500語を取り出した(全リストはこちらのテキストファイルを参照).ここでは,それぞれから上位50語のみを再掲しよう.すべて小文字で示す.
Q. (1) アメリカ英語に対していかにもイギリス英語的な単語は何か?
A. (1) 以下の通り.
cent, which, labour, uk, towards, london, per, centre, was, british, programme, behaviour, it, be, colour, britain, defence, favour, royal, there, been, round, bbc, thatcher, sir, mp, charter, nhs, realised, scottish, yesterday, lord, favourite, local, council, recognised, theatre, mr, being, fviii, tory, kinnock, mps, thalidomide, whilst, scotland, churches, should, programmes, parliament
Q. (2) イギリス英語に対していかにもアメリカ英語的な単語は何か
A. (2) 以下の通り.
percent, toward, program, programs, clinton, u, bush, labor, s, defense, president, american, states, center, washington, formula, federal, behavior, color, united, black, state, fiber, says, zen, americans, ó, california, congress, zach, san, o, white, presidential, pex, jell, women, treaty, favorite, said, bill, gray, colors, perot, favor, douglass, hershey, quayle, j, n
中には,それだけでは意味不明のものもある.BrE の第1位 cent などは何故かと思うかもしれないが,分かち書きをする per cent の2語目が抜き出された結果である.AmE では対応する percent が第1位である.他にも綴字の英米差はよく反映されており,behaviour, centre, colour, defence, favour, favourite, labour, programme(s) は互いのリストに現われる.
英国の政治を特徴づける MP(s), NHS, Parliament, Royal, Scotland, Tory,対応する米国の Congress, Federal, President, State(s), Washington, White (House) などは,なるほどと頷かせる.両コーパスのテキスト年代である1990年代初頭(と少し以前の時期)を特徴づける Thatcher, Bush, Clinton も含まれている.
文法語としては,BrE の which や whilst ([2010-09-17-1]の記事「#508. Dracula に現れる whilst」を参照)が興味深い.
それにしても,それぞれ鼻につくほどの BrE あるいは AmE である.逆に,各変種の汎用コーパスからこのようにして抽出されたキーワードがどれくらい含まれているかによって,小説なり何なりのテキストがいかに BrE 的か AmE 的か,あるいはより中立な "World Standard English" に近いかということを測ることができるかもしれない.
キーワード抽出による「いかにも」シリーズは今後も続きそう.
2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2024-09-24 08:28
Powered by WinChalow1.0rc4 based on chalow