hellog〜英語史ブログ     ChangeLog 最新    

academic_word_list - hellog〜英語史ブログ

最終更新時間: 2019-04-20 10:27

2012-03-03 Sat

#1041. COCA の "ANALYZE TEXT" [coca][corpus][web_service][academic_word_list][text_tool]

 COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,[2012-01-08-1]の記事「#986. COCA の "WORD AND PHRASE . INFO"」で紹介した機能 (Frequency List) に加え,英文を投げ込むとCOCAベースで各語に関する諸情報を色づけして返してくれるサービス WORD AND PHRASE . INFO, ANALYZE TEXT を公開した.
 適当な英文を投げ込むと,各単語が頻度レベルによって色分けされた状態で返される.上位500語までの超高頻度語は青,3,000語までの高頻度語は緑,それ以下の頻度の語は黄色で示されるほか,academic word が赤字として返される.文章内でのそれぞれの割合も示され,その語彙リストを出すことも容易だ.各語はクリッカブルで,クリックすると用例のサンプルが KWIC で右下ペインに表示される.また,左下ペインには類義語が現われる.以下は,昨日の記事「#1040. 通時的変化と共時的変異」 ([2012-03-02-1]) に引用した英文を投げ込んでのスクリーンショット.

COCA Analyze Text

 英文を書くときには collocation や synonym を調べながら書くことが多いので,使い方次第では英作文学習に威力を発揮しそうだ.ある文章の academic 度を判定するのにも使える.Academic Word List に含まれる語彙の含有度ということでいえば,[2010-12-30-1]の記事「#612. Academic Word List」で挙げた The AWL Highlighter も類似ツールだ.

[ | 固定リンク | 印刷用ページ ]

2010-12-31 Fri

#613. Academic Word List に含まれる本来語の割合 [lexicology][loan_word][statistics][academic_word_list]

 昨日の記事[2010-12-30-1]で,Academic Word List (AWL) を導入した.この英語史ブログとして関心があるのは,AWL と銘打って収集されたこの語彙集のなかに本来語要素からなる語がどれだけ含まれているかという問題である.570語をざっと走査したら,以下の45語が挙がった.

acknowledge, albeit, aware, behalf, draft, forthcoming, furthermore, goal, hence, highlight, income, input, insight, layer, likewise, network, nevertheless, nonetheless, notwithstanding, offset, ongoing, outcome, output, overall, overlap, overseas, seek, shift, so-called, sole, somewhat, straightforward, tape, target, task, team, thereby, trend, undergo, underlie, undertake, welfare, whereas, whereby, widespread


 570語中の45語で7.89%なので,予想通りに本来語の割合は少ない.しかし,数える前にはもっと小さい値が出るのではないかと踏んでいたので,意外に少なくないなと感じたのも事実である.Academic Word List というからには Greco-Latin の語がそれこそ100%に迫り,本来語は10語もあれば多いほうかと思い込んでいたのである.だが,本来語のリストを眺めていてなるほどど思った.out- や over- を接頭辞としてもつ実質的な語のカテゴリーが目立つ一方で,albeit, furthermore, hence, likewise, nevertheless, nonetheless, notwithstanding, thereby, whereas, whereby などの機能的・文法的なカテゴリーも目につく.forthcoming, ongoing, overall, so-called などの複合要素からなる形容詞も1カテゴリーをなしていると考えられるだろう.
 ただし,本来語とはいっても古英語起源であるとは限らない.例えば,output などは1839年が初出である.上で最初に「本来語要素からなる語」と表現したのはそのためである.
 なお,明確に本来語とはみなせないが Greco-Latin でもない語としては,古ノルド語からの借用語 bond, bulk, link, odd やオランダ語からの借用語 trigger があった.語源不詳のものとしては job もある.
 現代英語の語彙数と起源別割合については,以下のリンクも参照.

 ・ [2010-06-30-1]: 現代英語の最頻語彙10000語の起源と割合
 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

Referrer (Inside): [2013-10-28-1] [2011-08-20-1]

[ | 固定リンク | 印刷用ページ ]

2010-12-30 Thu

#612. Academic Word List [lexicology][lexicography][academic_word_list][web_service][text_tool][elt]

 英語教育や辞書学の分野で Academic Word List (AWL) という語彙集が知られている.1998年に Avril Coxhead が The Academic Corpus という350万語からなる独自コーパスをもとに英語教育用に開発した570語とその派生語(合わせて word family と呼ばれる)からなる語彙集で,高等教育で用いられる頻度の高い語からなっている.
 もう少し詳しく AWL の語彙選定基準を記せば次のようになる.(1) 各 word family がコーパスの Arts, Commerce, Law, Science 部門のサブセットすべてにおいて生起し,かつ細分化された28分野のサブセットの過半数に生起する.(2) 各 word family の出現頻度がコーパス全体で100回を超える.(3) 各 word family がコーパスの各部門で最低10回は生起する.(4) GSL ( General Service List ) (1953) の最頻2000語は除く ( see [2010-03-02-1] ) . (5) 固有名詞は除く.(6) et al, etc, ibid などの最頻ラテン語表現は除く.
 こうして厳選された語彙集が AWL で,AWL Headwords から閲覧およびダウンロードできる.word family の頻度の高い順に1から10の Sublists としてグループ分けされており,すべて合わせるとコーパス全体に生起する語の9.8%を覆うという.
 最近の上級者用英英辞書は軒並み AWL の重要性を認識しているようだ.2006年出版の Longman Exams Dictionary を皮切りに,2007年の Longman Advanced American Dictionary, 2nd ed.,2009年 Longman Dictionary of Contemporary English, 5th ed. など売れ筋辞書でも AWL が考慮されている ( Dohi et al., p. 174 ) .Macmillan, Collins COBUILD 系でも同様である.目下の AWL の評価は Dohi et al. によると以下の通りである.

It remains to be seen whether Coxhead's AWL will continue to be used, will be revised or replaced in future advanced learners' dictionaries, because not all scholars concur with her AWL. . . . The AWL could be regarded for the time being as "a quick reference" for academic vocabulary until more research bears fruit . . . . (100)


 関連して The AWL Highlighter なるツールがあり,ここに英文テキストを入れると,AWL 語彙をハイライトしてくれる.私が最近書いた英語論文のイントロ部の1235語で試してみたら,Sublist 10 までのレベルで128語がハイライトされた.これは全体の10.36%であり,academic 度は合格か!?

  ・ Dohi, Kazuo, Tetsuo Osada, Atsuko Shimizu, Yukiyoshi Asada, Rumi Takahashi, and Takashi Kanazashi. "An Analysis of Longman Dictionary of Contemporary English, Fifth Edition." Lexicon 40 (2010): 85--187.

Referrer (Inside): [2012-03-03-1] [2010-12-31-1]

[ | 固定リンク | 印刷用ページ ]

2010-03-01 Mon

#308. 現代英語の最頻英単語リスト [lexicology][corpus][link][academic_word_list][alphabet]

 現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.

[主要な頻度表]

 ・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
 ・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
 ・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
 ・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
 ・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
 ・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.

[他のリストへのリンク集]

 ・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
 ・ Famous Frequency Lists: 様々な頻度表へのリンク集.
 ・ Basic English and Common Words: ML上の最頻語頻度表についての議論.

[アルファベットの文字の頻度表]

 ・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.

(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow