hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 / page 4 (4)

web_service - hellog〜英語史ブログ

最終更新時間: 2019-10-13 11:14

2010-12-30 Thu

#612. Academic Word List [lexicology][lexicography][academic_word_list][web_service][text_tool][elt]

 英語教育や辞書学の分野で Academic Word List (AWL) という語彙集が知られている.1998年に Avril Coxhead が The Academic Corpus という350万語からなる独自コーパスをもとに英語教育用に開発した570語とその派生語(合わせて word family と呼ばれる)からなる語彙集で,高等教育で用いられる頻度の高い語からなっている.
 もう少し詳しく AWL の語彙選定基準を記せば次のようになる.(1) 各 word family がコーパスの Arts, Commerce, Law, Science 部門のサブセットすべてにおいて生起し,かつ細分化された28分野のサブセットの過半数に生起する.(2) 各 word family の出現頻度がコーパス全体で100回を超える.(3) 各 word family がコーパスの各部門で最低10回は生起する.(4) GSL ( General Service List ) (1953) の最頻2000語は除く ( see [2010-03-02-1] ) . (5) 固有名詞は除く.(6) et al, etc, ibid などの最頻ラテン語表現は除く.
 こうして厳選された語彙集が AWL で,AWL Headwords から閲覧およびダウンロードできる.word family の頻度の高い順に1から10の Sublists としてグループ分けされており,すべて合わせるとコーパス全体に生起する語の9.8%を覆うという.
 最近の上級者用英英辞書は軒並み AWL の重要性を認識しているようだ.2006年出版の Longman Exams Dictionary を皮切りに,2007年の Longman Advanced American Dictionary, 2nd ed.,2009年 Longman Dictionary of Contemporary English, 5th ed. など売れ筋辞書でも AWL が考慮されている ( Dohi et al., p. 174 ) .Macmillan, Collins COBUILD 系でも同様である.目下の AWL の評価は Dohi et al. によると以下の通りである.

It remains to be seen whether Coxhead's AWL will continue to be used, will be revised or replaced in future advanced learners' dictionaries, because not all scholars concur with her AWL. . . . The AWL could be regarded for the time being as "a quick reference" for academic vocabulary until more research bears fruit . . . . (100)


 関連して The AWL Highlighter なるツールがあり,ここに英文テキストを入れると,AWL 語彙をハイライトしてくれる.私が最近書いた英語論文のイントロ部の1235語で試してみたら,Sublist 10 までのレベルで128語がハイライトされた.これは全体の10.36%であり,academic 度は合格か!?

  ・ Dohi, Kazuo, Tetsuo Osada, Atsuko Shimizu, Yukiyoshi Asada, Rumi Takahashi, and Takashi Kanazashi. "An Analysis of Longman Dictionary of Contemporary English, Fifth Edition." Lexicon 40 (2010): 85--187.

[ | 固定リンク | 印刷用ページ ]

2010-12-25 Sat

#607. Google Books Ngram Viewer [corpus][web_service][ame_bre][google_books][n-gram][statistics][frequency][lexicology]

 Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
 規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burntburned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
 次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American EnglishBritish English のそれぞれのサブコーパスから出力されたグラフは以下の通り.

in the street and on the street by Google Books Ngram Viewer

 inon の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
 [2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
 コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
 他のオンラインコーパスについては[2010-11-16-1]を参照.

[ | 固定リンク | 印刷用ページ ]

2010-08-25 Wed

#485. 語源を知るためのオンライン辞書 [web_service][link][dictionary][etymology]

 今日は語源情報を与えてくれるオンライン辞書を紹介したい.専門的なオンラインの英語語源辞書は Online Etymology Dictionary だけだが,一般のオンライン辞書の語源欄にも便利なものがある.英語語源情報ぬきだしCGI(一括版)もどうぞ.

(1) 唯一の本格派オンライン語源辞書

 ・ Online Etymology Dictionary: Douglas Harper 氏による本格的な語源辞書.初出年あり.英語語源情報ぬきだしCGI(一括版)でもお世話になっています.お薦め.

(2) 語源の勉強になるお薦めの辞書

 ・ Dictionary.com: 初出年あり.The Random House dictionary や Collins English Dictionary などの複数の辞書の記述を比べられるので便利.お薦め.
 ・ The Free Dictionary: American Heritage Dictionary of the English Dictionary と Collins English Dictionary に基づいた簡潔な語源説明.比べられて便利.また,thesaurus の情報も一緒に入ってきて有用.単なる類義語だけでなく関連語が一覧されるので,語彙増強にも役立つ.お薦め.
 ・ Merriam-Webster's Online Dictionary: 老舗辞書の語源欄として有用.初出年あり.
 ・ スペースアルクの語源辞典: 日本語で分かりやすい.関連語の一覧が出るので,語彙増強に利用できる.

(3) 意味や類義語などを知るついでに語源を軽く知りたいときに

 ・ Oxford Dictionaries Online - English Dictionary and Thesaurus: 老舗の辞書に簡潔な語源説明あり.Origin 欄で読みやすい説明.
 ・ Webster's Revised Unabridged Dictionary (1913 + 1828): 本格派辞書(旧版)の語源欄.
 ・ HyperDictionary.com: 同じく Webster (1913) の語源欄.ただ,thesaurus の情報も一緒に入ってくるので便利なときも.
 ・ Wiktionary: 簡潔な語源説明.先頭に語源欄が来る.
 ・ MSN Encarta Dictionary: 簡潔な語源説明.

(4) 語源に関する読み物

 ・ Etymologically Speaking: 語源豆辞典.228語しかないが各々に丁寧な説明があり,辞書としてよりも読み物として面白い.
 ・ hellog の語源の話題: 本ブログでも何かと語源は断片的に扱っているので.検索ボックスに "etymology ○○" (○○は英単語)などとすると引っかかるものがあるかもしれない.

[ | 固定リンク | 印刷用ページ ]

2010-08-23 Mon

#483. Merriam-Webster Online が充実している [dictionary][web_service][link]

 たまに表面的に利用することがあったが,ちゃんとサイト内を巡ったことはなかった.アメリカの老舗辞書出版社 Merriam-Webster の Merriam-Webster Online の充実振りに驚いた.Unabridged Dictionary こそ有料サービスだが,以下のものはフリーで利用できる.

 ・ Merriam-Webster Collegiate Dictionary
 ・ Thesaurus
 ・ Medical Dictionary
 ・ Learner's Dictionary: 2008年出版のアメリカ発・初のアメリカ英語 EFL 辞書 Merriam-Webster's Advanced Learner's English Dictionary ( MWALED ) に対応するオンライン版.以下の検索ボックスから検索可能.最近,老舗のイギリス系 EFL 辞書( LDOCE5OALD7 ) は語源に力を入れているが,MWALED は語源は重視していないようだ.



 ・ Encyclopedia - Britannica Online Encyclopedia
 ・ Visual Dictionary Online: 絵で見る百科辞典といった風.画像をブログに貼り付けたりできるので,今後本ブログでも利用機会が増えるかもしれない.例えば,昨日の記事[2010-08-22-1]で扱った ox と引っかけてウシの仲間たちを紹介.

examples of ungulate mammals - Visual Dictionary Online

Referrer (Inside): [2011-07-29-1] [2010-08-24-1]

[ | 固定リンク | 印刷用ページ ]

2010-08-11 Wed

#471. toilet の豊富な婉曲表現を WordNet と Visuwords でみる [web_service][thesaurus][synonym][link]

 昨日の記事[2010-08-10-1]で,toilet の婉曲表現が豊富であることを見た.複数の辞書を引き比べていて感じたが,最近の(特に学習者用)英英辞書は類義語間の使い分けや語法の解説が詳しく,類義語辞典 ( thesaurus ) ならずともそれに準ずる実用的な類義語リストが得られて有用である.それでも,類義語リストの提示に特化した thesaurus にはかなわない.
 最近はWeb上にも thesaurus が豊富に転がっており,例えば the Free Online Dictionary, Thesaurus and EncyclopediaThesaurus.com などが手軽に利用できる.昨日はWeb辞書は調べていなかったが,追加すべき「トイレ」代替表現がいくつかあるようである.
 Web上の本格的な thesaurus として有名なのは,Princeton University の George A. Miller の指揮によって編纂されている WordNet である.自然言語処理の世界では WordNet と連係しながら様々な応用が図られているようだ.現時点では Version 3.0 のデータベースがこちらから検索可能となっており,例えば toilet の検索結果はこの通り である.上位語 ( hypernym ) や下位語 ( hyponym ) へも一瞬のうちにアクセスでき,英語の意味の世界が手軽に扱えるようになったことを実感できる.また,WordNet 3.0 database statistics には英語の名詞の平均語義数が1.24なのに対して動詞の平均語義数は2.17であるなど,有用な情報がある.
 語の意味の世界を視覚化したネットワーク図が手軽に得られるようなWeb上のサービスも出てきた.Visual Thesaurus がその1つだが有料.フリーでも以下のような簡便なネットワーク図が得られる.

toilet on Visual Thesaurus

 Visual Thesaurus は有料なので,代わりに私がたまに使っているフリーのものが Visuwords.上記の WordNet のデータベースと連係している.出力されるネットワーク図は以下の通り.以下のイメージをクリックして現われる拡大画像,あるいは Visuwords で直接 toilet を検索した出力で,詳細を確かめてみてほしい.

toilet on Visuwords

[ | 固定リンク | 印刷用ページ ]

2010-04-24 Sat

#362. 英語例文検索 EReK [corpus][kwic][web_service]

 今日は軽くウェブ上のコンコーダンサーを紹介.英語例文検索 EReK は「英語で書かれたウェブページのテキストを巨大な例文集(コーパス)とみなし,それを検索するサイト」.Yohoo! の Web API が利用されている.出力は KWIC ( Key Word in Context ) で,百数十の例文が表示される.各コンコーダンス・ラインから,ワンクリックでソースに飛ぶことができるのも便利.また,キーワード前後の語での並べ替え機能や,検索対象を .edu ドメインや ニュースサイトに限定するオプションも装備されている.「ウェブ上の文書なので正確な表現である保証はありません」と但し書きがあるが,Web上の手軽なコンコーダンサーとして利用価値はありそうだ.
 時々刻々と変化するウェブ・リソースを検索対象とするので一種の monitor corpus とも考えられ,時事を反映した出力が期待できる.例えば,2010年4月24日現在,ニュースサイト限定検索 "volcano" とやれば IcelandIcelandic と共起するコンコーダンス・ラインが大量に得られる.( see [2010-04-20-1]. )
 姉妹版で日本語版の JReK もあり,こちらは日本語の文章書きに効果を発揮しそう.

Referrer (Inside): [2010-05-15-1]

[ | 固定リンク | 印刷用ページ ]

2010-04-23 Fri

#361. 英語語源情報ぬきだしCGI(一括版) [etymology][dictionary][link][cgi][web_service]

 [2010-04-03-1]の語源情報抜きだしCGIの改良版.情報源は同じ Online Etymology Dictionary.今回の「一括版」は複数の語の語源を一覧したいときに便利.1行1語で入力された単語リストを用意し,それを以下のテキストエリアに入れて Go するだけ.1語だけでも使えるので,事実上,前回の版の上位互換.語数が多いと時間がかかるし,サーバに負担がかかるので注意.
 こうしてますます面倒くさがりになってゆく.


[ | 固定リンク | 印刷用ページ ]

2010-04-03 Sat

#341. 英語語源情報ぬきだしCGI [etymology][dictionary][link][cgi][web_service]

 電子辞書はもちろんのこと,今ではWeb上で利用できる英語辞書も数え切れないほど出ており,紙の辞書を引く時代に育ったものとしては驚きの世の中になった.あまたあるWeb辞書のなかでも,個人的に使う機会の多い英英辞書が Dictionary.com である.複数の辞書を横断しての「串刺し検索」が可能である.また,簡便な語源情報が "Word Origin & History" という項で得られるので,これだけのために参照することもある.語源と例文が特に有用なので,私は毎日ランダムに単語情報を自動配信してくれるサービス "Word of the Day" にも登録している.
 もっとも,語源情報だけを参照したいのであれば,"Word Origin & History" の提供元である Online Etymology Dictionary を直接検索するのがはやい.(c) 2001-2010 Douglas Harper による英語語源のサイトで,簡単便利.これだけでも十分に簡単便利なのだが「辞書の雑多な情報はいらない,とりあえず語源情報だけを今すぐ欲しい,早く早く!」という(私だけの?)喫緊のニーズに対応し,一発スクリプトを作って使っている.特に初出年やどの言語から来ているかを即座に知りたいときに重宝している.
 そのスクリプトのCGI版を以下に作ってみた.単に Online Etymology Dictionary の検索結果から語源記述の部分をぬきだすだけのもの.電子検索が可能になると,どんどん面倒くさがりになってゆく・・・.

  

Referrer (Inside): [2011-12-05-1] [2010-04-23-1]

[ | 固定リンク | 印刷用ページ ]

2009-07-15 Wed

#78. Verbix とコーパス [software][web_service][conjugation][inflection][oe][me][corpus][variation]

 昨日の記事[2009-07-14-1]で,Verbix の古英語版の機能を紹介し,評価して終わったが,実は述べたかったことは別のことである.
 動詞の不定詞形を入れると活用表が自動生成されるという発想は,標準語として形態論の規則が確立している現代語を念頭においた発想である.これは古英語や中英語などには,あまりなじまない発想である.確かに古英語にも Late West-Saxon という「標準語」が存在し,古英語の文法書では,通常この方言にもとづいた動詞の活用表が整理されている.だが,Late West-Saxon の「標準語」内ですら variation はありうるし,方言や時代が変われば活用の仕方も変わる.中英語にいたっては,古英語的な意味においてすら「標準語」が存在しないわけであり,Verbix の中英語版というのは果たしてどこの方言を標準とみなして活用表を生成しているのだろうか.
 Verbix 的な発想からすると,方言や variation といった現象は,厄介な問題だろう.このような問題に対処するには,Verbix 的な発想ではなくコーパス検索的な発想が必要である.タグ付きコーパスというデータベースに対して,例えば「bēon の直説法一人称単数現在形を提示せよ」とクエリーを発行すると,コーパス中の無数の例文から該当する形態を探しだし,すべて提示してくれる.その検索結果は,おそらく Verbix 型のきれいに整理された表ではなく,変異形 ( variant ) の羅列になるだろう.古英語の初学者にはまったく役に立たないリストだろうが,研究者には貴重な材料だ.
 英語史研究,ひいては言語研究における現在の潮流は,標準形を前提とする Verbix 的な発想ではなく,variation を許容するコーパス検索的な発想である.同じプログラミングをするなら,Verbix のようなプログラムよりも,コーパスを検索するプログラムを作るほうがタイムリーかもしれない.
 とはいえ,Verbix それ自体は,学習・教育・研究の観点から,なかなかおもしろいツールだと思う.だが,個人的な研究上の都合でいうと,古英語や中英語の名詞の屈折表の自動生成ツールがあればいいのにな,と思う.誰か作ってくれないだろうか・・・.自分で作るしかないのだろうな・・・.

[ | 固定リンク | 印刷用ページ ]

2009-07-14 Tue

#77. 動詞の活用表を生成してくれる「Verbix」 [software][web_service][conjugation][inflection][oe]

 Verbix: conjugate Old-English verbsでは,古英語の動詞(不定詞)をキーワードとして入れると,活用表が自動的に生成されるというウェブサービスを無償で提供している.
 古英語のみならず,現代英語を含め,世界の諸言語に対応しており,各言語の学習者,教育者,研究者にとって有益である.このサイトでは,ダウンロード可能な単体で動く同機能のアプリケーションもシェアウェアとして提供しており,一ヶ月までなら試用もできる.アプリケーション版では,機能拡張を施せば,中英語にも対応するようになるというから興味深い.

conjugation of beon

 上のスクリーンショットは,アプリケーション版で古英語の bēon "to be" の活用表を生成させた場面だが,みごとに wesan ( bēon に代わる別の動詞)の活用表に置き換えられてしまっている.現代英語でもそうだが bēon は著しく不規則な活用を示すわけで,こんな動詞をキーワードに入れてくれるなという Verbix からのメッセージとも受け取れる.
 そもそもアプリケーションのプログラム内では,どのように活用表が生成されているのだろうか.最初は,おそらく各動詞の活用形がそのままデータベースに納められており,プログラム側がそれを呼び出すだけなのではないかと思っていた.だが,bēon の例を見ると,そのようなきめ細かなデータ格納法はとられていないように思える.
 考えられるもう一つの方法は,最少限の基底形(古英語であれば「不定形 -- 第一過去形 -- 第二過去形 -- 過去分詞形」の4形態[2009-06-09-1])と所属クラスだけがデータベースに登録されており,あとは形態音韻規則によってプログラムに各活用形を生成させるという方法だ.こうすると,データ部の容量は節約できる.
 人間の脳では,上の二つの仕組みが連携して作用していると考えられる.大半の動詞についてはルールに基づいて活用形が生成されるが,bēon のような不規則活用をする動詞の場合には,ルールでは導かれないので,活用形がそのままデータとして格納されているというわけである.Verbix でも二つの方法が組み合わさって活用表の生成機能が実現されているのかもしれないが,bēon まではサポートが及ばなかったというだけのことかもしれない.
 上記のような問題はあるが,古英語動詞の活用の練習には使えそうだ.かつて学んだ動詞活用を Verbix で復習してみよう.

 ・Verbix の古英語版
 ・Verbix の現代英語版
 ・Verbix の対応言語一覧

Referrer (Inside): [2009-07-15-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow