The DICT Development Group による DICT.ORG は,ウェブ上の様々な語彙データベースや辞書を利用するための統一的な仕様を提供するサービスである.登録されている語彙データベースを利用するインターフェースはこちら.
辞書というよりは語彙データベースと呼ぶ方が適切なのは,ある語の定義や発音などを与えてくれるというよりは,ある条件(主として綴字上の条件)を満たす語の一覧を作成するのが得意だからだ.ある特定の目的で行なわれる語彙研究のために,単語リストを準備するのに役立つ.
DICT.ORG で利用できる辞書はオンライン上で公開されている無料のものが多いが,語彙データベースとしての使用を前提とすれば,機能的には十分である.条件指定の方法("strategy" と呼ばれる;以下参照)は,電子辞書などでお馴染みの,綴字の完全一致,前方一致,後方一致,部分一致のほか,正規表現も完全にサポートしており,近似した綴字の語を取り出す Levenshtein distance 検索や Soundex algorithm 検索も実装されている.
Strategy Description --------- ----------- first : Match the first word within headwords exact : Match headwords exactly re : POSIX 1003.2 (modern) regular expressions last : Match the last word within headwords nprefix : Match prefixes (skip, count) soundex : Match using SOUNDEX algorithm lev : Match headwords within Levenshtein distance one word : Match separate words within headwords suffix : Match suffixes regexp : Old (basic) regular expressions substring : Match substring occurring anywhere in a headword prefix : Match prefixes
昨日の記事「#1029. England の現代英語方言区分 (1)」 ([2012-02-20-1]) でイングランドにおける現代英語の方言区分を示した.方言区分は,なるべく弁別力の高い語を選び出し,その等語線 (isogloss) の重なり具合で線引きしてゆくのが伝統的な手法だが,どの語を選び出すかについての客観的な基準を設けることは難しい.多かれ少なかれ方言学者の主観が入るものだ.
では,昨日の Trudgill の方言区分は何に基づいているか.Trudgill は,以下の8個の単語を選び出し,その等語線によって13の区分を設けた.等語線が複雑に入り組んでいることは,以下の分布表から容易に知れるだろう (Trudgill 33) .
Long | Night | Blind | Land | Arm | Hill | Seven | Bat | ||
older form | lang /læŋ/ | neet /niːt/ | blinnd /blɪnd/ | land /lænd/ | arrm /aːrm/ | hill /hɪl/ | seven /sevn/ | băt [bat] | |
newer form | long /lɒŋ/ | nite /naɪt/ | blined /blaɪnd/ | lond /lɒnd/ | ahm /aːm/ | ill /ɪl/ | zeven /zevn/ | bæt [bæt] | |
1 | Northumberland | lang | neet | blinnd | land | arrm | hill | seven | bat |
2 | Lower North | lang | neet | blinnd | land | ahm | ill | seven | bat |
3 | Lancashire | long | neet | blined | lond | arrm | ill | seven | bat |
4 | Staffordshire | long | nite | blined | lond | ahm | ill | seven | bat |
5 | South Yorkshire | long | neet | blinnd | land | ahm | ill | seven | bat |
6 | Lincolnshire | long | nite | blinnd | land | ahm | ill | seven | bat |
7 | Leicestershire | long | nite | blined | land | ahm | ill | seven | bat |
8 | Western Southwest | long | nite | blined | land | arrm | ill | zeven | bat |
9 | Northern Southwest | long | nite | blined | lond | arrm | ill | seven | bat |
10 | Eastern Southwest | long | nite | blined | land | arrm | ill | seven | bat |
11 | Southeast | long | nite | blined | lænd | arrm | ill | seven | bæt |
12 | Central East | long | nite | blined | lænd | ahm | ill | seven | bæt |
13 | Eastern Counties | long | nite | blined | lænd | ahm | hill | seven | bæt |
綴字と発音の乖離は,しばしば現代英語の最大の特徴(現実的には弱点)の1つともいわれ([2009-09-25-1]の記事「#151. 現代英語の5特徴」を参照),これまでにも spelling_pronunciation_gap の多くの記事で取りあげてきた.大学の授業などでこの問題点を指摘すると,昔から不思議でいぶかしく思っていたという学生もいれば,言われてみればそうだなと呑気に構えて英語の綴字を吸収してきた学生もいる.そこで,綴字と発音の乖離の事実におもしろく気付くことができるように,以下に記事へのリンク集を作ってみた.個別には以下のリンクを,一括したものは ##1024,15,210,565,547,562,580,116,192,62,503 より.
・ 「#15. Bernard Shaw が言ったかどうかは "ghotiy" ?」: [2009-05-13-1]
・ 「#210. 綴字と発音の乖離をだしにした詩」: [2009-11-23-1]
・ 「#565. 弛緩前舌高母音に対応する英語の綴字」: [2010-11-13-1]
・ 「#547. <oo> の綴字に対応する3種類の発音」: [2010-10-26-1]
・ 「#562. busy の綴字と発音」: [2010-11-10-1]
・ 「#580. island --- なぜこの綴字と発音か」: [2010-11-28-1]
・ 「#116. 語源かぶれの綴り字 --- etymological respelling」: [2009-08-21-1]
・ 「#192. etymological respelling (2)」: [2009-11-05-1]
・ 「#62. なぜ綴りと発音は乖離してゆくのか」: [2009-06-28-2]
・ 「#503. 現代英語の綴字は規則的か不規則的か」: [2010-09-12-1]
最後に挙げた記事では,現代英語における規則性は75--84%で意外と高いこと,ただし頻度の高い日常語にとりわけ不規則性がみられることについて触れた.頻度の高い語で不規則な綴字のものが一覧になっていれば便利だと思い,Crystal (71) が "Some irregular English spellings" で挙げている60語を再掲したい.これまでの記事で取りあげてきたものも多く含まれているので,hellog 検索ボックスに単語を入力すれば当たる可能性もあります.
although, among, answer, are, aunt, autumn, blood, build, castle, clerk, climb, colour, comb, come, cough, could, course, debt, do, does, done, dough, eye, friend, gone, great, have, hour, island, journey, key, lamb, listen, move, none, of, once, one, only, own, people, pretty, quay, receive, rough, said, salt, says, shoe, shoulder, some, sugar, talk, two, was, water, were, where, who, you
関連して,拙著『英語史で解きほぐす英語の誤解 --- 納得して英語を学ぶために』の第6章第2節「綴り字と発音の乖離」なども参考にどうぞ.
なお,日本語の仮名はおよそ拍の単位で表音的であり,規則正しい表音文字の模範の1つのように評価されることが多いが,「は」「へ」のように文字と発音の対応が1対2であるもの,「お」と「を」のように対応が2対1であるもの,「じ」「ず」「ぢ」「づ」の四つ仮名問題,「おとうさん」 /oto:san/ や「とけい」 /toke:/ にみられる表記の問題など,現代仮名遣いに引き継がれている過去の遺産もある.
・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.
ウェブ上で "The History of English in Ten Minutes - for iPod/iPhone by The Open University" なる,英語史をイラストで手短かに概説する動画を発見した.1分ほどの短い動画が10本あり,YouTube版でも視聴できる.以下はそれぞれへのリンク.
・ Anglo-Saxon - The History of English (1/10)
・ The Norman Conquest - The History of English (2/10)
・ Shakespeare - The History of English (3/10)
・ The King James Bible - The History of English (4/10)
・ The English of Science - The History of English (5/10)
・ English and Empire - The History of English (6/10)
・ The Age of the Dictionary - The History of English (7/10)
・ American English - The History of English (8/10)
・ Internet English - The History of English (9/10)
・ Global English - The History of English (10/10)
英語史に関する視聴覚教材は多くない.MacNeil-Lehrer Productions と BBC の制作したテレビシリーズ The Story of English (1986) の VHS や,ITV のテレビシリーズ The Adventure of English (2003) の VHS/DVD や,The Teaching Company の The Great Courses シリーズの1つ The History of the English Language, 2nd Edition, Parts 1 to 3 (by Seth Lerer) の講義 DVD が公表されているが,それ以外にはあまり見あたらない.一般の歴史ものであれば視聴覚教材は数限りなくあるのだろうが,言語の歴史となると乏しいのが現状である."The History of English in Ten Minutes" by The Open University はこの分野での一つの貢献といえるだろう.
本ブログではなかなか動画資料を用意することはできないが,できるだけ図表などのヴィジュアル資料を提供しようと心がけている.紙の上で表現しにくいことを効果的に表現できるウェブ上のメリットを活かしたい.
The Auchinleck Manuscript (National Library of Scotland Advocates' MS. 19.2.1) は,中世イングランドの語学,文学,写本,読書文化などを論じる際に最も重要な写本の1つといっていいだろう.今日は,この写本の重要性を何点か指摘したい.以下は,Pearsall and Cunningham のイントロ部の "LITERARY AND HISTORICAL SIGNIFICANCE OF THE MANUSCRIPT" (vii--xi) から要点を抜き出してノートしたものである.
・ 1330--40年という早い時期に作成されており,様々なジャンルのテキストを寄せ集めた写本としては,群を抜いて最初期のものである.
・ 納められているテキストの大多数が,各テキストの現存する最古のヴァージョンを提供している.例外は,nos. 4, 7, 8, 13, 19, 29, 34, 35, 40 のみである.
・ テキストのほとんどが英語で書かれている.例外は,no. 20 の Anglo-Norman の混交体と nos. 8, 10, 36 の Latin の挿入部のみである.Auchinleck MS 以前の編纂もの (Jesus College, Oxford, MS. 29; British Library Cotton Caligula A.ix; Trinity College, Cambridge, MS. 323; Bodleian Library Digby 2; Bodleian Library Digby 85; British Library Harley 2253) には,Anglo-Norman と Latin のテキストも普通に見られた.
・ 以前の編纂もの写本には,主として学者層を対象としたテキストが含まれていた,Auchinleck MS には世俗的で洗練されていないテキストが多く含まれており,新しいタイプの読者層の存在が浮かび上がってくる.
・ テキストのジャンルの幅が広い(全44テキスト).no. 21 以外はすべて韻文で書かれている.
- saint's legends: nos. 1, 4, 5, 12
- other types of religious narrative: nos. 3, 6, 8, 9, 13, 16, 29
- religious debates: nos. 7, 34
- homiletic and monitory pieces: nos. 10, 35, 39
- poems of religious instruction: nos. 14, 15, 36
- a chronicle: no. 40
- a list of names of Norman barons: no. 21 (not in verse)
- humorous tales: nos. 27, 28
- poems of satire and complaint: nos. 20, 42, 44
- romances: nos. 2, 11, 17, 18, 19, 22, 23, 24, 25, 26, 30, 31, 32, 33, 37, 38, 41, 43 (accounting for three-quarters of the bulk of MS)
・ 非ロマンスの26テキストのうち15テキストが,現存する唯一の写しである.
・ ロマンスの18テキストのうち8テキストが,現存する唯一の写しであり,9テキストが現存する最も古い写しである.残りの1テキスト (no. 19 = Floris ) のみが例外.
・ 対象読者層は "popular" とまではいかないが,"the aspirant middle-class citizen, perhaps a wealthy merchant" (viii) だったと想定される.
・ ロンドンの "bookshop" で,複数の写字生が共同作業で作り上げたと考えられる.共同作業は高度に洗練されていたわけではないが,ある程度は組織化されていた.
・ 6人の写字生が以下の分布で共同写本作りに貢献している.scribe 1 が全体の72%を担当している.
Gatherings | Item nos. | Texts | Scribe |
---|---|---|---|
1--6 | 1--9 | Religious poems (incl. King of Tars) | 1 |
7--10 | 10 | Speculum Gy de Warewyke | 2 |
11--13 | Religious poems (incl. Amis) | 1 | |
11--16 | 14--19 | Miscellaneous | 3 |
20 | Sayings of the Four Philosophers | 2 | |
21 | List of names of Norman barons | 4 | |
17(?)--25 | 22--23 | Guy of Warwick and continuation | 1 |
24 | Reinbrun | 5 | |
26--36 | 25 | Beues of Hamtoun | 5 |
26--29 | Arthour and Merlin plus 3 fillers | 1 | |
37 | 30--31 | Lay le freine, Roland and Vernagu | 1 |
38--[?] | 32 | Otuel (and other poems?) | 6 |
[?]--41 | 33--36 | Kyng Alisaunder plus 3 fillers | 1 |
42--44 | 37--39 | Tristrem and Orfeo plus 1 filler | 1 |
45--47 | 40--42 | Chronicle and Horn childe plus 1 filler | 1 |
48--[?] | 43 | Richard | 1 |
52 | 44 | The Simonie | 2 |
Encyclopedia - Britannica Online Encyclopedia より,英語史に関連する有益な言語地図がいくつか参照できる.ズームできるのでプレゼンに便利.以下にリンクを張っておく.
・ Approximate locations of Indo-European languages in contemporary Eurasia (関連して印欧語族の系統図は,[2009-06-17-1], [2010-07-26-1]を参照.) *
・ Distribution of the Germanic languages in Europe (関連してゲルマン語派の系統図は,[2009-10-26-1]を参照.) *
・ Distribution of Romance languages in Europe *
・ Distribution of the Slavic languages in Europe *
・ The distribution of Old English dialects *
・ The distribution of Middle English dialects (中英語方言区分については,[2009-09-04-1]を参照.) *
・ English Language Imperialism: The English Language Across the World (世界における英語の広がりについては,[2010-05-08-1]を参照.) *
英語の新語ウォッチには Paul McFedries によるサイト Word Spy が注目に値する.1996年以来,新語が日々追加されており,現時点で2750以上の新語が登録されている.最大の特徴は,ほとんどの新語(全体の約85%)について用例と出典が与えられており,多く(全体の約73%)は初出年も記されていることだ.
サイトを走査し,初出年の記載のある2019個について初出年ごとに数え上げてみたのが次の棒グラフである.連続して50例を超えているのは1987--2006年の20年間で,特に1990年代は層が厚い.
1962 ( 1) 1963 ( 1) 1964 ( 1) 1970 ( 1) 1972 ( 2) * 1973 ( 3) * 1975 ( 5) ** 1976 ( 8) **** 1977 ( 11) ****** 1978 ( 14) ******* 1979 ( 16) ******** 1980 ( 24) ************* 1981 ( 33) ****************** 1982 ( 32) ***************** 1983 ( 39) ********************* 1984 ( 38) ********************* 1985 ( 54) ****************************** 1986 ( 47) ************************** 1987 ( 59) ******************************** 1988 ( 66) ************************************ 1989 ( 67) ************************************* 1990 ( 77) ****************************************** 1991 ( 78) ******************************************* 1992 ( 83) ********************************************** 1993 ( 72) **************************************** 1994 (100) ******************************************************* 1995 (101) ******************************************************** 1996 (101) ******************************************************** 1997 ( 87) ************************************************ 1998 ( 78) ******************************************* 1999 (109) ************************************************************ 2000 ( 85) *********************************************** 2001 (111) ************************************************************* 2002 ( 87) ************************************************ 2003 ( 66) ************************************ 2004 ( 57) ******************************* 2005 ( 56) ******************************* 2006 ( 61) ********************************** 2007 ( 32) ***************** 2008 ( 33) ****************** 2009 ( 14) ******* 2010 ( 9) *****
言語研究における corpus 「コーパス」は様々に定義されているが,McEnery et al. の定義が簡潔である.
. . . a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.
(1) と (2) についてはおよそ研究者間にコンセンサスがあるが,(3) と (4) については何をもって "sampled" あるいは "representative" とみなすかについて様々な意見がある.しかし,大筋においてこの定義を受け入れることができるだろう.
手軽に英語コーパスを試すには,オンラインのものが便利である.以下は,(登録の必要なものもあるが)オンラインで簡便に利用できる英語コーパス.
・ British National Corpus (いくつかのインターフェースが提供されている)
* BNC ( The British National Corpus )
* BNCweb (要無料登録)
* BYU-BNC (要無料登録)
・ BYU Corpora ( Brigham Young University, Mark Davies 提供のその他のオンラインコーパス群)
* COCA ( Corpus of Contemporary American English ) (要無料登録)
* COHA ( Corpus of Historical American English ) (要無料登録)
* TIME Magazine Corpus of American English (要無料登録)
・ Cobuild Concordance and Collocations Sampler
その他,本ブログではコーパス関係の記事をいろいろと掲載しているので,参考にされたい.
・ hellog 内のコーパス情報の集約記事: [2010-09-15-1]
・ hellog 内のコーパス関連記事: corpus
・ hellog 内の BNC 関連記事: bnc
・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.
Helsinki 大学の VARIENG ( Research Unit for Variation, Contacts and Change in English ) プロジェクトに関わる電子サービスの一環として,英語歴史コーパス(と英語変種コーパス)の情報をとりまとめる CoRD ( Corpus Resource Database ) なるサービスがある.すでに51件のコーパス情報が登録されており,今後も増え続けるだろう.種々のコーパスが様々な形態で公開され,そろそろ本格的な整理の必要が感じられるようになってきたので,CoRD のようなハブが出てくると重宝する.今後の登録コーパスの増加に期待したい.
・ List of Corpora: まずはこちらの一覧を.
・ Corpus Finder: 登録されている全コーパスの情報が表形式のデータベースになっている."Corpus", "Start", "End", "Periods", "Word Count", "Text Samples", "Spoken/Written", "Annotation", "Format", "Availability" の各列でソートやフィルターが可能.(こういうデータベースがあると便利だろうなと思っていた!)
各コーパスのリンク先には,概要説明から入手情報までの情報がよくまとまっている.特に "Basic structure of the corpus" は図表付きのものが多く有用."Reference lines and copyright" なども,ちょっとしたことなのだが論文を書くときなどにコピーできて便利.覚えておいて損はない HP だろう.
CoRD の他にも,英語コーパス言語学に関連する重要な HP をいくつか掲載しておきたい.個々のコーパスの関連ページはしばしばリンク切れになっているので,複数のハブを押さえておく必要がある.
・ コーパス言語学関係のリンク集: 家入葉子先生のサイトより.
・ 英語史関係のコーパス・電子テキスト: 同上.
・ 英語史関係のコーパス: 三浦あゆみさんの A Gateway to Studying HEL より.
・ JAECS 英語コーパス学会のリンク集: 『英語コーパス言語学:第二版』(東京:研究社, 2005)に掲載されているものをまとめたリンク集.
・ コーパス関連サイト: 『実践コーパス言語学』の著者の一人,須賀廣氏のリンク集.
・ ICAME Corpus Manuals: ICAME コーパスのマニュアルがまとまっている.
こんな英語学習サイトを見つけた.English Language: All about the English language.この手のサイトは多数あるが,トップに英語史と英語の統計情報が簡単にまとまっているので目を引いた.
・ English language History
・ English language Statistics
前者の英語史の解説文の "Middle English" の節で,中英語期の英語の復権 ( see reestablishment_of_english ) がノルマン・コンクェスト後の50年くらいで早々と始まっていたという記述があった.
Various contemporary sources suggest that within fifty years most of the Normans outside the royal court had switched to English, with French remaining the prestige language largely out of social inertia. For example, Orderic Vitalis, a historian born in 1075 and the son of a Norman knight, said that he only learned French as a second language.
英語の復権を話題にするときには話し言葉か書き言葉か,庶民レベルか貴族レベルか,言語使用の状況が私的か公的かなど,視点によって復権の時期や程度が変わってくるのだが,従来の英語史ではフランス語のくびきの時代が中世のあいだに比較的長く続いたと記述されることが多かったように思う.しかし,事実としては上の解説文にあるとおり,中世イングランドでは庶民の実用上,英語は圧倒的な言語だったのであり,この事実を強調しておくことは重要だと思う.
英語の統計については本ブログでも statistics の各記事で取り上げてきたが,以下のものは驚きこそしないが,私にとって初耳だった.
・ English is the language of navigation, aviation and of Christianity; it is the ecumenical language of the World Council of Churches
・ Five of the largest broadcasting companies in the world (CBS, NBC, ABC, BBC and CBC) transmit in English, reaching millions and millions of people all over the world
・ Of the 163 member nations of the U.N., more use English as their official language than any other. . . . After English, 26 nations in the U.N. cite French as their official tongue, 21 Spanish and 17 Arabic.
・ People who count English as their mother tongue make up less than 10% of the world's population, but possess over 30% of the world's economic power
ただし,全体的に典拠は示されていない.また,2010年現在の国連加盟国は192カ国であり,上記の3点目の163カ国に基づく統計は1990年くらいの時点での数値かもしれない( see United Nations member States - Growth in United Nations membership, 1945-present ) .
このサイトには他にも English Dictionaries や English Literature などのページがある.
今日は語源情報を与えてくれるオンライン辞書を紹介したい.専門的なオンラインの英語語源辞書は Online Etymology Dictionary だけだが,一般のオンライン辞書の語源欄にも便利なものがある.英語語源情報ぬきだしCGI(一括版)もどうぞ.
(1) 唯一の本格派オンライン語源辞書
・ Online Etymology Dictionary: Douglas Harper 氏による本格的な語源辞書.初出年あり.英語語源情報ぬきだしCGI(一括版)でもお世話になっています.お薦め.
(2) 語源の勉強になるお薦めの辞書
・ Dictionary.com: 初出年あり.The Random House dictionary や Collins English Dictionary などの複数の辞書の記述を比べられるので便利.お薦め.
・ The Free Dictionary: American Heritage Dictionary of the English Dictionary と Collins English Dictionary に基づいた簡潔な語源説明.比べられて便利.また,thesaurus の情報も一緒に入ってきて有用.単なる類義語だけでなく関連語が一覧されるので,語彙増強にも役立つ.お薦め.
・ Merriam-Webster's Online Dictionary: 老舗辞書の語源欄として有用.初出年あり.
・ スペースアルクの語源辞典: 日本語で分かりやすい.関連語の一覧が出るので,語彙増強に利用できる.
(3) 意味や類義語などを知るついでに語源を軽く知りたいときに
・ Oxford Dictionaries Online - English Dictionary and Thesaurus: 老舗の辞書に簡潔な語源説明あり.Origin 欄で読みやすい説明.
・ Webster's Revised Unabridged Dictionary (1913 + 1828): 本格派辞書(旧版)の語源欄.
・ HyperDictionary.com: 同じく Webster (1913) の語源欄.ただ,thesaurus の情報も一緒に入ってくるので便利なときも.
・ Wiktionary: 簡潔な語源説明.先頭に語源欄が来る.
・ MSN Encarta Dictionary: 簡潔な語源説明.
(4) 語源に関する読み物
・ Etymologically Speaking: 語源豆辞典.228語しかないが各々に丁寧な説明があり,辞書としてよりも読み物として面白い.
・ hellog の語源の話題: 本ブログでも何かと語源は断片的に扱っているので.検索ボックスに "etymology ○○" (○○は英単語)などとすると引っかかるものがあるかもしれない.
たまに表面的に利用することがあったが,ちゃんとサイト内を巡ったことはなかった.アメリカの老舗辞書出版社 Merriam-Webster の Merriam-Webster Online の充実振りに驚いた.Unabridged Dictionary こそ有料サービスだが,以下のものはフリーで利用できる.
・ Merriam-Webster Collegiate Dictionary
・ Thesaurus
・ Medical Dictionary
・ Learner's Dictionary: 2008年出版のアメリカ発・初のアメリカ英語 EFL 辞書 Merriam-Webster's Advanced Learner's English Dictionary ( MWALED ) に対応するオンライン版.以下の検索ボックスから検索可能.最近,老舗のイギリス系 EFL 辞書( LDOCE5 や OALD7 ) は語源に力を入れているが,MWALED は語源は重視していないようだ.
昨日の記事[2010-08-10-1]で,toilet の婉曲表現が豊富であることを見た.複数の辞書を引き比べていて感じたが,最近の(特に学習者用)英英辞書は類義語間の使い分けや語法の解説が詳しく,類義語辞典 ( thesaurus ) ならずともそれに準ずる実用的な類義語リストが得られて有用である.それでも,類義語リストの提示に特化した thesaurus にはかなわない.
最近はWeb上にも thesaurus が豊富に転がっており,例えば the Free Online Dictionary, Thesaurus and Encyclopedia や Thesaurus.com などが手軽に利用できる.昨日はWeb辞書は調べていなかったが,追加すべき「トイレ」代替表現がいくつかあるようである.
Web上の本格的な thesaurus として有名なのは,Princeton University の George A. Miller の指揮によって編纂されている WordNet である.自然言語処理の世界では WordNet と連係しながら様々な応用が図られているようだ.現時点では Version 3.0 のデータベースがこちらから検索可能となっており,例えば toilet の検索結果はこの通り である.上位語 ( hypernym ) や下位語 ( hyponym ) へも一瞬のうちにアクセスでき,英語の意味の世界が手軽に扱えるようになったことを実感できる.また,WordNet 3.0 database statistics には英語の名詞の平均語義数が1.24なのに対して動詞の平均語義数は2.17であるなど,有用な情報がある.
語の意味の世界を視覚化したネットワーク図が手軽に得られるようなWeb上のサービスも出てきた.Visual Thesaurus がその1つだが有料.フリーでも以下のような簡便なネットワーク図が得られる.
Visual Thesaurus は有料なので,代わりに私がたまに使っているフリーのものが Visuwords.上記の WordNet のデータベースと連係している.出力されるネットワーク図は以下の通り.以下のイメージをクリックして現われる拡大画像,あるいは Visuwords で直接 toilet を検索した出力で,詳細を確かめてみてほしい.
世界には英語ベースのピジン語やクレオール語が30以上存在するといわれている.[2010-07-15-1], [2010-07-16-1]で見たように,ピジン語やクレオール語の定義や起源に曖昧な点があるので正確に数えることは難しいが,名前がついているものを挙げると30以上になるという.McArthur (177) よりその一覧を再現しよう.
(1) Africa
Gambian Creole or Aku; Krio and pidginized Krio in Sierra Leone; Liberian Creole; Ghanaian Pidgin; Togolese Pidgin; Nigerian Pidgin (creolized in urban areas); Kamtok in Cameroon (creolized in urban areas; see [2010-06-13-1], [2010-06-14-1]); Bioku Pidgin on Fernando Po.
(2) North America (All in the United States)
Afro-Seminole Creole; Amerindian Pidgin (most varieties now extinct); Black English Vernacular (status controversial); Sea Island Creole, or Gullah; Hawaii Pidgin and Creole.
(3) Central America, the Caribbean, and the neighbouring South America
Bahamian Creole; Barbadian Creole; Belizean Creole; Costa Rican Creole; Guyanese Creolese (sic) (see [2010-05-17-1]); Jamaican Creole or Nation Language or Patwa; Leeward Island Creole(s); Nicaraguan Creole; Surinamese Djuka or Aukan, Saramaccan, and Sranan (see [2010-06-05-1]); Trinidad and Tobago Creole(s) or Trinibagianese or Trinbagonian; Virgin Islands Creole; Windward Island Creole(s).
(4) Australasia-Pacific Ocean
Bislama (Vanuatu), Hawaii Pidgin and Creole, Pijin (the Solomon Islands), Kriol or Roper River Pidgin/Creole (northern Australia), Pitcairnese and Norfolkese (Pitcairn Island and Norfolk Island), Tok Pisin/Neo-Melanesian (Papua-New Guinea), Torres Straits Broken/Creole.
世界中にむらなく分布しているというよりは,英米の植民地史を反映して局地的に分布していることがよくわかる.これらの遠心性をもつ「英語」が,求心性をもつ世界標準英語 (World Standard English)や標準英米変種などの主要な標準変種に対して今後どのように位置づけられてゆくかが注目される.というのは,これらの「英語話者」は今後続々と教育の普及などによって post-creole continuum の階段を上り,標準変種を獲得し,かっこ付きでない英語話者となることが見込まれるからだ.しかも,束になれば相当な人口である.
これらのピジン語やクレオール語が話される地域のみを選んで旅したら,英語観が変わってくるかもしれないな・・・.
ピジン語やクレオール語に関するリンクをいくつか張っておく.
・ Society for Pidgin and Creole Linguistics: 学会のサイト
・ Pidgin and Creole Languages: ピジン語・クレオール語入門
・ Tok Pisin Translation, Resources, and Discussion: Tok Pisin/English 辞書あり
・ Jamaican Creole Texts: クレオール語とピジン語関係のリンクもあり
・ McArthur, Tom. The English Languages. Cambridge: CUP, 1998.
[2010-04-03-1]の語源情報抜きだしCGIの改良版.情報源は同じ Online Etymology Dictionary.今回の「一括版」は複数の語の語源を一覧したいときに便利.1行1語で入力された単語リストを用意し,それを以下のテキストエリアに入れて Go するだけ.1語だけでも使えるので,事実上,前回の版の上位互換.語数が多いと時間がかかるし,サーバに負担がかかるので注意.
こうしてますます面倒くさがりになってゆく.
電子辞書はもちろんのこと,今ではWeb上で利用できる英語辞書も数え切れないほど出ており,紙の辞書を引く時代に育ったものとしては驚きの世の中になった.あまたあるWeb辞書のなかでも,個人的に使う機会の多い英英辞書が Dictionary.com である.複数の辞書を横断しての「串刺し検索」が可能である.また,簡便な語源情報が "Word Origin & History" という項で得られるので,これだけのために参照することもある.語源と例文が特に有用なので,私は毎日ランダムに単語情報を自動配信してくれるサービス "Word of the Day" にも登録している.
もっとも,語源情報だけを参照したいのであれば,"Word Origin & History" の提供元である Online Etymology Dictionary を直接検索するのがはやい.(c) 2001-2010 Douglas Harper による英語語源のサイトで,簡単便利.これだけでも十分に簡単便利なのだが「辞書の雑多な情報はいらない,とりあえず語源情報だけを今すぐ欲しい,早く早く!」という(私だけの?)喫緊のニーズに対応し,一発スクリプトを作って使っている.特に初出年やどの言語から来ているかを即座に知りたいときに重宝している.
そのスクリプトのCGI版を以下に作ってみた.単に Online Etymology Dictionary の検索結果から語源記述の部分をぬきだすだけのもの.電子検索が可能になると,どんどん面倒くさがりになってゆく・・・.
現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.
[主要な頻度表]
・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.
[他のリストへのリンク集]
・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
・ Famous Frequency Lists: 様々な頻度表へのリンク集.
・ Basic English and Common Words: ML上の最頻語頻度表についての議論.
[アルファベットの文字の頻度表]
・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.
(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)
英語研究を始め言語研究にコーパスが利用されるようになって,すでに久しい.英語史の分野でも,革新的な The Diachronic Part of the Helsinki Corpus of English Texts の出版以来,様々な種類の歴史・通時コーパスが出ている.
研究には大いにコーパスを利用したいが,コーパス利用研究の注意点を(コメントつきで)挙げておきたい (McEnery et at. 121).
(1) コーパスは negative evidence を提供してくれない.○○がどれだけ生起するかは教えてくれるが,××が生起しないことは教えてくれない.(だが,一般的にいって存在しないかもしれないことを研究することは難しいので,これはコーパス言語学に限った問題点ではない.)
(2) コーパスは事実を提供してくれるが,その事実の説明はしてくれない.(確かに.説明それ自身は研究者の仕事である.)
(3) コーパスは,研究の範囲を限定する.(コーパスではできない研究もたくさんある.コーパス研究は,問題を適切に設定すればその目的のためには常に有効である.しかし,最初の問題設定の外にも問題が広がっていることは忘れてはいけない.)
(4) コーパス研究で導かれた結論を一般化する際には細心の注意を要する.(いくら膨大なコーパスでも,あくまで対象とする言語事実の部分集合である.)
以上4点を書き留めてみてふと立ち止まった.考えてみれば,この4点はコーパス利用ならずとも常に気をつけなければならない点である.英語史を含め歴史言語学の研究は,話者の直感に頼ることができない以上,残された事実(=コーパス)を分析するところから始まらざるをえないのだから,それを電子的に扱うか否かにかかわらず,やっていることはコーパス言語学にほかならない.ただ,電子的な統計に注目する傾向のある近年の(コンピュータ)コーパス言語学では,上記4点について余計に注意すべきだということは言えるだろう.
(3) に関連して,望遠鏡(コーパス言語学に代表される量的研究)と顕微鏡(文献学や談話分析に代表される質的研究)の比喩が興味深い.コーパスを利用するか否かにかかわらず,研究の目的が最重要ということだろう.
If it is ridiculous to criticize a telescope for not being a microsope, it is equally pointless to criticize the corpus-based approach for not doing what it is not intended to do (McEnery et al. 121)
英語コーパス研究の入り口として,以下の非常に良質なリンクを参照.
・ コーパス言語学の入門: 家入葉子先生のサイトより.英語史研究に有用.
・ 英語史関係のコーパス・電子テキスト: 家入葉子先生のサイトより.
・ 英語史関係のコーパス: 三浦あゆみさんの A Gateway to Studying HEL より.
・ コーパス研究に有用なWebサイト一覧
・ JAECS 英語コーパス学会
(後記 2010/03/21(Sun))
・ おすすめコーパスサイト: 『実践コーパス言語学』の著者の一人,須賀廣氏のリンク集.
・ McEnery, Tony, Richard Xiao, and Yukio Tono. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge, 2006.
このブログでもたまに EIL ( English as an International Language ) を話題に取り上げるが ( see elf ),○○英語の発音を聞いてみたいというときにすぐにサンプル音源を手に入れられると便利だと思い,Web上のリソースを探してみた.もっと探せば良質のものがもっとあると思うが,とりあえず数点のみを.
・ The International Dialects of English Archive: IDEA 提供.右メニューの「Dialects & Accent」から世界中の英語のサンプル音源へ.transcript つきで便利.
・ the speech accent archive: 英米内の地域変種が中心だが,それ以外も多少あり.同じテキストが読み上げられており,比較に便利.
・ Listen to English around the World: 世界の英語ラジオ放送網へのリンク.ENL と ESL の国がメイン.
・ Sample Sound Files from International Corpus of English: ICE 提供のサンプル.Australia, East Africa (Kenya & Tanzania), Great Britain, Hong Kong, India, Jamaica, The Philippines で話される英語のサンプル音源があるが,いずれも短い.
[2009-11-08-1]で Shakespeare に関する Web resources を紹介したが,今回は Chaucer の研究に役立つリンクを集めてみた.Chaucer についてもウェブ上には膨大な情報が存在するので,リンクをチェックしたり選定するだけで一仕事である.
[Portals to Chaucer]
・ Chaucer MetaPage: とてつもなく膨大な情報源への入口.
・ The Geoffrey Chaucer Website: もう一つの膨大な入り口.
・ geoffreychaucer.org: Web resources への注解つきリンク集というべきページ.
・ Baragona's Chaucer Page: 学生用ページということで,リンクも豊富.
・ Duncan's Chaucer Course: こちらも学生用ページ.入りやすい入口.
・ The Chaucer Scriptorium by Michael Hanly
・ Jane Zatta's Chaucer: 各作品の背景を知るのに.
・ Luminarium Chaucer Page: 中英語文学の広い視点からの Chaucer.
・ The New Chaucer Society: 学会サイト.リンク集も.
[Texts and Translations]
・ Librarius's The Canterbury Tales and Other Works: 現代英語対訳.下部フレームを利用したグロッサリーも完備.Canterbury Tales はこちら
・ Interlinear Translations of Chaucer's Canterbury Tales: 行間で現代英語訳が読める.
・ The Electronic Canterbury Tales: Tale ごとに情報が満載.Canterbury Tales のテキストはこちらから簡単アクセス.
・ Chaucer Texts: テキストファイルで入手可能.現代英語訳はこちらから,HTMLやPDFでも入手可能.
・ The General Prologue - An Electronic Edition: General Prologue に特化したページ.メニューから各話へジャンプ.現代英語対訳も.
・ The Canterbury Tales: Corpus of Middle English Prose and Verse による提供.
・ The Canterbury Tales and Other Poems of Geoffrey Chaucer, Edited for Popular Perusal from Project Gutenberg: Gutenberg からテキストファイルで落とせる.
・ General Prologue and the Miller's Tale: University of Glasgow 提供の Miller's Tale.グロッサリーとコメントつき.
・ The Canterbury Tales - Reader-Friendly edition in PDF: PDFで落とし,現代英語綴字でじっくり読みたい人に.
・ The Canterbury Tales: オンラインで読める現代英語訳.
・ Canterbury Tales and Other Poems -- Hypertext and eBooks: Literature Project による提供の現代英語訳.
[Glossaries, Concordancers, and Other Research Tools]
・ A Basic Chaucer Glossary: 超簡易グロッサリー.
・ A Glossarial DataBase of Middle English: Canterbury Tales の本格派検索系グロッサリー.
・ A Glossary for the Works of Geoffrey Chaucer (in the Riverside Edition): 1ページの有用なグロッサリー.
・ Chaucer Concordance: 作品毎のコンコーダンサー.
・ Chaucer Bibliography Online: 強力な Chaucer 関連の論文検索ツール.
[Others]
・ Canterbury Tales Project の写本イメージのサンプル.Hengwrt Chaucer Digital Facsimile, Miller's Tale, Nun's Priest's Tale など.
・ Audio Files of Chaucer's Works: 原文の朗読が吹き込まれた音源集.
・ The Chaucer Studio: テキスト朗読 CD を購入できるページ.
(後記 2013/03/10(Sat) Ellesmere Chaucer: 写本画像.)
Powered by WinChalow1.0rc4 based on chalow