hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     前ページ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 次ページ / page 14 (15)

lexicology - hellog〜英語史ブログ

最終更新時間: 2019-10-21 08:10

2010-05-16 Sun

#384. 語彙数とゲルマン語彙比率で古英語と現代英語の語彙を比較する [oe][pde][loan_word][lexicology][statistics]

 これまでも現代英語の語彙数と起源別割合については,グラフとともにいろいろなソースから具体的な数値を挙げてきた.

 ・ [2010-03-02-1]: 現代英語の基本語彙100語の起源と割合
 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)

 それとは別に,語彙や起源別割合の通時的な増減やその他を扱った話題としては,以下のような記事を書いてきた.

 ・ [2009-08-22-1]: フランス借用語の年代別分布
 ・ [2009-08-19-1]: 初期近代英語の借用語の起源と割合
 ・ [2009-06-12-1]: 英語語彙にまつわる数値

 語彙の数値というのは,参照する辞書などのソースを何にするのか,単語の頻度を考慮に入れるのか,などによって調査結果が大きく変わる可能性があり,なかなか難しい.起源言語別で数えるにしても,語源そのものが不詳だったり,フランス語なのかラテン語なのかなどで判断のつかないケースがあったりと,やはり難しい.ただ,予想される通り OEDSOED の情報に基づいた数値が多いようではある.
 今回は,使用されている語彙リストのソース自体は不明なのだが,広く参照される可能性のある Encyclopedia of Linguistics に掲載されている数値を調べてみた.それぞれ "Old English" と "English" の項から関連箇所を引用する.

The recorded vocabulary of OE is estimated at approximately 30,000 words. Only about 3% of these were of non-Germanic origin. (779)


As a result of borrowing, the Gmc word stock is now a low 30% and the Romance one is 50%. (292)


 後者では現代英語の総語彙を対象語彙としているようではあるが,その語数は記されていない.もし OED2 に準拠しているのであれば,定義・例説の与えられている語の数として 615,100 辺りを念頭においているのかもしれない ( see Dictionary facts ) .あるいは,定義されている語源の数である 219,800 辺りを念頭においているのだろうか.不明の点が多いが,現代英語の語彙数として仮に 615,100 という数を採用するとして,古英語と現代英語の語彙とそのなかのゲルマン語彙比率について比べる表を掲げよう.ゲルマン語彙とは,Anglo-Saxon 起源の本来語と(特に現代英語において)Old Norse 起源の借用語を合わせたものが中心になると考えてよいだろう.

 Old EnglishPresent-Day English
vocabulary30,000615,100?
native words (%)9730


 語彙数がざっと20倍,ゲルマン語彙比率が1/3以下になったのだから,語彙体系の激変が起こったといってよい.大語彙推移 ( The Great Vocabulary Shift ) とでも呼びたくなる大変化だ.

 ・ Minkova, Donka. "Old English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 777--80.
 ・ Leitner, Gerhard. "English." Encyclopedia of Linguistics. Ed. Philip Strazny. New York: Fitzroy Dearborn, 2005. 288--94.

[ | 固定リンク | 印刷用ページ ]

2010-04-17 Sat

#355. COLT Word Frequency List による音節数の分布調査 [colt][syllable][lexicology][statistics]

 昨日の記事[2010-04-16-1]で触れたように,COLT ベースの音節数分布調査をパイロット・スタディとして実施してみた.以下が結果.[2010-04-10-1], [2010-04-11-1]の BNC ベースの調査結果と比較するにはこちらのページへ.
 BNC ベースの結果と比べて,100語,200語,500語,1000語(976語)のいずれのレベルでも,COLT のほうが平均音節数は少ない.1000語(976語)レベルで比べると,COLT は単音節語と二音節語だけで93%をカバーしているが,BNC はそのカバー率は約10%ほど少ない.口語コーパスに限定した COLT とそうでない BNC の差が関与していると考えられる.

How Many Syllables in Words by COLT Word Frequency List


Rate of n-Syllables at Words Levels by COLT Word Frequency List

Referrer (Inside): [2012-06-30-1] [2011-02-22-1]

[ | 固定リンク | 印刷用ページ ]

2010-04-16 Fri

#354. COLT:ロンドンの十代の若者話し言葉コーパス [corpus][colt][lexicology][syllable]

 少し変わり種のコーパスとして,COLT: The Bergen Corpus Of London Teenage Language を紹介する.1993年におけるロンドンの若者(13歳から17歳)の話し言葉を収集したコーパスで,約50万語からなる.31人のロンドン各地・各階層の男子女子の会話を,合計50時間だけ録音し,文字に起こしたものである.BNC ( The British National Corpus ) にも組み込まれているコーパスだ.語類情報や休止などの韻律情報がタグ付けされており,若者言葉によって先導される言語変化の調査や語用論的な研究において実績がある.
 コーパス自体は有料だが,上記のHPから手に入る COLT による最頻1000語のリスト が目を引いた.COLT に現れる表記語 ( graphic word ) の最頻リストで,lemmatise されていない.要するに,dodidlaughlaughing などは別々にカウントされている.
 今回,このコーパスに目を付けたのは,先日[2010-04-10-1], [2010-04-11-1]でパイロット・スタディとしておこなった「BNC Word Frequency List による音節数の分布調査」の COLT 版を試してみようと思ったからである.BNC による音節数分布調査では,書き言葉と話し言葉の両方を対象とし,lemmatise された基底形 ( base form ) での頻度表を用いたが,COLT を用いれば,大きく異なった条件のもとで類似した調査をおこなうことができる( COLT が BNC の一部になっていることを考慮しても).具体的には,話し言葉に限定された,表記語に基づく頻度表をベースとして音節数の分布を調べられる.
 注意を要するのは,COLT の頻度表には unclear, nv, singing など,地の文の語ではなくタグ名として使われている語もうっかり数えられてしまっていることだ.したがって,この種の語は手作業で除去し,最終的に有効最頻語976語のリストが得られた.これをもとにして,音節数の分布をいざ探ってみることにする.結果は,明日.

Referrer (Inside): [2010-04-17-1]

[ | 固定リンク | 印刷用ページ ]

2010-04-11 Sun

#349. BNC Word Frequency List による音節数の分布調査 (2) [syllable][lexicology][bnc][statistics]

 今回は,昨日の記事[2010-04-10-1]で扱った音節数に関するデータを,角度を変えて見てみたい.100語レベルから6000語レベルまでの各頻度レベルの数値を標準化して,単音節語から7音節音語までの相対頻度を比べられるようにしたものである.(数値データはこのページのHTMLソースを参照.)

Rate of n-Syllables at Words Levels by BNC Word Frequency List

 昨日のグラフだけでは読み取りにくかったいくつかのポイントが見えてきた.

 ・ 対象語彙が大きくなればなるほど単音節語の比率は減少するが,1000語レベル以上からの減り幅は比較的小さい
 ・ 2音節語の比率は,1000語レベル以上ではほとんど変化していない
 ・ 500語レベル以上からは3音節語と4音節語が存在感を増してくる
 ・ とはいえ,2000語レベル以上からは相対的な分布の変化は小さく,全体として安定しつつあるように見える

[ | 固定リンク | 印刷用ページ ]

2010-04-10 Sat

#348. BNC Word Frequency List による音節数の分布調査 [syllable][lexicology][bnc][statistics]

 昨日の記事[2010-04-09-1]に続く話題.BNC Word Frequency List の6318語の見出し語化された ( lemmatised ) 最頻語リストを材料として,音節数の分布がどのようになっているかを調査してみた.
 まずはリストを頻度順に眺めてみるだけで,ある程度の検討はついた.[2010-03-02-1]の記事「現代英語の基本語彙100語の起源と割合」からも明らかなとおり,最頻基本語にはゲルマン系の本来語が多い.このことは,単音節語が多いということにもつながる.しかし,リストを下って頻度のより低い語に目をやると,徐々に2音節語,3音節語が目につくようになってくる.したがって,頻度で上位どのくらいまでを対象にするかによって,音節数の相対的な分布は変わってくることが予想される.そこで,まず6318語すべての音節数を出した上で,最頻100語,200語,500語,1000語,2000語,3000語,4000語,5000語,6000語というレベルで音節数の分布を調査した.レベル間の比較が可能となるようにグラフ化したのが下図である.(数値データはこのページのHTMLソースを参照.)

How Many Syllables in Words by BNC Word Frequency List

 このグラフからいくつかの興味深い事実を読み取ることができる.

 ・ どのレベルでも単音節語が最も多い
 ・ 対象語彙が大きくなればなるほど,2音節語数が単音節語数に肉薄する
 ・ 英語語彙の圧倒的多数が単音節語か2音節語である
 ・ 対象語彙が大きくなればなるほど,平均音節数が漸増する
 ・ いずれにせよ英単語の平均音節数はせいぜい2音節ほどである

 今回は最頻約6000語レベルの語彙で調査したが,対象語彙をどんどん大きくしてゆくとどのような結果が出るのか,おおいに気になった.やがては2音節語が単音節語を追い抜き,平均音節数も漸増を続けるのだろうか? あるいは平均音節数がこれ以上は変わらないという限界点が存在するのだろうか? non-lemmatised な語彙リストを材料にすると平均音節数はどのくらい変化するのだろうか? 次々に疑問が生じた.
 ちなみに,最頻5000語レベルで初めて現れる7音節語が一つある.英語の平均音節数からすると異常に長い超多音節語だが,比較的よくお目にかかる単語ということになる.何であるか,想像できるだろうか? 答えは,4657番目に現れる telecommunication (←クリック)である.なるほど〜.

[ | 固定リンク | 印刷用ページ ]

2010-04-09 Fri

#347. 英単語の平均音節数はどのくらいか? [syllable][lexicology][compound][statistics]

 ここ数ヶ月のあいだに取り組んでいる研究課題と関連して,標題の問いについて調査する必要が生じている.この問いの背後にある問題意識としては,単語の語源別の平均音節数を比較して,たとえば「ゲルマン系の単語はロマンス系の単語よりも○音節だけ短い」などという統計的な数値を得たいと思っているのだが,この問題は何段階かに分けてアプローチしてゆくのがよさそうである.標題の問いのままでは適切な問題設定とはいえないいくつかの理由がある.
 一つは,言語学で最も悪名高い問題の一つである「単語とは何か」という問いに関係する.わかりやすい例として,合成語 ( compound ) を考えるとよい.school boy は1語なのだろうか,2語なのだろうか? さらに,固有名詞の New York City はどうだろうか? いずれも綴字上の慣習により複数の語とみなすこともできるが,一方で意味のまとまりとしては一つであるから1語だという理屈も成り立ちうる.kick the bucket のようなイディオムはどうだろうか? [2010-02-07-1], [2010-02-08-1]で触れた crane のような多義語 ( polysemy ) は,語義ごとに別の語と考えることもできるのではないか? 英単語の平均音節を考えるにあたっても,こうした基本的な問題は避けて通れない.
 二つ目の理由は,英語語彙というときの範囲の問題である.OED には50万語ほどがエントリーされているが,辞書の保守性を考慮すると,実際にはその倍の語彙があるのではないかともいわれている.平均値を出すからには,理想的にはありったけの単語を考慮に入れることが必要である.となると,[2009-06-30-1]の記事でみた pneumonoultramicroscopicsilicovolcanoconiosis のような極端な語(19音節)も含めることになる.だが,そもそも現代英語語彙の総覧が存在しない以上,どこまで含めてどこから含めないかの判断は恣意的にならざるをえない.実際的な研究に際しては,どこかで強引に切る必要がある.
 三つ目は,同一の語でも,変種によって1音節程度の増減が起こりうるという問題である.[2010-03-08-1]で触れたように,secretary は典型的な英米発音のあいだで音節数の揺れがある.もっとも,この問題は対象とする変種を定めてしまえば,上記の二つの問題ほど大きな問題にはならないかもしれない.
 一つ目,二つ目の問題については当面の根本的な解決策はないが,そんなに難しいことを言っていては仕方がないというのも確かである.具体的に調査を進めてみようと思うと,[2010-03-01-1]で紹介した最頻英単語リスト辺りからスタートするのがよさそうである.ひとまずは,BNC Word Frequency List の6318語のリストから始めてみようと思う.

 ・ 齊藤 俊雄,中村 純作,赤野 一郎 編 『英語コーパス言語学−基礎と実践−』 研究社,1998年.110--13頁.

Referrer (Inside): [2012-06-30-1] [2010-04-10-1]

[ | 固定リンク | 印刷用ページ ]

2010-03-28 Sun

#335. 日本語語彙の三層構造 [lexicology][japanese][kanji][loan_word][lexical_stratification]

 昨日の記事[2010-03-27-1]で,類義語の豊富さに関しては英語は他言語と比べても異例だと述べた.しかし,もっと異例なことに,英語と日本語はこの点でよく似ているのである.英語では,アングロサクソン語(本来語),フランス語,ラテン・ギリシャ語の三層構造をなしているが,日本語では,和語(本来語),漢語,西洋語の三層構造をなしている.日本語の例(思いつき)を見てみよう.

和語漢語西洋語
おおうなばら(大海原)大洋オーシャン
おかね(お金)金銭マネー
およぎ(泳ぎ)水泳スイミング
おんなのこ(女の子)女子ギャル
かみのけ(髪の毛)毛髪ヘアー
かわや(厠)便所トイレ
くすりや(薬屋)薬局ドラッグストア
くるま(車)乗用車カー
さくらんぼ桜桃チェリー
たたかい(戦い)戦闘バトル
たまご(卵)鶏卵エッグ
ひとつ(一つ)ワン
ひるめし(昼飯)昼食ランチ
やど(宿)旅館ホテル


 英語の下層を構成する本来語と同様,和語はもっとも庶民的である.暖かく懐かしい響きがあり,感情に直接うったえかける力がある.「一,二,三」と数えるよりも,「ひとつ,ふたつ,みっつ」のほうが暖かく優しい.この階層の語彙は日常会話に頻出するが,学術論文にはあまり現れない類の語彙である.
 学術論文などに代表される文語を主なフィールドとするのが,中層の漢語である.いや,学術論文ほどお堅くなくても日本語のあらゆる文章において漢語がなければ大変に不便である.本記事のここまでの文章だけでも,表中の語を除き,34種類の漢語がのべ50回も使用されている.漢語は日常会話でも頻度は低くない.この点,英語の中層を担うフランス語起源の語彙と機能がよく似ている.
 上層を構成する西洋語は,主に英語由来のものが多い.英語の上層を担当するラテン・ギリシャ語由来の語彙の register のレベルが文字通りに上層であるのに対して,日本語の上層の西洋語は必ずしもお高い響きはない.むしろ,横文字は軽い響きがあると言われることすらある.この点で,上層に関しては英語と日本語の役割は異なっているようである.ただし,成長著しい科学や情報の分野では,英語の専門用語に対する日本語の訳語を作るのが追いつかず,そのまま英語を採用することも広く行われている.この場合,西洋語は専門性の響きを帯びるため,上層と呼ぶにふさわしいとも言える.
 日本語では,各階層に対応する文字種がおよそ決まっているのが特徴である.和語はひらがな,あるいは漢字かな交じりで,漢語は漢字で,西洋語はカタカナ(あるいは最近はアルファベットそのままのケースもある)でというように,視覚的にも明確に区別される.
 英語と日本語で各階層の機能に若干の差があることは認めるにせよ,ともにこれだけ明確な語彙の三層構造をもっているということは,稀なる偶然である.いや,もしかすると偶然以上のものがあるのかもしれない.歴史的に大陸からの影響を多く受けてきたのは,島国であるからこその特徴といえるかもしれない.

[ | 固定リンク | 印刷用ページ ]

2010-03-27 Sat

#334. 英語語彙の三層構造 [lexicology][french][latin][register][thesaurus][loan_word][lexical_stratification]

 類似概念を表すのに二つ以上の語が存在するという状況はどの言語でも珍しくない.確かに,完全な「同義語」というものが存在することは珍しいが,少し条件をゆるめて「類義語」ということであれば,多くの言語に存在する.とはいうものの,英語の類義語の豊富さは,多くの言語と比べても驚くべきほどである.このことは類義語辞典 ( thesaurus ) を開いてみれば,一目瞭然である.
 英語史の観点から類義語の豊富さを説明すれば,それは英語が多くの言語と接触してきた事実に帰せられる.異なった言語から対応する語を少しずつ異なったニュアンスで取り入れ,語彙のなかに蓄積していったために,結果として英語は類義語の宝庫 ( thesaurus ) となったのである.
 類義語を語源別にふるい分けてみると,そこに「層」があることがわかる.例えば,典型的な類義語のパターンとして「三層構造」とでも呼ぶべきものがある.下層が本来語,中層がフランス語,上層がラテン・ギリシャ語というパターンである.

nativeFrenchLatin/Greek
askquestioninterrogate
bookvolumetext
fairbeautifulattractive
fastfirmsecure
foeenemyadversary
helpaidassistance
kinglyroyalregal
risemountascend


 下層は文字通り「レベルが低い」が,同時に「暖かみと懐かしさ」がある.本来のゲルマン系の語彙であるから,故郷の懐かしさのようなものが感じられるのは不思議ではない.
 中層は多少なりとも権威と教養を感じさせるが,庶民が届かないほどレベルが高いものではない.歴史的には中世イングランドの公用語がフランス語だったことに対応するが,中英語期に借用されたフランス語彙のなかには特別な権威を感じさせず,十分に庶民化したといってよい語も多い ( ex. face, finish, marriage, people, story, use ) .
 上層には,学問と宗教の言語,すなわち権威を体現したような言語たるラテン語(あるいはギリシャ語)が控えている.語の響きとしては厳格で近寄りがたく,音節数も多いのが普通である.
 このように,語彙の三層構造が歴史的に育まれてきた英語では,階層間の使い分けが問題になる.特に微妙な意味の差や適切な 使用域 ( register ) の見極めが肝心である.例えば日常会話では下層や中層の語彙がふさわしいが,学術論文では中層や上層の語彙を使いこなす必要がある.気軽に尋ねるのに "May I interrogate you?" は妙だろう.
 このような語彙の階層については,具体例を一覧表で列挙している橋本先生の英語史の第5章が参照に便利である.

 ・ 橋本 功 『英語史入門』 慶應義塾大学出版会,2005年.

[ | 固定リンク | 印刷用ページ ]

2010-03-25 Thu

#332. 「動物とその肉を表す英単語」の神話 [french][lexicology][loan_word][language_myth][lexical_stratification]

 昨日の記事[2010-03-24-1]に関連する話題.英語史で必ずといってよいほど取りあげられる「動物は英語,肉はフランス語」という区分は,語り継がれてきた神話であるという主張がある.OED の編集主幹を務めた Burchfield によると,"[an] enduring myth about French loanwords of the medieval period" だという.少し長いが,引用する (18).

The culinary revolution, and the importation of French vocabulary into English society, scarcely preceded the eighteenth century, and consolidated itself in the nineteenth. The words veal, beef, venison, pork, and mutton, all of French origin, entered the English language in the early Middle Ages, and would all have been known to Chaucer. But they meant not only the flesh of a calf, of an ox, of a deer, etc., but also the animals themselves. . . . The restriction of these French words to the sense 'flesh of an animal eaten as food' did not become general before the eighteenth century.


 試しに beefOEDMED で確認してみると,確かに動物そのものの語義も確認される.しかし,複数の例文を眺めてみると,動物本体と関連して肉が言及されているケースが多いようである.例えば,この語義での初例として両辞書ともに14世紀前半の次の例文を掲げている.

Hit mot boþe drink and ete .. Beues flesch and drinke þe broþt.


 それでも,Burchfield の主張するように「動物は英語,肉はフランス語」という区分が一般的になったのは18世紀になってからということを受け入れるとするならば,それはなぜだろうか.18世紀には料理関係の語がフランス語から大量に入ってきたという事実もあり,これが関係しているかもしれない.
 肉・動物の使い分けの始まりが中世であれ近代であれ,英語話者の意識下に「高きはフランス語,低きは英語」という印象が伝統的に定着してきたことは確かだろう.

 ・ Burchfield, Robert, ed. The New Fowler's Modern English Usage. 3rd ed. Oxford: Clarendon, 1996.

[ | 固定リンク | 印刷用ページ ]

2010-03-24 Wed

#331. 動物とその肉を表す英単語 [french][lexicology][loan_word][etymology][popular_passage][lexical_stratification]

 中英語期を中心とするフランス語彙の借用を論じるときに,この話題は外せない.食用の肉のために動物を飼い育てるのはイギリスの一般庶民であるため,動物を表す語はアングロサクソン系の語を用いる.一方で,料理された肉を目にするのは,通常,上流階級のフランス貴族であるため,肉を表す語はフランス系の語を用いる.これに関しては,Sir Walter Scott の小説 Ivanhoe (38) の次の一節が有名である.

. . . when the brute lives, and is in the charge of a Saxon slave, she goes by her Saxon name; but becomes a Norman, and is called pork, when she is carried to the Castle-hall to feast among the nobles . . . .


 具体的に例を示すと次のようになる.

Animal in EnglishMeat in EnglishFrench
calfvealveau
deervenisonvenaison
fowlpoultrypoulet
sheepmuttonmouton
swine ( pig )pork, baconporc, bacon
oxbeefboeuf


 「豚(肉)」について付け加えると,古英語では「豚」を表す語は swīn だった.pig は中英語で初めて現れた語源不詳の語である.また,後者が一般名称として広く使われるようになったのは19世紀以降である.bacon (豚肉の塩漬け燻製)は古仏語から来ているが,それ自身がゲルマン語からの借用であり,英語の back などと同根である.

 ・ Scott, Sir Walter. Ivanhoe. Copyright ed. Leipzig: Tauchnitz, 1845.

[ | 固定リンク | 印刷用ページ ]

2010-03-02 Tue

#309. 現代英語の基本語彙100語の起源と割合 [loan_word][lexicology][statistics][pde]

 昨日の記事[2010-03-01-1]で,現代英語の最頻英単語リストをいくつか紹介した.そのなかで,やや古いが広く参照されている GSL ( General Service List ) に基づき,最頻100語の語源別の内訳を調べてみた.

Etymological Sources of 100 Most Frequent Words in PDE

 英語の本来語 ( native words ) の一人勝ちであることは一目瞭然である.借用語 ( loan words ) はわずかである.最頻語彙の血は紛れもなく Anglo-Saxon である.
 古ノルド語由来の語は they, she, take, get, give の5語のみ.ただし,she の語源にはイングランド北部方言説など諸説がある.また,getgive については,語頭子音 /g/ こそ古ノルド語形に由来すると言ってよいが,対応する語は古英語にもあり,考え方によってはどちらの言語にも帰せられる.ここでは,いずれも古ノルド語由来として数えた.
 フランス語由来の語は,state, use, people の3語のみ.
 過去の記事でも類似する統計をいくつか載せているので,そちらも要参照.

 ・ [2009-11-15-1]: 現代英語の基本語彙600語の起源と割合
 ・ [2009-11-14-1]: 現代英語の借用語の起源と割合 (2)
 ・ [2009-08-15-1]: 現代英語の借用語の起源と割合

[ | 固定リンク | 印刷用ページ ]

2010-03-01 Mon

#308. 現代英語の最頻英単語リスト [lexicology][corpus][link][academic_word_list][alphabet]

 現代英語の最頻英単語は何か.この話題についてはコーパス言語学,辞書学,計算機の発展により,様々な頻度表が作られてきた.ウェブ上でも簡単に手に入るので,いくつか代表的なリストや情報源へのリンクを掲げておく.語彙研究に活用したい.

[主要な頻度表]

 ・ GSL ( General Service List ): 最頻2000語を掲げたリスト.出版が1953年と古いが,現在でも広く参照されているリスト.
 ・ AWL ( Academic Word List ): 学術テキストに限定した最頻語リスト.2000年に出版され,GSLに含まれる語と重複しないように選ばれた570語を掲載.10のサブリストに分かれている.AWL の前身となる,1984年に出版された808語のリスト UWL ( University Word List ) も参照.
 ・ BNC Word Frequency Lists: BNC ( The British National Corpus ) による最頻6318語のリスト.頻度表の直接ダウンロードはこちらから.
 ・ Top 1000 words in UK English: 18人の著者,29作品,460万語のコーパスから抽出したイギリス英語の最頻1000語リスト.
 ・ Brown Corpus List: Brown Corpus によるアルファベット順リスト.
 ・ The Longman Defining Vocabulary: LDOCE の1988年版の定義語彙リスト.2000語以上.

[他のリストへのリンク集]

 ・ Work/Frequency List: 様々な頻度表へのリンク集.(2010/09/10(Fri)現在リンク切れ)
 ・ Famous Frequency Lists: 様々な頻度表へのリンク集.
 ・ Basic English and Common Words: ML上の最頻語頻度表についての議論.

[アルファベットの文字の頻度表]

 ・ Letter Frequencies (rankings for various languages): いくつかのランキング表がある.BNCでは "etaoinsrhldcumfpgwybvkxjqz" の順とある.

(後記 2010/03/07(Sun):American National Corpus に基づいた頻度表を見つけた.Written と Spoken で分別した頻度表もあり.)
(後記 2010/04/12(Mon):COLT: The Bergen Corpus Of London Teenage Language に基づいた最頻1000語のリストを見つけた.)
(後記 2011/02/14(Mon):Corpus of Contemporary American English (COCA) に基づいた Corpus-based word frequency lists, collocates, and n-grams を見つけた.Top 5,000 lemma, Top 500,000 word forms など.)

[ | 固定リンク | 印刷用ページ ]

2010-01-23 Sat

#271. 語彙研究ツールとしての辞書とコーパス [dictionary][corpus][methodology][lexicology]

 現代英語の語彙研究あるいは英語語彙の歴史的研究をおこなうときに,情報源は二つある.一つは辞書であり,もう一つは(電子)コーパスである.(膨大な量のテキストに体当たりという力業もあるが,ここではその可能性は考えないことにする.)歴史的な観点から英語の語彙論や形態論に関心のある私は,とりわけ OED 等の辞書(電子版)にお世話になることが多いが,The Helsinki Corpus of English Texts (Diachronic Part) を始めとする電子コーパスをもっと活用すべきだと自認している.
 辞書は語と語にまつわる諸情報を集めることに特化した出版物なので,電子版を用いれば「かくかくしかじかの条件に当てはまる語彙を一覧にせよ」という類の命令にはめっぽう強い.一方で,電子コーパスは通常,語彙研究に特化しているわけではなく広く言語研究全般に供する情報源として出版されている.だが,語彙研究において電子コーパスのほうが辞書よりも有用であるケースは少なくない.Baayen and Lieber (803) によると,語彙研究におけるコーパスの利点は以下の通り.

 (1) コーパスで語を検索すると,その頻度を知ることができる.辞書では頻度はわからない.
 (2) コーパスは生の言語使用を反映しており,辞書に掲載されない語を含んでいる可能性が高い.(辞書は一般に保守的な傾向が強く,俗語や新語を含んでいないことが多い.)
 (3) 逆に辞書に掲載されていてもコーパスではヒットしない語が多く存在する.

 まとめると,語彙研究にコーパスを用いる利点は,「生きた語彙を頻度つきで集めることができる」という点だろう.要は,辞書とコーパスそれぞれの長所と短所をわきまえたうえで,目的に応じて両者を使い分ければよいということになろう.
 辞書とコーパスのちょっとした比較例としては,octopus の複数形 ([2009-08-26-1]) と rhinoceros の複数形 ([2009-10-05-1]) の記事を参照.

 ・Baayen, Harald and Rochelle Lieber. "Productivity and English Derivation: A Corpus-Based Study." Linguistics 29 (1991): 801--43.

Referrer (Inside): [2019-05-21-1]

[ | 固定リンク | 印刷用ページ ]

2010-01-15 Fri

#263. 1990年から2009年までの英語流行語大賞 [lexicology][ads][woy]

 昨日の記事[2010-01-14-1]で紹介したように,American Dialect Society による2009年の英語流行語大賞のプレスリリースに,1990年以降の受賞語句がまとめて掲載されている.見やすいように,大賞受賞語句を一覧にしてみた.英語ならずとも,確かに時代を感じるなあ.

YearWord of the YearWord of the DecadeWord of the CenturyWord of the Millennium
2009twittergoogle
2008bailout
2007subprime
2006to be plutoed, to pluto
2005truthiness
2004red / blue / purple states
2003metrosexual
2002weapons of mass destruction or WMD
20019-11, 9/11 or September 11
2000chadwebjazzshe
1999Y2K
1998e-
1997millennium bug, Y2K bug or Y2K problem
1996mom (as in soccer mom)
1995(tie) World Wide Web and newt
1994(tie) cyber and morph
1993information superhighway
1992Not!
1991mother of all
1990bushlips

Referrer (Inside): [2013-02-23-1] [2010-05-26-1]

[ | 固定リンク | 印刷用ページ ]

2010-01-14 Thu

#262. 2009年の英語流行語大賞 [lexicology][ads][woy]

 [2009-12-28-1]の記事で紹介した American Dialect Society が,2010年1月08日(金)付けで2009年の英語の流行語大賞 "word of the year" を発表した.10年間の締めくくりの年でもあったので,同時に "word of the decade" も発表された.詳しくは,American Dialect Society,あるいは直接プレスリリースがこちらのPDFで閲覧可能である.
 結果からいえば,"2009 Word of the Year" が tweet,"Word of the Decade" が google である.近年のウェブ・コミュニケーション技術の台頭を物語る結果である.
 "2009 Word of the Year" の tweet は,"(noun) a short message sent via the Twitter.com service, and (verb) the act of sending such a message" と定義される.Twitter は Twitter.com が提供するオンライン「つぶやき」サービスで,昨年から今年にかけて日本でも大ブレークしている.電子メールとチャットの中間程度の「緩い」コミュニケーションを可能としたことが売りで,iPhone などの携帯端末からオンラインに向かって日々つぶやく人が増加した.
 "Word of the Decade" の google は,"a generic form of 'Google,' meaning 'to search the Internet' " の意味で,確かに動詞として一般化した観がある.ちなみに "Word of the Decade" の次点は blog であり,やはりウェブ・コミュニケーション用語である.第三位は 9/11 だった.
 これらの流行語は American Dialect Society 主催の投票によって選ばれるが,プレスリリースでは賞の開始された1990年以来の各部門の受賞語句が確認できるので,ぜひ読んでおきたい.部門としては,"MOST UNNECESSARY" 部門,"MOST OUTRAGEOUS" 部門,"MOST LIKELY TO SUCCEED" 部門の受賞語句などが,ときに笑える.
 学会の主催するイベントでありながら,ユーモアの忘れられていないところが楽しい.プレスリリース中の以下のコメントにも,方針がこう謳われている.

Members in the 120-year-old organization include linguists, lexicographers, etymologists, grammarians, historians, researchers, writers, authors, editors, professors, university students, and independent scholars. In conducting the vote, they act in fun and do not pretend to be officially inducting words into the English language. Instead they are highlighting that language change is normal, ongoing, and entertaining. (1)

Referrer (Inside): [2011-01-10-1] [2010-01-15-1]

[ | 固定リンク | 印刷用ページ ]

2009-12-28 Mon

#245. 西暦2000年紀の英語流行語大賞 [lexicology][loan_word][ads][she]

 10年遅れの話題だが,年末ということで思い出したのでメモ.American Dialect Society では毎年,協会誌 American Speech にて英語の流行語大賞が発表されている.2000年には豪華なことに "1999 words of the year", "words of the decade", "words of the century", "words of the millennium" が一気に公表された.
 その年の流行語大賞がその一年の社会の変化を振り返るのにうってつけであるのと同様に,10年,100年,1000年というスパンでの「流行語」を顧みることは,社会の歴史を振り返るのにうってつけである.以下は,大賞にノミネートされた語句である.受賞語句には * を付してある.

・Words of the Decade

 e-
 ethnic cleansing
 * Web
 Franken --- Genetically modified, as in Frankenfood
 senior moment
 way --- very

・Words of the Century

 teenager
 * jazz
 T-shirt
 modern
 DNA
 media
 acronym
 teddy bear
 World War
 cool
 melting pot

・Words of the Millennium

 science
 freedom
 news
 justice
 truth
 nature
 history
 human
 book
 language
 go
 the
 government
 OK
 * she

 millennium の単位になると,ノミネートの基準も分かるような分からないような,である.語彙史的には,特に go, the, そして受賞した she が気になるところである.いずれもゲルマン系の超基本語であり,この形態・機能に落ち着くまでにある程度の時間のかかった語である.確かに歴史を背負った語といってよい.
 ちなみに "Words of the Millennium" にノミネートされた15語のうち,間違いなく英語の本来語といえるものは freedom, truth, book, go, the の5語のみであり,他は借用語である.このことは,1500年余の英語の語彙史を象徴しているように思える.

 ・American Speech 75.3 (2000): 323--24 (in "Among the New Words").

[ | 固定リンク | 印刷用ページ ]

2009-11-16 Mon

#203. 1500--1900年における英語語彙の増加 [lexicology][statistics][soed]

 近代英語期の英語語彙の増加について,(連日だが)Hughes の調査を参考にしつつ紹介.Hughes は,Shorter Oxford English Dictionary (1933 ed.) に基づいて編集された Chronological English Dictionary を利用して,1500年から1900年のあいだに英語に加わった語を10年ごとに集計してグラフを作成した (404).
 以下のグラフは,Hughes のグラフを本ブログ用に改変したものである.Hughes にはグラフ作成のもとになる数値データは与えられていないので,グラフから目検討で数値を読み出し,それを頼りに再びグラフを作成した.したがって,ここに示されているものはあくまで参考までに.

Growth of English Vocabulary, 1500-1900, by Hughes


 グラフには二つのピークがある.一つ目のピークは約1550〜1630年の時期で,およそエリザベス朝の時代 ( Elizabethan Period ) を中心とする.二つ目のピークは約1790〜1880年の時期で,およそロマン主義の時代 ( Romantic Period ) に相当する.間にはさまれた王政復古期 ( Restoration Period ) と新古典主義時代 ( Augustan Period ) は比較的,保守的だったとわかる.1450〜1950年に加わった語彙の総数は6万語を超え,平均すると年に約120語ということになる.
 なお,Hughes によると,年単位でみると1598年(590語)と1611年(844語)がもっとも際だっているという.

 ・Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 403--04.
 ・Finkenstaedt, Thomas, E. Leisi, and D. Wolf. eds. A Choronological English Dictionary. Heidelberg: Carl Winter, 1970.

[ | 固定リンク | 印刷用ページ ]

2009-11-15 Sun

#202. 現代英語の基本語彙600語の起源と割合 [loan_word][lexicology][statistics][pde][romancisation]

 昨日の記事[2009-11-14-1]に引き続き,現代英語の語彙に関する統計値の話題.昨日は,借用語に限定し,そのソース言語の相対的割合を示すグラフを掲げた.今日は,本来語も借用語も含めた現代英語の語彙全体から基本語600語を取り出し,その語源をソース言語ごとに数え上げるという切り口による統計を紹介する.以下の数値と議論の出典は,昨日と同じく Hughes による.
 数値をみる前に,基本語彙 ( core vocabulary ) を客観的に定義するのは難しいという問題に触れておきたい.話し言葉で考えるのか,書き言葉で考えるのか.個々の話し手,書き手によって基本語彙とは異なるものではないのか.世界英語のどの変種 ( variety ) を対象に考えるのか,イギリス英語か,アメリカ英語か,それ以外か.この問題に対して,Hughes は,LDOCE3 の頻度ラベルが S1 かつ W1 であるもの,すなわち話し言葉でも書き言葉でも最頻1000語に入っている語だけを選び出すことにした.この総数が600語であり,これを "the kernel of the core" (392) として調査対象にした.以下は,ソース言語別の割合をグラフ化したものである.

Etymological Sources of PDE Core Vocabulary


 従来の類似調査や伝統的な英語史観からは,Anglo-Saxon 由来の本来語の割合はもっと高いはずではないか(6割〜7割)と予想されるところだが,意外にも5割を切っている.話し言葉の記述に力を入れている LDOCE3 に基づく結果であるだけに,なおさらこの結果は意外である.
 もう一つ興味深いのは,Anglo-Saxon と Norse を合わせた Germanic 連合軍と,Norman French と Latin と Greek を合わせた Latinate-Classic 連合軍とが,およそ半々に釣り合っていることだ.語彙に関しては,中英語以降,英語はゲルマン系からロマンス系へと舵を切っているということが英語史ではよくいわれる.現代において,語彙のロマンス化の傾向は維持されているのみならず,むしろ強まってきているということを,このデータは示唆するのではないか.

 ・ Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 391--94.
 ・ Longman Dictionary of Contemporary English. 3rd ed. Harlow: Longman, 1995.

[ | 固定リンク | 印刷用ページ ]

2009-11-14 Sat

#201. 現代英語の借用語の起源と割合 (2) [loan_word][lexicology][statistics][pde]

 標題について[2009-08-15-1]で円グラフを示したが,そのときにグラフ作成に用いた数値は孫引きのデータだった.今回は OED (2nd ed.) で語彙調査をした Hughes の原典から直接データを取り込み,より精確なグラフを作成してみた.カウントの対象とされたソース言語は75言語,借用語総数は169327語である.
 一つ目は円グラフで,現代英語の借用語全体を100としたときのソース言語の相対比率を示したものである.[2009-08-15-1]で示したグラフをより精確にしたものと理解されたい.
 二つ目は棒グラフで,比率ではなく借用語数で,ソース言語別にプロットしたものである.
 少数のソース言語が借用語の大多数を供給している実態がよくわかる.もとの数値データはこのページのHTMLソースを参照.

Etymological Sources of Borrowings into English by OED2 in Pie Chart

Etymological Sources of Borrowings into English by OED2 in Bar Chart


 ・Hughes, G. A History of English Words. Oxford: Blackwell, 2000. 370.

[ | 固定リンク | 印刷用ページ ]

2009-09-10 Thu

#136. 中東・アジアの民族名称の接尾辞 -i (2) [suffix][lexicology][prototype][map]

 昨日[2009-09-09-1]に引き続き,民族名称接尾辞 -i の話題.-i を英語の語彙項目として扱ってよいか不明という話をしたが,もし扱ってよいことにしても,やはり相当に珍しい接尾辞となる.
 接尾辞は,たいてい基体のもつ何らかの条件にしたがって付加される.典型的には基体の音韻・形態の条件や語彙的な条件である.例えば,別の民族名称接尾辞の -ese でいえば,基体に /n/ 音が含まれていることが多い ( ex. Cantonese, Chinese, Japanese, Milanese, Pekinese, Taiwanese, Viennese ) .この場合,条件というと言い過ぎかもしれないが,このような傾向があることは間違いない.
 語彙的な条件の例としては,[2009-09-07-1]で話題にしたように,接尾辞 -ish は色彩語や数詞という語類に付加する傾向が顕著である.また,例外があるとはいえ,-ish は名詞や形容詞に付くのが原則である.ここにも語類という語彙的な制限がかかっている.
 ところが,民族名称の接尾辞 -i の場合は,条件がさらに複雑かつ特異である.確かに,国・地域の名称に付加されるという語彙的な条件はある.さらに,例証はされないものの,おそらくは *Lebanoni, *Libyai, *Moroccoi などという語は音韻的な条件にブロックされて生じないだろうと推測される ( Bauer 253 ).だが,条件はそれだけではない.「中東・アジア」という地理が関わってくるのである.音韻や語彙の条件が言語内で発生する条件であるのに対し,地理の条件はあくまで言語外の条件である.この点が特異である.
 地理的な条件というのは,既存の例から判断する限りこのような条件が設定されているようだという類のもので,今後この条件を乗り越える派生語が誕生する可能性を否定するものではない.だが,大雑把にいって下の地図の円内が,接尾辞 -i にとって prototype たる地域であると言える.円から外れる可能性はあるが,遠く外れれば外れるほど -i が適用される可能性は低くなると考えられる.

Geographical Area for Suffix -i

 以上,Bauer (254) に示されている見解を解説して視覚化してみたが,prototype 理論を -i が付加されうる地理的領域へ適用したという発想がおもしろいと思った.

 ・Bauer, Laurie. English Word-Formation. Cambridge: CUP, 1983. 253--55.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow