hellog〜英語史ブログ

#3421. 英語ことわざの文体・語彙的特徴を示す統計値[proverb][statistics][corpus][stylistics]

2018-09-08

 「#3419. 英語ことわざのキーワード」 ([2018-09-06-1]) と「#3420. キーワードを含む英語ことわざ」 ([2018-09-07-1]) に引き続き,英語ことわざの話題.安藤邦男(著)『ことわざから探る 英米人の知恵と考え方』の紹介ページより取り出した866件の英語ことわざについて,その文体的・語彙的な特徴を数字で示してみたい.特徴を浮き彫りにするには,英語ことわざコーパスを,より大きな一般的なコーパスと比較する必要があるので,昨日と同様に100万語規模の British English 06 (BE06) を使用した.結果として,次のような基本的な統計値が得られた.  *  *

CorpusProverbsBE06
tokens (running words) in text6,2761,011,020
types (distinct words)1,61645,298
type/token ratio (TTR)25.754.48
standardised TTR45.2543.90
STTR std.dev.46.4254.62
STTR basis1,0001,000
mean word length (in characters)4.094.69
word length std.dev.1.922.58
sentences86953,466
mean (in words)7.2218.91
std.dev.2.8614.38
1-letter words29238,775
2-letter words1,020168,273
3-letter words1,345205,211
4-letter words1,370166,961
5-letter words996110,856
6-letter words55388,195
7-letter words35979,174
8-letter words16356,645
9-letter words9639,767
10-letter words5326,170
11-letter words1715,493
12-letter words68,208
13-letter words44,557
14-letter words11,687
15-letter words1623


 見るべき点として,まず "type/token ratio" を指摘しておこう.この数値が高いほど,コーパス内で異なる語が多く用いられていると解釈できる.純粋に数値を見ると,一般コーパスよりもことわざコーパスのほうが高い値を示しており,語彙が多様であると解釈できそうだが,「#2336. Text Analyser --- 簡易テキスト統計分析器」 ([2015-09-19-1]) で示したように,コーパスサイズが互いに大きく異なるので,この指標単独ではそれほど情報量はない.
 "mean word length" と "word length std.dev." は1語当たりの文字数である.両コーパス間の違いはそれほど大きくないが,示唆的ではある.ことわざコーパスのほうが一般コーパスよりも,より短い綴字の単語を好むと解釈できるが,どんなものだろうか.確かに,いたずらに長い単語は一般コーパスよりも出にくいようには感じられる.
 最もなるほどと感じさせられるのは,1文がいくつの単語から成り立っているかを示す "mean (in words)" とその "std.dev." だろう.これらの数値もコーパスサイズに依存するとはいえ,ことわざでは平均して7.22語,一般では18.91語というのは,差が歴然としている.標準偏差も合わせて考えると,ことわざを構成する1文は全体的に短いことが分かる.「短く,語呂がよくてなんぼ」というのが,ある意味ではことわざの形式的な特徴でもあるから,この結果はまったく不思議ではないが,こうして客観的に数値を目の当たりにするとおもしろい.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow