hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 3 4 5 6 7 8 次ページ / page 1 (8)

statistics - hellog〜英語史ブログ

最終更新時間: 2019-07-19 09:36

2018-09-08 Sat

#3421. 英語ことわざの文体・語彙的特徴を示す統計値 [proverb][statistics][corpus][stylistics]

 「#3419. 英語ことわざのキーワード」 ([2018-09-06-1]) と「#3420. キーワードを含む英語ことわざ」 ([2018-09-07-1]) に引き続き,英語ことわざの話題.安藤邦男(著)『ことわざから探る 英米人の知恵と考え方』の紹介ページより取り出した866件の英語ことわざについて,その文体的・語彙的な特徴を数字で示してみたい.特徴を浮き彫りにするには,英語ことわざコーパスを,より大きな一般的なコーパスと比較する必要があるので,昨日と同様に100万語規模の British English 06 (BE06) を使用した.結果として,次のような基本的な統計値が得られた.  *  *

CorpusProverbsBE06
tokens (running words) in text6,2761,011,020
types (distinct words)1,61645,298
type/token ratio (TTR)25.754.48
standardised TTR45.2543.90
STTR std.dev.46.4254.62
STTR basis1,0001,000
mean word length (in characters)4.094.69
word length std.dev.1.922.58
sentences86953,466
mean (in words)7.2218.91
std.dev.2.8614.38
1-letter words29238,775
2-letter words1,020168,273
3-letter words1,345205,211
4-letter words1,370166,961
5-letter words996110,856
6-letter words55388,195
7-letter words35979,174
8-letter words16356,645
9-letter words9639,767
10-letter words5326,170
11-letter words1715,493
12-letter words68,208
13-letter words44,557
14-letter words11,687
15-letter words1623


 見るべき点として,まず "type/token ratio" を指摘しておこう.この数値が高いほど,コーパス内で異なる語が多く用いられていると解釈できる.純粋に数値を見ると,一般コーパスよりもことわざコーパスのほうが高い値を示しており,語彙が多様であると解釈できそうだが,「#2336. Text Analyser --- 簡易テキスト統計分析器」 ([2015-09-19-1]) で示したように,コーパスサイズが互いに大きく異なるので,この指標単独ではそれほど情報量はない.
 "mean word length" と "word length std.dev." は1語当たりの文字数である.両コーパス間の違いはそれほど大きくないが,示唆的ではある.ことわざコーパスのほうが一般コーパスよりも,より短い綴字の単語を好むと解釈できるが,どんなものだろうか.確かに,いたずらに長い単語は一般コーパスよりも出にくいようには感じられる.
 最もなるほどと感じさせられるのは,1文がいくつの単語から成り立っているかを示す "mean (in words)" とその "std.dev." だろう.これらの数値もコーパスサイズに依存するとはいえ,ことわざでは平均して7.22語,一般では18.91語というのは,差が歴然としている.標準偏差も合わせて考えると,ことわざを構成する1文は全体的に短いことが分かる.「短く,語呂がよくてなんぼ」というのが,ある意味ではことわざの形式的な特徴でもあるから,この結果はまったく不思議ではないが,こうして客観的に数値を目の当たりにするとおもしろい.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.

[ | 固定リンク | 印刷用ページ ]

2018-09-06 Thu

#3419. 英語ことわざのキーワード [proverb][keyword][statistics][corpus]

 今年6月に開拓社より出版された安藤邦男(著)『ことわざから探る 英米人の知恵と考え方』の紹介ページに,同著で言及された英語ことわざの索引や,その他の関連するリストが公開されている.こちらから英語のことわざ866件を取り出し,簡単にキーワード分析してみた.  *
 一般的な参照コーパスとして,British English 06 (BE06) を指定した.このコーパスについては「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で紹介しているが,端的にいえば2006年(頃)に出版されたイギリス英語の諸テキストからなる100万語規模のコーパスである.計算の結果,キーワード度数の高かった順に50の単語を挙げよう.  *

is, makes, good, man, cannot, a, never, you, love, wise, better, thief, devil, ill, than, fool, horse, no, truth, fortune, sweet, adversity, evil, make, shall, travels, friend, every, don't, beauty, knows, not, money, neighbor, speak, words, will, worth, fair, hath, best, blind, deceives, dog, longest, comes, honor, man's, great, bread


 上位語には機能語も多く入っているが,ことわざの文体の雰囲気をよく示しているように思われ,興味深い.cannot, never, you, than, no, shall, every, don't, not, hath などは,いかにもことわざと似合う機能語である.
 それに劣らず内容語のラインナップもおもしろい.動詞では make, know, deceive というのがいかにもだし,名詞では man, thief, devil, fool, horse, truth, fortune, adversity, evil, friend, beauty, money, neighbor, words, dog, honor, bread など,思わず首肯してしまうものばかりだ.形容詞や副詞では,good, better, best, ill はもちろんのこと,wise, fair, blind, longest などには納得させられる.善悪,真偽,賢愚の対比や比較により,道徳上・生活上の知恵を授けるという英語ことわざの本質が見えてくるようなキーワードだ.
 このような文体に関わるキーワード分析は,極めて客観的でありながら,往々にして直観に適う結果が出る(あるいはそれ以上に発見がある)という点でおもしろい.ほかにも,「いかにもなキーワード」シリーズの記事として,「#317. 拙著で自分マイニング(キーワード編)」 ([2010-03-10-1]),「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]),「#880. いかにもイギリス英語,いかにもアメリカ英語の単語」 ([2011-09-24-1]),「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.歴史英語の通時的なキーワード分析については,初期中英語コーパス LAEME を利用した Hotta (2013) 論文もある.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.
 ・ Hotta, Ryuichi. "Representativeness, Word Frequency, and Keywords in the LAEME Corpus." Journal of the Faculty of Letters: Language, Literature and Culture 112 (2013): 67--84.

Referrer (Inside): [2018-09-08-1] [2018-09-07-1]

[ | 固定リンク | 印刷用ページ ]

2018-08-18 Sat

#3400. 英語の中核語彙に借用語がどれだけ入り込んでいるか? [loan_word][borrowing][lexicology][semantics][oed][htoed][statistics]

 英語語彙における借用語の割合が高いことは,本ブログの多くの記事で取り上げてきた.この事実に関してとりわけ注目すべき質的な特徴として,借用語が基本語彙にまで入り込んできているという点が挙げられる(例えば「#2625. 古ノルド語からの借用語の日常性」 ([2016-07-04-1]) を参照).諸言語の比較研究によれば,借用語が基本語彙に入り込むという事例は,非常に稀かといえばそうでもなく,ある程度は観察されるのも事実であり,従来しばしば指摘されてきたように,英語がきわめて特異であると評価することはもはやできない.とはいえ,そのような事例が通言語的には "unusual" (Durkin 391) であるというのも傾向としては確かである.
 Durkin は,標記の問いに答えるべく OEDHTOED を用いて実証的な調査を行なった.まず,'Leipzig-Jakarta list of basic vocabulary' と呼ばれる通言語的に有効とされる基本語彙のリストを参照し,そこから100の核心的な意味を取り出す.次に,その各々の意味が,英語語彙史においてどのような単語(群)によって担われてきたかを両辞書によって同定し,その単語の語源情報(借用語か否かなどの詳細)を記録・整理していく.そして,現在,借用語が100の核心的な意味のどれくらいをカバーしているのかを割り出す.その結果は,Durkin (392) によれば次の通り.

To summarize the results of this exercise very briefly . . ., looking in detail at the 100-meaning 'Leipzig-Jakarta list of basic vocabulary' in this way suggests that, while only twenty-two of these meanings appear never to have been realized by a loanword in the data of the OED as summarized in the HTOED, there are only twelve cases where a good case can be made for a loanword being the usual realization of the relevant core meaning in contemporary English:

   (from early Scandinavian): root, wing, hit, leg, egg, give, skin, take; (from French): carry, soil, cry, (probably) crush


 見方を変えれば,100の核心的な意味のうち78までが,部分的であれ何らかの借用語によって担われているということだ.ここから,借用語が幅広く核心的な意味領域を覆っているということが分かる.しかし,その借用語が,そのような核心的な意味領域を表わす単語群のなかでも典型的・代表的な語であるかどうかは別問題であり,そのような数え方をすると,上記の12語ほどに限定されるということだ.
 もっとも,語彙や意味について何をもって「核心」や「基本」とみなすのかは難しい問題であり,それによって結果の数値も変わり得ることはいうまでもない.この問題その他について,以下のような記事で様々に取り上げてきたので参照を.

 ・ 「#1128. glottochronology」 ([2012-05-29-1])
 ・ 「#1961. 基本レベル範疇」 ([2014-09-09-1])
 ・ 「#1965. 普遍的な語彙素」 ([2014-09-13-1])
 ・ 「#1970. 多義性と頻度の相関関係」 ([2014-09-18-1])
 ・ 「#2659. glottochronology と lexicostatistics」 ([2016-08-07-1])
 ・ 「#2660. glottochronology と基本語彙」 ([2016-08-08-1])
 ・ 「#2661. Swadesh (1952) の選んだ言語年代学用の200語」 ([2016-08-09-1])

 ・ 「#308. 現代英語の最頻英単語リスト」 ([2010-03-01-1])
 ・ 「#202. 現代英語の基本語彙600語の起源と割合」 ([2009-11-15-1])
 ・ 「#429. 現代英語の最頻語彙10000語の起源と割合」 ([2010-06-30-1])
 ・ 「#845. 現代英語の語彙の起源と割合」 ([2011-08-20-1])
 ・ 「#1202. 現代英語の語彙の起源と割合 (2)」 ([2012-08-11-1])

 ・ Durkin, Philip. "The OED and HTOED as Tools in Practical Research: A Test Case Examining the Impact of Loanwords in Areas of the Core Lexicon." The Cambridge Handbook of English Historical Linguistics. Ed. Merja Kytö and Päivi Pahta. Cambridge: CUP, 2016. 390--407.

Referrer (Inside): [2018-08-19-1]

[ | 固定リンク | 印刷用ページ ]

2018-07-21 Sat

#3372. 古英語と中英語の資料の制約について数点のメモ [oe][me][philology][manuscript][statistics][representativeness][methodology]

 「#1264. 歴史言語学の限界と,その克服への道」 ([2012-10-12-1]),「#2865. 生き残りやすい言語証拠,消えやすい言語証拠――化石生成学からのヒント」 ([2017-03-01-1]) で取り上げてきたが,歴史言語学には資料の限界という,いかんともしがたい問題がある.質量ともに望むほどのものが残っていてくれないのが現実である.児馬 (29) は,『歴史言語学』のなかの「古英語資料の留意点:量的・質的制約」という節において次のように述べている.

歴史言語学では現存する資料が最重要であることはいうまでもない.現代の言語を研究対象とするのであれば,文字資料・録音資料に加えて,話者の言語直観・内省などの言語心理学的資料も含めて実に豊富な資料を使えるのであるが,歴史言語学ではそうは簡単にならない.古い時代の資料を使うことが多い分野なので,この種の限界は当然のように思えるが,実際は,想像以上に厳しい制約があるのを認識しなければならない.特に扱う資料が古ければ古いほど厳しいものがあり,英語史では,特にOE資料の限界についてはよく認識したうえで,研究を進めていかなくてはならない.


 具体的にどれくらいの制約があるのかを垣間見るために,古英語と中英語の資料について児馬が触れている箇所を数点メモしておこう.

 ・ 古英語期の写本に含まれる語数は約300万語で,文献数は約2000である.部分的にはヴァイキングによる破壊が原因である.この量はノルマン征服以降の約200年間に書かれた中英語の資料よりも少ない.(29)
 ・ とくに850年以前の資料で残っているものは,4つのテキストと35ほどの法律文書・勅許上などの短い公的文書が大半である.(29)
 ・ 古英語資料の9割がウェストサクソン方言で書かれた資料である.(31)
 ・ 自筆資料 (authorial holograph) は非常に珍しく,中英語期でも Ayenbite of Inwit (1340年頃),詩人 Hoccleve (1370?--1450?) の書き物,15世紀ノーフォークの貴族の手による書簡集 Paston Letters やその他の同時期の書簡集ほどである.(34)

 英語史における資料の問題は非常に大きい.文献学 (philology) や本文批評 (textual criticism) からのアプローチがこの分野で重要視される所以である.
 関連して「#1264. 歴史言語学の限界と,その克服への道」 ([2012-10-12-1]),「#2865. 生き残りやすい言語証拠,消えやすい言語証拠――化石生成学からのヒント」 ([2017-03-01-1]),「#1051. 英語史研究の対象となる資料 (1)」 ([2012-03-13-1]),「#1052. 英語史研究の対象となる資料 (2)」 ([2012-03-14-1]) も参照.

 ・ 児馬 修 「第2章 英語史概観」服部 義弘・児馬 修(編)『歴史言語学』朝倉日英対照言語学シリーズ[発展編]3 朝倉書店,2018年.22--46頁.

[ | 固定リンク | 印刷用ページ ]

2018-03-30 Fri

#3259. 17世紀に作られた動詞派生名詞群の呈する問題 (2) [synonym][loan_word][borrowing][renaissance][inkhorn_term][emode][lexicology][word_formation][suffix][affixation][neologism][derivation][statistics]

 昨日の記事 ([2018-03-29-1]) の続編.昨日示した Bauer からの動詞派生名詞のリストでは,-ment や -ure の接尾辞の存在が目立っていた.17世紀の名詞を作る接尾辞にどのような種類のものがあり,それぞれがいくつの名詞を作っていたのだろうか.これについても,Bauer (185) が OED に基づいて統計をとっている.結果は以下の通り.

SuffixNumber
-y2
-ery8
-ancy10
-ency10
-ence18
-ion20
-ance49
-al56
-ure96
-ation190
-ment258


 トップ数種類の接尾辞が大半をカバーしていることから,頻度の高い「典型的な」接尾辞があることは確かにわかる.しかし,典型的な接尾辞が少数あるということで,問題が解決することにはならない.これらの典型的な接尾辞を含めた複数種類の接尾辞が,同一の基体に接続し得たということ,そして実際にそのように造語され併用されたという状況こそが,問題だったである.
 昨日の記事で触れたように,Bauer はこの問題を新語のニーズに関わる複雑さに帰しているが,それと関連して,生産的な派生に対して非生産的な派生への需要も常に存在するものだという主張を展開している.

. . . there is a constant application of unproductive morphology in order to solve problems provided by productive morphology, so that the language is continually having new words added to it which are not the forms which would be the predicted ones, as well as a number of predicted forms. That is, the processes of history add irregularities (which are available to turn into regularities if enough of them are coined). History, rather than simplifying matters (or rather than merely simplifying matters), reflects a process of building in extra complications.


 言語使用者の新語への要求は,必ずしも生産的な派生が与えてくれる手段とその結果だけでは満たされないほどに複雑で精妙なのだろう.そこで,あえて非生産的な派生の手段を用いて,不規則な派生語を作り出すこともあるのかもしれない.現代の歴史言語学者は,過去に生きた言語使用者の,そのような複雑で精妙な造語心理にどこまで迫れるのだろうか.困難ではあるがエキサイティングなテーマである.

 ・ Bauer, Laurie. "Competition in English Word Formation." Chapter 8 of The Handbook of the History of English. Ed. Ans van Kemenade and Bettelou Los. Malden, MA: Blackwell, 2006. 177--98.

Referrer (Inside): [2018-06-27-1]

[ | 固定リンク | 印刷用ページ ]

2018-02-15 Thu

#3216. ドーキンスと言語変化論 (2) [glottochronology][evolution][biology][language_change][comparative_linguistics][history_of_linguistics][speed_of_change][statistics]

 昨日の記事 ([2018-02-14-1]) に引き続き,ドーキンスの『盲目の時計職人』で言語について言及している箇所に注目する.今回は,ドーキンスが,言語の分岐と分類について,生物の場合との異同を指摘しながら論じている部分を取りあげよう (348--49) .

言語は何らかの傾向を示し,分岐し,そして分岐してから何世紀か経つにつれて,だんだんと相互に理解できなくなってしまうので,あきらかに進化すると言える.太平洋に浮かぶ多くの島々は,言語進化の研究のための格好の材料を提供している.異なる島の言語はあきらかに似通っており,島のあいだで違っている単語の数によってそれらがどれだけ違っているかを正確に測ることができよう.この物差しは,〔中略〕分子分類学の物差しとたいへんよく似ている.分岐した単語の数で測られる言語間の違いは,マイル数で測られる島間の距離に対してグラフ上のプロットされうる.グラフ上にプロットされた点はある曲線を描き,その曲線が数学的にどんな形をしているかによって,島から島へ(単語)が拡散していく速度について何ごとかがわかるはずだ.単語はカヌーによって移動し,当の島と島とがどの程度離れているかによってそれに比例した間隔で島に跳び移っていくだろう.一つの島のなかでは,遺伝子がときおり突然変異を起こすのとほとんと同じようにして,単語は一定の速度で変化する.もしある島が完全に隔離されていれば,その島の言語は時間が経つにつれて何らかの進化的な変化を示し,したがって他の島の言語からなにがしか分岐していくだろう.近くにある島どうしは,遠くにある島どうしに比べて,カヌーによる単語の交流速度があきらかに速い.またそれらの島の言語は,遠く離れた島の言語よりも新しい共通の祖先をもっている.こうした現象は,あちこちの島のあいだで観察される類似性のパターンを説明するものであり,もとはと言えばチャールズ・ダーウィンにインスピレーションを与えた,ガラパゴス諸島の異なった島にいるフィンチに関する事実と密接なアナロジーが成り立つ.ちょうど単語がカヌーによって島から島へ跳び移っていくように,遺伝子は鳥の体によって島から島へ跳び移っていく.


 実際,太平洋の島々の諸言語間の関係を探るのに,統計的な手法を用いる研究は盛んである.太平洋から離れて印欧語族の研究を覗いても,ときに数学的な手法が適用されてきた(「#1129. 印欧祖語の分岐は紀元前5800--7800年?」 ([2012-05-30-1]) を参照).Swadesh による言語年代学も,おおいに批判を受けてきたものの,その洞察の魅力は完全には失われていないように見受けられる(「#1128. glottochronology」 ([2012-05-29-1]) や glottochronology の各記事を参照).近年のコーパス言語学の発展やコンピュータの計算力の向上により,語彙統計学 (lexicostatistics) という分野も育ってきている.生物学の方法論を言語学にも応用するというドーキンスの発想は,素直でもあるし,実際にいくつかの方法で応用されてきてもいるのである.
 関連して,もう1箇所,ドーキンスが同著内で言語の分岐を生物の分岐になぞらえている箇所がある.しかしそこでは,言語は分岐するだけではなく混合することもあるという点で,生物と著しく相違すると指摘している (412) .

言語は分岐するだけではなく,混じり合ってしまうこともある.英語は,はるか以前に分岐したゲルマン語とロマンス語の雑種であり,したがってどのような階層的な入れ子の図式にもきっちり収まってくれない.英語を囲む輪はどこかで交差したり,部分的に重複したりすることがわかるだろう.生物学的分類の輪の方は,絶対にそのように交差したりしない.主のレベル以上の生物進化はつねに分岐する一方だからである.


 生物には混合はあり得ないという主張だが,生物進化において,もともと原核細胞だったミトコンドリアや葉緑体が共生化して真核細胞が生じたとする共生説が唱えられていることに注意しておきたい.これは諸言語の混合に比較される現象かもしれない.

 ・ ドーキンス,リチャード(著),中嶋 康裕・遠藤 彰・遠藤 知二・疋田 努(訳),日高 敏隆(監修) 『盲目の時計職人 自然淘汰は偶然か?』 早川書房,2004年.

Referrer (Inside): [2018-02-16-1]

[ | 固定リンク | 印刷用ページ ]

2018-01-10 Wed

#3180. 徐々に高頻度語の仲間入りを果たしてきたフランス・ラテン借用語 [french][latin][loan_word][borrowing][frequency][statistics][lexicology][hc][bnc]

 英語史では,中英語から初期近代英語にかけて,フランス語とラテン語から大量の語彙借用がなされた.それらのうち現在常用されるものについては,おそらく借用時点からスタートして時間とともに使用頻度が増してきたものと想像される.というのは,借用された当初から高頻度で用いられたとは考えにくく,徐々に英語に同化し,日常化してきたととらえるのが自然だからだ.
 この仮説を実証するのにいくつかの方法がありそうだが,Durkin があるやり方で調査を行なっている.中英語,初期近代英語,現代英語のそれぞれにおいてコーパスに基づく最高頻度語リストを作り,そのなかにフランス・ラテン借用語がどのくらいの割合で含まれているかを調べ,その割合の通時的推移を比較するという手法だ.古い時代のコーパスでは綴字の変異という問題が関わるため,厳密に調査しようとすれば単純にはいかないが,Durkin はとりあえずの便法として,中英語と初期近代英語については Helsinki Corpus の 1150--1500年と1500--1710年のセクションを用いて,現代英語については BNC を用いて異綴字ベースで調査した.それぞれ頻度ランキングにして900--1000位ほどまでの単語(綴字)リストを作り,そのなかでフランス・ラテン語借用語が占める割合をはじき出した.
 結果は,中英語セクションでは7%ほどだったものが,初期近代英語セクションでは19%まで上昇し,さらに現代英語セクションでは38%までに至っている.粗い調査であることは認めつつも,フランス・ラテン借用語で現在頻用されているものの多くについては,歴史のなかで徐々に頻度を上げてきた結果として,現在の日常的な性格を示すことがよくわかった.
 さらにおもしろいことに,初期近代英語のセクション(1500--1710年)に関する数値について,高頻度語リストに含まれるフランス・ラテン借用語のすべてが1500年より前に借用されたものであり,しかもその2/3ほどは確実にフランス借用語であるという事実が確認される (Durkin 338--39) .
 また,中英語と初期近代英語の高頻度語リストに含まれるフランス・ラテン借用語の多くが,現代英語の高頻度語リストにも再現されている事実にも触れておこう.古い2期には現われるが現代期からは漏れている語群を眺めると,なんとも時代の変化を感じさせてくれる.例えば,honour, justice, manner, noble, parliament, pray, prince, realm, religion, supper, treason, usury, virtue である (Durkin 340) .
 時代によって最頻語リストやキーワードが異なることは当然といえば当然だが,歴史英語コーパスを用いて様々な時代を比較してみるとおもしろそうだ.例えば,初期近代英語コーパスに基づくキーワード・リストについて「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.また,頻度と歴史の問題については「#1243. 語の頻度を考慮する通時的研究のために」 ([2012-09-21-1]) も参照されたい.

 ・ Durkin, Philip. Borrowed Words: A History of Loanwords in English. Oxford: OUP, 2014.

[ | 固定リンク | 印刷用ページ ]

2018-01-04 Thu

#3174. 高頻度語はスペリングが短い (2) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

 昨日の記事 ([2018-01-03-1]) と同じ頻度とスペリングの長さに関するデータを,もう少し分析してみた.以下は,頻度ランキングのトップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について,それぞれ最低値,第1四分位数,中央値,平均値,第3四分位数,最大値を示した表である.英語の正書法を論じる上での基礎データとしてどうぞ.

 Min.1st Qu.MedianMean3rd Qu.Max.
Top_1001.02.03.03.14.05.0
Top_2001.003.004.003.774.0010.00
Top_5001.0004.0004.0004.4985.00010.000
Top_1K 1.0004.0005.0004.9686.00015.000
Top_2K 1.0004.0005.0005.4067.00015.000
Top_5K 1.0005.0006.0006.0147.00016.000
Top_10K1.0005.0006.0006.4888.00016.000
Top_20K1.0005.0007.0006.9548.00017.000
Top_50K1.0006.0007.0007.6229.00020.000


 これをもとに視覚化したのが,以下の箱ひげ図.

Boxplot for Length of Spelling of High-Frequency Words by SUBTLEXus


 当然予想されたことだが,語数が増えるにしたがってスペリングの平均の長さは徐々に大きくなっていき,バラツキも広がっていく.しかし,トップ数万語でみても平均して7文字程度となっており,さほど長くないのだなという印象を受けた.

[ | 固定リンク | 印刷用ページ ]

2018-01-03 Wed

#3173. 高頻度語はスペリングが短い (1) [frequency][spelling][orthography][zipfs_law][statistics][lexicology][corpus]

 標題は特に目新しい指摘ではなく,英語を読み書きする者には直感されていることだと思われる.「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]) や「#1102. Zipf's law と語の新陳代謝」 ([2012-05-03-1]) でも指摘したように,よく読み書きする単語のスペリングは短いほうが効率がよいと考えられるからだ.逆に,滅多に読み書きしない単語であれば少々長くても我慢できる.単語のスペリングに限らず,単語の音形についても同様の原理が作用していると思われる.
 また,英語の正書法には内容語は3文字以上で綴られなければならないという「#2235. 3文字規則」 ([2015-06-10-1]) がある.これは機能語という頻度のきわめて高い語類については適用されない.したがって,この規則は上記の効率の問題とも関わる実用的な側面をもつといえる.
 高頻度語であればあるほど,そのスペリングが平均的に短いことを示す方法の1つに,頻度ランキングのトップ100語,1000語,10000語などのリストに基づき,文字数別に単語を数え上げるというやり方がある.「#2096. SUBTLEX-US Word Frequency List」 ([2015-01-22-1]) から引き出した頻度ランキングを利用して,トップ100語,200語,500語,1000語,2000語,5000語,10000語,20000語,50000語について調査した.トップ100語のリストについては先の記事でリストを掲載している通りであり,なかには s, ll などコーパスの仕様に由来するとおぼしき怪しい「語」もあるが,結果の大勢には影響を及ぼさないだろう.
 以下にグラフで整理した通り,結果は明白である(数値データはソースHTMLを参照).トップ100語の超高頻度語群では62.00%までが3文字以下のスペリングである.3文字以下の割合(下から3つ分のオレンジの帯まで)ということで比べていくと,トップ200語から50000語の調査結果まで,順に41.50%, 24.60%, 17.00%, 12.65%, 8.06%, 6.01%, 4.55%, 3.20%と目減りしていく.

Length of Spelling of High-Frequency Words by SUBTLEXus

Referrer (Inside): [2018-01-04-1]

[ | 固定リンク | 印刷用ページ ]

2017-12-31 Sun

#3170. 現代日本語の語種分布 (2) [japanese][lexicology][statistics][etymology][loan_word][lexical_stratification]

 「#1645. 現代日本語の語種分布」 ([2013-10-28-1]) の記事で,標題について明治から昭和にかけて出版された国語辞典に基づく数値を示した.今回は平成からの数値を示そう.沖森ほか (71) に掲載されている,『新選国語辞典 第八版』(小学館,2002年)に基づいた語種分布である.

『新選国語辞典 第八版』(小学館,2002年)に基づいた語種分布

和語漢語外来語混種語
割合33.8%49.1%8.8%8.4%
語数24,708語35,928語6,415語6,130語


 先の記事 ([2013-10-28-1]) で参照した,国立国語研究所『語彙の研究と教育(上)』(大蔵省印刷局,1984年)の雑誌90種に基づく異なり語数と延べ語数の統計も,改めて円グラフにして示そう(こちらも沖森ほか (79) 経由で).

雑誌90種に基づく現代の語種分布(異なり語数)

和語漢語外来語混種語
割合36.7%47.5%9.8%6.0%
語数11,134語14,407語2,964語1,826語

雑誌90種に基づく現代の語種分布(延べ語数)

和語漢語外来語混種語
割合53.9%41.3%2.9%1.9%
語数221,875語170,033語12,034語8,030語


 ・ 沖森 卓也,木村 義之,陳 力衛,山本 真吾 『図解日本語』 三省堂,2006年.

[ | 固定リンク | 印刷用ページ ]

2017-11-23 Thu

#3132. 暗号学と言語学 (2) [cryptology][linguistics][statistics][chaos_theory][information_theory]

 最近,言語学とカオス理論 (chaos_theory) について少し調べているが,フラクタル図形「マンデルブロー集合」 (Mandelbrot set) で知られる数学者 Benoît Mandelbrot (1924--2010) が,情報理論や言語学に関する論考を著わしていることを知った(「マンデルブロー集合」については「#3123. カオスとフラクタル」 ([2017-11-14-1]) を参照).
 Mandelbrot はその論考で,暗号学 (cryptology) と言語学の接点という話題にも触れている.本ブログでも「#2699. 暗号学と言語学」 ([2016-09-16-1]) の記事で,両分野の密接な関係について考えたことがあったので,ここで再び取り上げたい.その記事の第2段落で述べたことと Mandelbrot (552) の次の1節は,よく符合する.

. . . let us grant for the moment that the encoding and decoding machines may be as complicated as the designer may wish, and that the memory of the human links---using the common sense of the word "memory"---is unbounded. Under those ideal circumstances, it is obvious that any improvement of our understanding of the structure of language and of discourse will bring a possibility of improvement of the performance of the cryptographer or stenographer. For example, a knowledge of the rules of grammar will show that a given phrase will never be encountered in grammatically correct discourse; thus, if his employer were to speak only grammatical English, a stenographer would not need any special set of signs to designate the incorrect sentences. Similarly, a knowledge of the statistics of discourse will suggest that the "cliché" be represented by special short signs; in this way, the stenogram will be shortened and---since deciphering is very much helped by cliché---the code will be strengthened. That is, the ideal cryptographer and stenographer should make the utmost use of any available linguistic information.


 暗号作成者は,言語の性質を知っていればいるほど,その性質の裏をかいた暗号文を作成できるし,逆に暗号解読者も,言語の性質を知っていればいるほど,そのように裏をかかれる可能性を減らすことができる.この意味で,暗号学は舞台を変えた言語学ともいえるのである.

 ・ Mandelbrot, Benoît. "Information Theory and Psycholinguistics." Scientific Psychology: Principles and Approaches. Ed. Benjamin B. Wolman and Ernest Nagel. New York: Basic Books, 1965. 550--62.

[ | 固定リンク | 印刷用ページ ]

2017-09-14 Thu

#3062. 1665年のペストに関する Samuel Pepys の記録 [black_death][pepys][literature][history][demography][statistics]

 17世紀のイングランドの海軍大臣 Samuel Pepys (1633--1703) は,1660--69年ロンドンでの出来事を記録した日記 The Diary of Samuel Pepys で知られる.1665--66年にロンドンを襲った腺ペスト (The Great Plague) についても,不安をもって記録している.関連する箇所をいくつか抜き出そう.

Sunday 30 April 1665 . . . . Great fears of the sickenesse here in the City, it being said that two or three houses are already shut up. God preserve as all!


Sunday 7 June 1665 . . . . This day, much against my will, I did in Drury Lane see two or three houses marked with a red cross upon the doors, and "Lord have mercy upon us" writ there; which was a sad sight to me, being the first of the kind that, to my remembrance, I ever saw. It put me into an ill conception of myself and my smell, so that I was forced to buy some roll-tobacco to smell to and chaw, which took away the apprehension.


Sunday 10 June 1665 . . . . In the evening home to supper; and there, to my great trouble, hear that the plague is come into the City (though it hath these three or four weeks since its beginning been wholly out of the City) . . . .


Saturday 16 September 1665 . . . . At noon to dinner to my Lord Bruncker, where Sir W. Batten and his Lady come, by invitation, and very merry we were, only that the discourse of the likelihood of the increase of the plague this weeke makes us a little sad, but then again the thoughts of the late prizes make us glad.


 上の3つめの引用にあるとおり,ペストがシティに入ってきたのは6月10日頃である.6月下旬には,ロンドン市長と市参事会の連名でペスト条例が公布されている.当時のロンドンの人口は25万人ほどという説があるが,その1/5ほどがわずか1年のあいだに腺ペストに倒れたというから,その勢いは凄まじい(蔵持,pp. 219--226).ペストは翌1666年には下火になっていたものの,くすぶってはいた.ペストが完全に制圧されたのは,皮肉にも9月2日のロンドン大火によってだった.その日の Pepys の日記 (Sunday 2 September 1666) も参照されたい.

 ・ 蔵持 不三也 『ペストの文化誌 ヨーロッパの民衆文化と疫病』 朝日新聞社〈朝日選書〉,1995年.

[ | 固定リンク | 印刷用ページ ]

2017-08-24 Thu

#3041. 近現代における semicolon の盛衰 [punctuation][statistics]

 昨日の記事「#3040. 古英語から中英語にかけて用いられた「休止」を表わす句読記号」 ([2017-08-23-1]) に引き続き,句読記号 (punctuation) の話題.<;> (semicolon) は,「#2666. 初期近代英語の不安定な句読法」 ([2016-08-14-1]) で触れたように,16世紀後半になってようやく用いられるようになった新参者である.その後,句読記号を多用する "heavy style" 好みの18世紀にはおおいに活躍したが,現代にかけて衰退してきている.近現代にほける semicolon の盛衰に関して,Crystal (207) の文章が興味深い.

It's often been reported that the semicolon is going out of fashion, and the evidence (from the study of large collections of written material) does support a steady drop in frequency during the twentieth century. (They're much more common in British English than American English.) A typical finding is to see that 90 per cent of all punctuation marks are either periods or commas, and semicolons are just a couple of percent. The figure was much higher once. The semicolon had its peak in the eighteenth century, when long sentences were thought to be a feature of an elegant style, heavy punctuation was in vogue, and punctuation was becoming increasingly grammatical. The rot set in during the nineteenth century, when the colon became popular, and took over some of the semicolon's functions. The economics of the telegraph (the shorter the message, the cheaper) fostered short sentences. And today it has virtually disappeared from styles where sentences tend to be short, such as on the Internet.


 最近の日本でも,Twitter などの影響で,単純な思考を短文で書くことしかできず,まとまった思考を長文で書くことができない人が増えているというコメントが聞かれるが,それと連動して文章を書くスタイルや用いられる句読記号の種類や頻度も変化するというのは確かにありそうである.semicolon という,ある意味で中途半端な句読記号の盛衰を追うことによって,むしろ各々の時代の文章スタイルの特徴が浮き彫りになるというのはおもしろい.今後,semicolon は限定されたテキストタイプでしかお目にかからないレアな句読記号になっていく可能性もありそうだ.

 ・ Crystal, David. Making a Point: The Pernickety Story of English Punctuation. London: Profile Books, 2015.

[ | 固定リンク | 印刷用ページ ]

2017-07-23 Sun

#3009. 母語話者数による世界トップ25言語(2017年版) [statistics][world_languages][demography][japanese]

 「#397. 母語話者数による世界トップ25言語」 ([2010-05-29-1]) を書いてから7年の年月が経った.Ethnologue (20th ed) の最新版が出たので,Summary by language size の表3により,母語話者数による世界トップ23言語の最新ランキングを示したい.

RankLanguagePrimary CountryCountriesSpeakers (20th ed, 2017)Speakers (16th ed, 2009)(13th ed, 1996)
1ChineseChina371,284 million1,2131,123
2SpanishSpain31437329266
3EnglishUnited Kingdom106372328322
4ArabicSaudi Arabia57295221202
5HindiIndia5260182 (242.6 with Urdu)(236 with Urdu)
6BengaliBangladesh4242181189
7PortuguesePortugal13219178170
8RussianRussian Federation19154144288
9JapaneseJapan2128122125
10LahndaPakistan611978.3 
11JavaneseIndonesia384.484.6 
12KoreanKorea777.266.3 
13GermanGermany2776.890.398
14FrenchFrance5376.167.872
15TeluguIndia274.269.8 
16MarathiIndia171.868.1 
17TurkishTurkey871.150.8 
18UrduPakistan669.160.6 
19VietnameseViet Nam368.168.6 
20TamilIndia768.065.7 
21ItalianItaly1363.461.763
22PersianIran3061.9  
23MalayMalaysia1660.839.147


 2009年の16版の統計では2位スペイン語と3位英語の差はごくわずかで事実上のタイだったが,今回のデータによれば,2位のスペイン語が英語を勢いで引き離しにかかっていることがわかる.3位の英語は,むしろ今後は4位のアラビア語に詰め寄られることになりそうだ.
 続くランキングで,9位につけている日本語までは,ここ数年で順位が変わっていないものの,10位だったドイツ語が13位まで順位を落としているのが印象的である.フランス語は,むしろ16位から14位へ若干順位を上げている.
 近い将来,9位につけている日本語が徐々にランキングを下げていくことは必至である.日本以外に母語として使用される国がないこと,また日本の人口減の傾向が主たる要因である.ジャワ語やベトナム語などに肉薄されるのも時間の問題だろう.
 「#274. 言語数と話者数」 ([2010-01-26-1]) で示したように,少数のトップ言語が世界人口の多くを担っているという事態は変わっていないどころか,傾向が加速化している.例えば,上の表の15位までの言語の母語話者の合計は約40億人となり,これは世界人口の6割近くに当たる.うち6言語は国連の公用語であり,これだけで148国をカバーする.言語の寡頭支配ぶりは明らかだろう.

Referrer (Inside): [2017-09-11-1]

[ | 固定リンク | 印刷用ページ ]

2017-06-10 Sat

#2966. 英語語彙の世界性 (2) [lexicology][loan_word][borrowing][statistics][link]

 英語語彙の世界性について,1年ほど前の記事 ([2016-06-24-1]) で様々なリンクを張ったが,その後書き足した記事もあるので,リンク等をアップデートしておきたい.記事を読み進めていけば,英語語彙史の概要が分かる.

1  数でみる英語語彙
  1.1  語彙の規模の大きさ (#898)
  1.2  語彙の種類の豊富さ (##756,309,202,429,845,1202,110,201,384)
  1.3  英語語彙史の概略 (##37,1526,126,45)
2  語彙借用とは?
  2.1  なぜ語彙を借用するのか? (##46,1794)
  2.2  借用の5W1H:いつ,どこで,何を,誰から,どのように,なぜ借りたのか? (#37)
3  英語の語彙借用の歴史 (#1526)
  3.1  大陸時代 (--449)
    3.1.1  ラテン語 (#1437)
  3.2  古英語期 (449--1100)
    3.2.1  ケルト語 (##1216,2443)
    3.2.2  ラテン語 (#32)
    3.2.3  古ノルド語 (##2625,2693,340,818)
    3.2.4  古英語本来語のその後 (##450,2556,648)
  3.3  中英語期 (1100--1500)
    3.3.1  フランス語 (##117,1210)
    3.3.2  ラテン語 (##120,1211)
    3.3.3  中英語の語彙の起源と割合 (#985)
  3.4  初期近代英語期 (1500--1700)
    3.4.1  ラテン語 (##478,114,1226)
    3.4.2  ギリシア語 (#516)
    3.4.3  ロマンス諸語 (##2385,2162,1411,1638)
  3.5  後期近代英語期 (1700--1900) と現代英語期 (1900--)
    3.5.1  語彙の爆発 (##203,616)
    3.5.2  世界の諸言語 (##874,2165,2164)
4  現代の英語語彙にみられる歴史の遺産
  4.1  フランス語とラテン語からの借用語 (#2162)
  4.2  動物と肉を表わす単語 (##331,754)
  4.3  語彙の3層構造 (##334,1296,335,1960)
  4.4  日英語の語彙の共通点 (##1645,296,1630,1067)
5  現在そして未来の英語語彙
  5.1  借用以外の新語の源泉 (##873,874,875)
  5.2  語彙は時代を映し出す (##625,631,876,889)


 英語語彙史を大づかみする上で最重要となる3点を指摘しておきたい.

  (1) 英語語彙史は,英語と他言語の交流の歴史と連動している
  (2) 語彙借用の動機づけは「必要性」のみではない
  (3) 語彙借用により類義語が積み上げられていき,結果として3層構造が生じた

[ | 固定リンク | 印刷用ページ ]

2017-03-12 Sun

#2876. 英語語彙の頻度分布に関する格差上位1%のシェア [lexicology][statistics][frequency][corpus]

 昨日の記事「#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる」 ([2017-03-11-1]) に引き続き,英語語彙頻度の格差について考えてみたい.昨日扱ったジニ係数よりも直感的に格差を認識できる指標として,格差上位1%のシェアというものがある.経済学でいえば,トマス・ピケティも愛用している「トップ富裕層の所得シェア」である.大金持ちがどのくらい金持ちか,という指標と理解すればよい.英語語彙について言えば,生起頻度でトップ1%に入るそれほど多くない語によって,全体のどのくらいのシェアが占められているかを示す指標となる.
 昨日と同じように,総頻度数が81.5万ほどの比較的小規模な GSL の語彙頻度表と,1850万ほどの巨大コーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づく語彙頻度表で計算してみた.トップ1%とトップ0.1%での値は,以下の通り.

 GSLCELEX2
1%47.05%69.36%
0.1%14.60%43.57%


 実際,ここまで高い値になるとは予想していなかった.英語学習という観点からみると,極端な話し,高頻度語のトップ1%を暗記すれば,5〜7割ほどの語が認識できることになる.それでテキストを理解できるかというと,それはまったく別問題ではあるが,語彙学習の効率について再考させられる.
 参考までに,2000年の時点での日米の所得シェアを見てみると,アメリカではトップ0.1%の富裕層が所得全体の7%ほど,日本では2%ほどである(吉川,p. 226).近年,両国ともに格差は開いてきているようだが,さすがに語彙の世界ほどの格差に至ることはないだろう.語彙の社会は,あらためて不平等な社会である.

 ・ 吉川 洋 『人口と日本経済』 中央公論新社〈中公新書〉,2016年.

[ | 固定リンク | 印刷用ページ ]

2017-03-11 Sat

#2875. 英語語彙の頻度分布の格差をジニ係数とローレンツ曲線でみる [lexicology][statistics][frequency][zipfs_law][corpus]

 「#1103. GSL による Zipf's law の検証」 ([2012-05-04-1]) で,General Service List (GSL) の最頻2000語余りの語彙頻度表を用いて,zipfs_law が成立する様子を実演した.頻度順位の高い少数の語がただの高頻度語ではなく超高頻度語であること,一方でそれ以外の大多数の語がおしなべて低頻度語であるということが確認された.このことは,英語(そして,おそらくあらゆる言語)の語彙の頻度分布がきわめて不平等・不均衡であり,大きなばらつきと格差に特徴づけられていることを示すものである.
 このような分布の格差を示す代表的な指標に,イタリアの経済学者ジニが所得や資産の分布の不平等を計測する指標として1936年に考案したジニ係数 (Gini's coefficient) がある.考え方は次の通りだ.X軸に沿って左から右へ最も頻度の低い語から高い語へと順に並べ,その累積頻度のシェアをY軸方向に取っていく.この点をつなげると,何らかの形の右肩上がりの曲線となる.これをローレンツ曲線 (Lorenz curve) という.すべての語が同頻度で現われるときにはローレンツ曲線は45度の右肩上がりの直線となり「完全平等」を示す.逆に,極端な例として,1つの語のみが生起頻度のすべてを占有し,他のすべての語が頻度ゼロの場合に「完全不平等」となり,ローレンツ曲線は左右逆L字型となる.普通は,ローレンツ曲線は,45度の右肩上がりの線の下部に,三日月形の弧として描かれる.ジニ係数は,三日月の面積と,45度の右肩上がりの線を直角の対辺とする直角二等辺三角形の比率として表現される.したがって,値0が完全平等,値1が完全不平等ということになる.
 さて,GSL のデータファイルで計算した結果,ジニ係数は0.812と出た.ローレンツ曲線を描くと,以下のようになる.

Lorenz Curve of Word Frequency from GSL


 明らかに不平等な分布といえる.ちなみに,GSL よりも巨大なコーパスの語彙頻度表を使うと,さらにジニ係数は上がる(例えば,1790万語からなるコーパス「#1424. CELEX2」 ([2013-03-21-1]) に基づいた計算では,0.950 というすさまじい値が出た!).
 参考までに,吉川 (122) に拠って2010年の諸国の所得格差を示すジニ係数をいくつか挙げると,日本が 0.336,アメリカが 0.380,チリが 0.510,アイスランドが 0.246 である.語彙の社会が極めて不平等な社会であることが分かるだろう.

 ・ 吉川 洋 『人口と日本経済』 中央公論新社〈中公新書〉,2016年.

Referrer (Inside): [2017-03-12-1]

[ | 固定リンク | 印刷用ページ ]

2016-12-09 Fri

#2783. 世界で最も "popular" な言語は? [world_languages][demography][statistics]

 現在,世界には7千ほどの言語が行なわれているとされるが,そのうち最も "popular" な言語は何だろうか.ほとんどの人々は「英語」と答えるかもしれない.しかし,実際には "popular" の定義を明確にしておかない限り,この質問に正確に答えるのは難しい.おそらく大多数の日本人にとって,"popular" な言語とは「世界中で広く話されている言語」のことと想定されるが,では「広く」とは何のことだろうか.それを常用している国の数か.あるいは,そのような国の面積か.それで用を足している人々の数か.それを共通語として採用している国際機関の数か.それを第2言語として教育している国の数か.いずれの観点かを定めさえすれば,"popular" の定義も定まり,最も "popular" な言語が何かという問いに答えを出すことができるだろう.しかし,どの観点が "popular" の定義として妥当なのかについて,満場一致はないように思われる."popular" を "top" や "significant" に置き換えたところで,問題は解決しない.
 例えば,母語話者の数ということでいえば,英語は中国語,スペイン語についで第3位となる.しかし,第2言語として話す人口を加えれば,英語は第1位に躍り出る.しかし,ここでは「英語」の範囲が問題になり,例えば,英語を基盤としたピジン語やクレオール語の母語話者は英語話者に含めるのか,といった疑問が生じる.あるいは,どのピジン語やクレオール語を含め,どれを含めないのか.
 また,その言語を主要言語とする国の経済力や技術力なども,考慮に入れる必要があるのではないか.その国が国際的に活躍していればいるほど,その言語も国際的に用いられやすいだろうし,世界的に "popular" ともなりうるからだ.しかし,そのような「国際性」は何によって計ればよいのか.経済活動か,軍事力か,文化力か,移民の割合か.何らかの重みづけをするにしても,その観点は無限である.
 考えられる "popular" の指標をすべて計算に含めて総合点を出すという方法はあるだろうが,元となる統計値が現実的に得られないような指標も多いだろう.結局のところ,母語話者や第2言語話者の人口など,ある程度入手可能な既存のデータを中心にながら,主観的な「印象点」も加味して,最も "popular" な言語を割り出すということになならざるを得ない.「印象点」には,採点者次第で,個人的な好き嫌いが含まれるかもしれないし,政治的・イデオロギー的な好悪も埋め込まれるかもしれない.
 言語ランキングを作るという作業は,一見簡単そうで実は難しい課題である.この問題については,Gooden (8--9) を参照されたい.本ブログ内では,「#397. 母語話者数による世界トップ25言語」 ([2010-05-29-1]),「#2263. 世界の主要言語の母語話者数の比較」 ([2015-07-08-1]),「#1591. Crystal による英語話者の人口」 ([2013-09-04-1]),「#1592. 英語話者の人口を推計することが難しい理由」 ([2013-09-05-1]) なども関連する.

・ Gooden, Philip. The Story of English: How the English Language Conquered the World. London: Quercus, 2009.

[ | 固定リンク | 印刷用ページ ]

2016-09-22 Thu

#2705. カエサル暗号機(hellog 版) [cryptology][grammatology][cgi][web_service][statistics]

 「#2704. カエサル暗号」 ([2016-09-21-1]) と関連して,文字遊びのために「カエサル暗号機」を作ってみた.まずは,最も単純な n 文字シフトの方針により,入力文字列を符号化 (encipher) あるいは復号化 (decipher) するだけの機能.バックエンドに Perl の Text::Cipher::KeywordAlphabet モジュールを利用している.

encipher decipher
n =    


 次に,下の暗号機は復号機能のみを実装しているが,英語の各文字の出現頻度に基づいた統計を利用して,n の値が不明でもカエサル暗号を解読してしまうことができる.



 このカエサル暗号とその発展形は,西洋の古代・中世を通じて1500年以上ものあいだ最も普通に用いられたが,原理は驚くほど単純である.現在では暗号学者ならずとも普通の人にもコンピュータを使って簡単に解読できてしまい,暗号とは呼べないほどに安全性は低いが,メッセージを隠したいという人間の欲求の生み出した,本格的な暗号文化の幕開きを代表する手法だった.歴史的意義は大きい.

[ | 固定リンク | 印刷用ページ ]

2016-09-16 Fri

#2699. 暗号学と言語学 [cryptology][linguistics][statistics][grammatology]

 サイモン・シンの『暗号解読』を読んだ.暗号学 (cryptology) は言語学の1分野として言及されることもあるが,最も原始的な転置式暗号や,語や文字を置き換える換字式暗号を除けば,それ以降の暗号作成と解読は数学,統計学,物理学の応用そのものであり,言語学の扱う範囲から大きく逸脱しているように思われる.近代以降に開発されたヴィジュネル暗号,エニグマの暗号,公開鍵方式,量子暗号などは,高度な数学・物理学を利用した暗号であり,もはや言語学の出る幕ではないかのようだ.
 しかし,いくつかの点で暗号学は言語学と密接な連係を保っているのは事実である.『暗号解読』により暗号の歴史を概観したところで,両分野の顕著な接点について考えてみた.1つ目は,当然といえば当然だが,暗号化して秘匿したいもとの材料はほぼ常に言語であるということだ.数字やその他の記号を秘匿したいという機会もあるだろうが,基本的には何らかの言語で書かれた文章が暗号化の対象であり,それゆえに「平文」と呼ばれる.暗号作成者は,この平文に何らかのスクランブル(暗号化するための演算)を施して無意味な文字列を得るわけだが,ここで行なっていることは,有意味で言語らしいテキストを無意味で言語らしからぬ文字列へ変換するという作業である.つまり,暗号作成者はなるべく平文のもつ言語らしさを取り除こうと努力する人にほかならず,暗号の成否は,その人が言語らしいとは何を指し,言語らしからぬとは何を指すのかについて,いかに深く理解しているかにかかっている.言語(とりわけ書き言葉)における文字の出現率などの統計的な事情に精通していればいるほど,暗号作成者は言語らしからぬ出力を得られるし,逆に暗号解読者はもとの平文を取り戻すことができる.隠したい元のものが言語テキストである以上,その後,いかに複雑な演算を加えようとも,何らかの言語的性質は着いて回らざるをえない.
 2つ目に,暗号化や複合化に用いられる鍵もまた,暗号の歴史の大部分において,単語やその他の表現など言語的な単位だったという事実がある.現代の最も進んだ暗号においては鍵が数字であることが多いが,少なくとも鍵交換の問題が解決される以前の暗号においては,鍵は意味をなすキーワードやキーフレーズであり,ある言語の語彙に登録された単語やその他の表現であることが普通だった.それは,鍵が暗号者と復号者に共有されていなければならず,互いにとって既知である単語を鍵とし,それを暗記しておくのが,管理上もっとも便利だったからだ.数字や記号の羅列は暗記しにくいし,メモに書き留めておくという手はセキュリティ上問題がある.したがって,2人が最初から知っているもの,すなわち共通言語の何らかの単位を鍵とするのが自然である.逆にいえば,暗号解読者にとっては,鍵を突き止めるために,言語の語彙や表現のリストのなかから候補を絞り込むという戦略が妥当となる.このように,平文のみならず,暗号の鍵そのものも多くの場合,言語である.
 3つ目に,諸言語は言語としての特性を共有しつつも互いに異なる恣意的な記号体系であるから,自言語と他言語の間の翻訳の作業は,暗号・復号の作業に近い.実際,第2次世界大戦では,アメリカは先住民ナヴァホ族の言語を用いたナヴァホ暗号なるものを生み出した.英語も話せるナヴァホ族が媒介となって,暗号化したい英語の平文をナヴァホ語へ変換し,そのナヴァホ語テキストを伝達したい相手に届ける.その相手は,お付きのナヴァホ族の人に頼んでそのテキストを英語へなおしてもらう.当時,敵国ドイツには,ナヴァホ語に関する研究は一切なく,ドイツ人の解読者がナヴァホ語から翻訳する術はなかった.既存のあまり知られていない自然言語は,それ自体が暗号のアルゴリズムになりうるという例だ.
 最後に,未解読文字との関連もある.「#2427. 未解読文字」 ([2015-12-19-1]) で述べたように,いまだ解読されていない文字体系は少なくない.「#2486. 文字解読の歴史」 ([2016-02-16-1]) で触れたが,文字解読の歴史をひもとくと,そこで使われてきた手法は,現代に近づくほど,主として文字論を基礎とする統計学や数学を駆使する科学的な手法へと進化してきており,一般の暗号解読の手法ときわめてよく似ている.このことは,いずれも「平文」が何らかの言語で書かれたテキストであるということを前提としているのだから,不思議ではないだろう.暗号学の成果は,文字の解読におおいに貢献することができる.
 さらに本質的で興味深い問いとして,人間はいつ,どこで,なぜ言語を暗号化する必要があるのだろうか.言語がコミュニケーションのために発達してきたことを前提とすると,メッセージを秘匿したいという行動や欲求は一種の矛盾ともいえる.言語と秘匿というテーマは,暗号学の哲学ともいうべきものになるだろう.

 ・ サイモン・シン(著),青木 薫(訳) 『暗号解読 上下巻』 新潮社,2017年.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow