hellog〜英語史ブログ

#1089. 情報理論と言語の余剰性[information_theory][linguistics][redundancy][entropy][history_of_linguistics]

2012-04-20

 情報理論 (information theory) は戦後に発達した比較的新しい科学研究だが,言語学はその成果を様々な形で享受してきた.情報の送り手と受け手の問題,コード化の問題,予測可能性 (predictability) の問題,そして何よりも言語の顕著な特徴の1つである余剰性 (redundancy) の問題について,言語学が情報理論から学べることは多い.
 情報理論と人工頭脳工学 (cybernetics) の基礎理論は Shannon and Weaver の著作によって固まったとされ,これは言語学史においても有意義な位置を占めている(イヴィッチ,pp. 164--71).しかし,この著作は高度に数学的であり,一般の言語学者が読んで,その成果を言語学へ還元するということは至難の業のようだ.このような場合には,言語学者による書評が役に立つ.アメリカの言語学者 Hockett の書いているレビューを読んでみた.
 Shannon and Weaver 自体が難解なのだから,その理論のレビューもある程度は難解とならざるをえない.評者の Hockett が情報理論の考え方を言語学へ応用する可能性について論じている部分では,言語学としても非常に高度な内容となっている.書評を完全に理解できたとは言い難いが,言語の余剰性およびエントロピー (entropy) についての議論はよく理解できた.
 Hockett はたいへん大まかな試算であるとしながらも,ある発話の音韻的な情報量と音声的な情報量の比は1:1000ほどの開きがあり,仮に音韻論的単位のみを意思疎通に不可欠な単位とみなすのであれば,言語音の余剰性は99.9%にのぼるとしている (85) .情報理論でいうエントロピー (entropy) は,"1 - redundancy" と定義されるので,言語音のエントロピーは0.1%である.言語は,ある言い方をすれば非効率,別の言い方をすれば予測可能性の高い種類の情報体系ということができるだろう.
 情報が物理的に伝達される際には,多かれ少なかれ必ず雑音 (noise) が含まれてしまう.したがって,情報伝達が意図された通りに遂行されるためには,雑音による影響に耐えられるだけの安全策が必要となる.言語にとって,余剰性こそがその安全策である.Hockett 曰く,"channel noise is never completely eliminable, and redundancy is the weapon with which it can be combatted" (75) .このように考えると,言語音の余剰性99.9%(あるいはこれに近似する高い値)は,いかに言語が慎重に雑音対策を施された安全設計の情報体系であるかを示す指標といえるだろう.

The high linguistically relevant redundancy of the speech signal can be interpreted not as a sign of low efficiency, but as an indication of tremendous flexibility of the system to accommodate to the widest imaginable variety of noise conditions. (Hockett 85)


 情報理論の立場から,特に余剰性という観点から言語を見始めると,それは言語のあらゆる側面に関わってくる要素だということがわかってくる.言語の余剰性について,明日の記事で詳しく見ることにする.

 ・ ミルカ・イヴィッチ 著,早田 輝洋・井上 史雄 訳 『言語学の流れ』 みすず書房,1974年.
 ・ Hockett, Charles F. "Review of The Mathematical Theory of Communication by Claude L. Shannon; Warren Weaver." Language 29.1 (1953): 69--93.
 ・ Shannon, Claude L. and Warren Weaver. The Mathematical Theory of Communication. Urbana: U of Illinois P, 1949.

[ | 固定リンク | 印刷用ページ ]

#1090. 言語の余剰性[redundancy][linguistics][entropy][information_theory][paralinguistics]

2012-04-21

 ヒトの言語の著しい特徴として,以前の記事で「#766. 言語の線状性」 ([2011-06-02-1]) と「#767. 言語の二重分節」 ([2011-06-03-1]) を取り上げてきたが,もう1つの注目すべき特徴としての余剰性 (redundancy) については,明示的に取り上げたことがなかった.今日は,昨日の記事「#1089. 情報理論と言語の余剰性」 ([2012-04-20-1]) を受けて,この特徴について説明したい.
 言語による意味の伝達に最小限に必要とされる以上の記号的要素が用いられるとき,そこに余剰性が含まれているといわれる.言語の余剰性は一見すると無駄で非効率に思われるが,昨日の記事で述べたように,言語使用に伴う種々の雑音 (noise) に対する強力な武器を提供している.急ハンドルの危険を防止するハンドルの遊びと言い換えてもよいし,無用の用と考えてもよい.また,言語の余剰性は,言語習得にも欠かせない.言語構造上また言語使用上の余剰性が十分にあれば未知の言語要素でも意味の予測が可能であり,実際に言語習得者はこの機構を利用して,言語内的・外的な文脈からヒントを得ながら,意味の見当をつけてゆくのである.
 余剰性という観点から言語を見始めると,それは言語のあらゆる側面に関わってくる要素だということがわかる.まず,昨日の記事で触れたように,音声と音素の情報量の差に基づく余剰性がある.言語の伝達には数十個の分節された音素を区別すれば事足りるが,その実現は音声の連続体という形を取らざるを得ず,そこには必要とされるよりも約千倍も多くの音声信号が否応なしに含まれてしまう.
 音韻体系にみられる対立 (opposition) に関係する余剰性もある.英語において,音素 /n/ は有声歯茎鼻音だが,鼻音である以上は有声であることは予測可能であり,/n/ の記述に声の有無という対立を設定する必要はない.これは,余剰規則 (redundancy rule) と呼ばれる.
 音素配列にも余剰性がある.語頭の [s] の直後に来る無声破裂音は必ず無気となるので,無気であることをあえて記述する必要はない([2011-02-18-1]の記事「#662. sp-, st-, sk- が無気音になる理由」を参照).予測可能であるにもかかわらず精密に記述することは不経済だからである.しかし,言語使用の現場で,語頭の [s] は何らかの雑音で聞こえなかったが,直後の [t] は無気として聞こえた場合,直前に [s] があったに違いないと判断し,補うことができるかもしれない.このように,余剰性は安全装置として機能する.
 音素配列に似た余剰性は,綴字規則にも見られる.例えば,英語では頭字語などの稀な例外を除いて,<q> の文字の後には必ず <u> が来る.<u> はほぼ完全に予測可能であり,情報量はゼロである.
 形態論や統語論における余剰性の例として,These books are . . . . というとき,主語が複数であることが3語すべてによって示されている.It rained yesterday. では,過去であることが2度示されている.英語史上の話題である二重複数 (double_plural),二重比較級 (double_comparative),二重否定 ([2010-10-28-1], [2012-01-10-1]) なども,余剰性の問題としてみることができる.
 そのほか,類義語を重ねる with might and main, without let or hindrance や,電話などでアルファベットの文字を伝える際の C as in Charley などの表現も余剰的であるし,Yes と言いながら首を縦に振るといった paralinguistic な余剰性もある.
 余剰性と予測可能性 (predictability) は相関関係にあり,また予測可能性は構造の存在を前提とする.したがって,言語に余剰性があるということは,言語に構造があるということである.ここから,余剰性を前提とする情報理論と,構造を前提とする構造言語学とが結びつくことになった.構造言語学の大家 Martinet の主張した言語の経済性の原理でも,余剰性の重要性が指摘されている (183--85) .
 情報理論と言語の余剰性の関係については,Hockett (76--89) を参照.

 ・ Martinet, André. Éléments de linguistique générale. 5th ed. Armand Colin: Paris, 2008.
 ・ Hockett, Charles F. "Review of The Mathematical Theory of Communication by Claude L. Shannon; Warren Weaver." Language 29.1 (1953): 69--93.

[ | 固定リンク | 印刷用ページ ]

#1091. 言語の余剰性,頻度,費用[redundancy][information_theory][frequency][shortening][grammaticalisation][idiom][intensifier][language_change]

2012-04-22

 本ブログでも度々取り上げている André Martinet (1908--99) は,情報理論の知見を言語学に応用し,独自の地平を開いた構造言語学者である.[2012-04-20-1], [2012-04-21-1]の記事で,言語の余剰性 (redundancy) の問題に触れてきたが,Martinet は余剰性と関連させて確率 (probability) ,情報 (information) ,頻度 (frequency) ,費用 (cost) といった概念をも導入し,これらの関係のなかに言語変化の原因を探ろうとした.以下は,これらの用語を導入した後の一節である(拙訳つきで).

Ce qu'il convient de retenir de tout ceci pour comprendre la dynamique linguistique se ramène aux constatations suivantes : il existe un rapport constant et inverse entre la fréquence d'une unité et l'information qu'elle apporte, c'est-à-dire, en un certain sens, son efficacité ; il tend à s'établir un rapport constant et inverse entre la fréquence d'une unité et son coût, c'est-à-dire que représente d'énergie consommée chaque utilisation de cette unité. Un corollaire de ces deux constatations est que toute modification de la fréquence d'une unité entraîne une variation de son efficacité et laisse prévoir une modification de sa forme. Cette dernière pourra ne se produire qu'à longe échéance, car les condition réelles du fonctionnement des langues tendent à freiner les évolutions. (189--90)

言語の力学を理解するために,このこと全体について理解すべきことは,次の確認事項である.ある単位の頻度とそれがもつ情報(すなわちある意味ではその効果)のあいだには一定にして反比例の関係がある;それは,ある単位の頻度とその費用(すなわちその単位を使用することで消費されるエネルギー)のあいだの一定にして反比例の関係となる傾向がある.この2つの確認事項の当然の帰結として,ある単位の頻度が変わればその効果も変化するし,その形態の変化も予想されることになる.この後者の変化はあくまで長期間をかけて生じるものである.というのは,言語作用の現実の状況は発達を抑制する傾向があるからだ.


 Martinet は,引用した節よりも前の箇所で,余剰性が高いということは予測可能性が高いということであり,それは言語要素の出現確率あるいは頻度とも密接に関連するということを論じている.一般に,言語要素は頻度が高ければ余剰性も高く,情報価値は低い: "plus une unité (mot, monème, phonème) est fréquente, moins elle est informative" (188) .そして,ここに費用という要素を持ち込むことによって,新たな洞察が得られた.話者にとって,頻度が高ければ高いほど,その1回の発音に必要とされるエネルギーの量は少ないほうが都合がよい.多くのエネルギーを要する発音を何度も繰り返すのは不経済だからだ.逆に,頻度の低い表現は,たとえ発音に大きなエネルギーが必要だとしてもあまり困らない.いずれにせよ,発音する機会が稀だからだ.
 このように,「費用」を発音にかかるエネルギー量と解釈する場合,厳密には個々の音の発音がどのくらいの費用を要するかを知る必要があるが,その計測は難しい.しかし,仮にすべての単音の発音が同じ程度の費用を要すると仮定すれば,特定の表現に要する費用はその音形の長さに依存するはずである.費用を単純に音形の長さと同値とすれば,次の関係が想定できる:「言語要素は,頻度が高ければ音形が短い」.これを言語変化に当てはめれば「言語要素は,頻度が高くなれば音形が短くなる」となろう.
 頻度と費用の反比例の関係は,経験的によく理解できる.よく使われる語句は発音においても表記においても短縮・省略される傾向がある.場合によっては,短縮・省略の究極の結末として,無に帰すことすらある.文法的な慣用表現が短縮した上で固定化する例もよく見られ,これは文法化 (grammaticalisation) として扱われる話題にほかならない.また,[2012-01-14-1]の記事で取り上げた「#992. 強意語と「限界効用逓減の法則」」も,頻度と費用の関係という観点からとらえなおすことができるだろう.
 ただし,上の引用の最後にある通り,頻度と費用の関係から言語変化を説明しようとする際には,時間差を考慮する必要がある.ある語の頻度が増してきてからその語形が短縮されるまでには,当然,ある程度の時間が必要だからだ.また,頻度と費用の負の相関関係は,あくまで緩やかなものであることにも注意しておく必要がある.上の一節に先行する標題が "Laxité du rapport entre fréquence et coût" (頻度と費用の関係の緩やかさ)であることを付け加えておこう.

 ・ Martinet, André. Éléments de linguistique générale. 5th ed. Armand Colin: Paris, 2008.

[ | 固定リンク | 印刷用ページ ]

#1098. 情報理論が言語学に与えてくれる示唆を2点[information_theory][redundancy][corpus]

2012-04-29

 ##1089,1090,1091 の記事で,言語学が情報理論 (information theory) から得られる知見について,特に言語の余剰性 (redundancy) に注目しながら紹介した.今回は,Jakobson による "Linguistics and Communication Theory" と題する論文にしたがって,情報理論が言語学に与えてくれるヒントを考えてみたい.
 Jakobson は,彼の提示した二進法的な音素の示差的特徴 (distinctive feature) と,情報理論における基本単位である "digit" あるいは "bit" との親和性に気づき,(構造)言語学と情報理論の接点に注目した.Jakobson は両分野の共通点と相違点を洗い出し,言語学が情報言語から学べることは何か,両者の間で同一視してはいけないことは何かということを論じている.その中で特に2点が私の関心に引っかかったので,紹介したい.

 (1) 情報理論は,もっぱら物理的な情報伝達の効率や情報体系の仕組み (code) に関心があり,その発信者,受信者,文脈,意味は考慮しない.言語体系も code ではあるが,それは言語行動が必要とする諸側面の1つにすぎず,code のみに注目する態度は避けるべきである.code が1側面にすぎないことは「#1070. Jakobson による言語行動に不可欠な6つの構成要素」 ([2012-04-01-1]) で見たとおりである.

There is a similar danger when interpreting human inter-communication in terms of physical information. Attempts to construct a model of language without any relation either to the speaker or to the hearer and thus to hypostasize a code detached from actual communication threaten to make a scholastic fiction from language. (250)


 (2) 言語学が (1) の注意点を意識した上で,情報理論の手法を用いて言語体系の効率を測ろうとするとき,二項対立の体系としての理論的な効率と,言語項目の頻度を考慮した実際上の効率との両方を視野に入れておかなければならない.前者は type 的,langue 的な意味での効率,後者は token 的,parole 的な意味での効率といえばわかりやすいだろうか.Jakobson は,音素の示唆的特徴だけでなく形態カテゴリーも二項対立で記述でき,最終的には統語をも "bit" によって記述できると考えており,それにより言語Aと言語Bの文法情報の効率なども比較できるだろうとしているが,これは抽象化された言語体系としての code の効率のことを指している.一方で,言語使用の実際における情報伝達の効率を測ろうとすれば,言語項目の出現頻度を加味した情報の重みづけという作業が必要である.理論と実際のバランスが肝要ということである.

The amount of grammatical information which is potentially contained in the paradigms of a given language (statistics of the code) must be further confronted with a similar amount in the tokens, in the actual occurrences of the various grammatical forms within a corpus of messages. Any attempt to ignore this duality and to confine linguistic analysis and calculation only to the code or only to the corpus impoverishes the research. The crucial question of relationship between the patterning of the constituents of the verbal code and their relative frequency both in the code and in its use cannot be passed over. (251)


 (2) の教訓を現代の言語研究に引きつけて解釈すると,構造言語学とコーパス言語学の連携というような課題につながってくるのではないか.コーパスによって得られた統計値をもとに各言語項目に重みづけを行ない,それを対立の集合として記述された言語体系のパラメータとして含めてやる.そうすることによって,Martinet の主張する言語の経済性の原理 ([2012-03-24-1], [2012-04-21-1]) なども検証可能となるのではないか.

 ・ Jakobson, Roman. "Linguistics and Communication Theory." Structure of Language and Its Mathematical Aspects. Providence: American Mathematical Society, 1961. 245--52.

Referrer (Inside): [2018-08-11-1] [2015-06-24-1]

[ | 固定リンク | 印刷用ページ ]