hellog〜英語史ブログ     ChangeLog 最新    

computational_linguistics - hellog〜英語史ブログ

最終更新時間: 2022-06-24 19:19

2022-02-17 Thu

#4679. 言語における塊現象とゆらぎ [complex_system][computational_linguistics][statistics][frequency][1/f][terminology][keyword]

 昨日の記事「#4678. 言語における塊現象と長相関」 ([2022-02-16-1]) で,言語における塊現象を「長相関」の観点からみたが,今回はもう1つの観点である「ゆらぎ」に注目しよう.ゆらぎ解析について,田中 (112) は次のように説明している.

このような塊現象を捉える自然な方法の一つとして,ある一定の範囲内に出現する単語の頻度の分散を調べることが挙げられる.ある単語の出現にゆらぎがあるのであれば,ある一定の範囲内にその単語が出現しない場合があり,また一方でその単語が数多く出現する場合もあり,その頻度の分散は大きくなるはずである.


 解析原理としては分かりやすい.ある文章中に表われる語彙を念頭におく場合,ゆらぎ方は語によって異なるが,おもしろいことに,いわゆるキーワードはしばしばゆらぎが大きいという(田中,p. 118).これは,機械的なキーワードの同定などに貢献しそうな興味深い傾向である.
 また,人間言語による文章とランダム文字列の文章とでゆらぎを比べると,明らかに前者の方がゆらぎが大きく,このことは人間言語の特徴の一端を示唆する.さらに,文章のジャンルによってもゆらぎは異なるために(田中,p. 120),ゆらぎの度合いは文体論的な指標ともなり得る.
 様々な可能性を秘めた言語における「ゆらぎ」にアンテナを張っておきたい.関連して「1/f ゆらぎ」 (1/f) も要注目.

 ・ 田中 久美子 『言語とフラクタル --- 使用の集積の中にある偶然と必然』 東京大学出版会,2021年.

[ 固定リンク | 印刷用ページ ]

2022-02-16 Wed

#4678. 言語における塊現象と長相関 [complex_system][computational_linguistics][statistics][frequency][information_structure][article][terminology]

 言語には,他の多くの自然・社会現象にもみられる「塊現象」というものが観察される.田中 (98) の説明を引用する.

その傾向は一言で言えば「塊現象」,つまり単語が固まって現れること,ある単語が一旦現れるとしばらくの間は頻繁に出現する一方で,それを過ぎるとほとんど出現しなくなる傾向があることとして直感的に捉えることができる.塊現象が見られる系列では,短い間隔が続いた後には短い間隔が現れ,また逆に長い間隔が続いた後には長い間隔が現れる可能性が高い.このような言語の塊現象の要因の一つは,当然のことながら文脈の変化にある.
 塊現象は,自然,金融など,さまざまな複雑系においてはよく知られる〔中略〕.たとえば,大雨や地震が固まって現れることは経験を通して誰しも知っているだろう.社会的な対象においても,たとえば,株取引には,ある取引が引き金となって,関連する取引が行われるため,やはり塊現象が生じることが知られる.同様に,単語もある単語が引き金となり,その単語ならびに関連する単語の塊が出現する.


 説明されてみれば,もっともという現象ではある.この塊現象の一般的な研究には歴史があるが,言語に応用した研究は少ないようだ.解析法としては,大きく分けて「長相関」と「ゆらぎ」に着目する2種類があるという.ここでは前者を見ていこう.
 「長相関」による解析は,「ある系列中の,二つの部分列の相関が,その部分列の距離 s に依存してどのように変化するかを調べる解析」である(田中,p. 99).互いに離れた2つの部分列の内部構造が類似していれば長相関があるということになる(cf. 「#4675. 言語と複雑系」 ([2022-02-13-1]) で言及した「長期記憶」).
 英語における最頻語である定冠詞 the について,長い文章で長相関解析を試みると,どうやら弱い長相関があるようだ(田中,p. 105).しかし,あくまで弱い長相関があるにとどまり,細かくみれば the にすらある程度の塊現象がみられることが判明する.驚くことに,the も現われるときは固まって現われ,現われないときにはしばらく現われない,ということがある程度観察されるのである.田中 (109)は,先行研究に従い,この事実を次のように解釈している.

k 個の短い間隔があると,続く k + 1番目の間隔も短く,k 個の長い間隔があると,それに続く k + 1番目の間隔も長い傾向にある.短い間隔が続くことは,対象となる単語が固まって現れることを示している.〔中略〕このような塊現象の背景には文脈の変化がある.the については,まず不定冠詞を中心として一般的な概念を導入し,その後,導入された概念について議論が行われ,その際は the が多用される.


 これは,談話における情報構造 (information_structure) に着目した,the についての塊現象の読み解きといってよいだろう.

 ・ 田中 久美子 『言語とフラクタル --- 使用の集積の中にある偶然と必然』 東京大学出版会,2021年.

Referrer (Inside): [2022-02-17-1]

[ 固定リンク | 印刷用ページ ]

2022-02-11 Fri

#4673. 言語の統計的必然性と偶然性 [chaos_theory][complex_system][computational_linguistics][statistics][zipfs_law]

 本ブログでは,言語と複雑系,カオス理論,フラクタルの関係について,complex_systemchaos_theory などの記事で紹介してきた.しかし,とても関心はあるものの,私の頭の理解が伴っていかない分野のようで,なかなか深入りできない.文系頭にももう少し理解しやすい形で,上記の分野(一般的には数量言語学)の本などがあればよいのになぁと思っていたところ,昨年,田中久美子(著)『言語とフラクタル --- 使用の集積の中にある偶然と必然』が出版された.読みたいと思いつつ積ん読していたのだが,ようやくページ開く機会を得た.おもしろい.
 なぜ私がこれまで深入りできなかったのか.その辺りの理由も,導入部から教えてくれていて,とても嬉しい(田中,pp. 10--11).

複雑系科学は自然・社会的な系に適用されてきたが,言語を捉える探求は,その中でも亜流であり,限定的であるといわざるをえない.その主な理由としては,物理学的方法論の対象は広いとはいってもまず自然であり,結果は人の解釈に依存しないものを目指すことがある.一方,言語の研究は,人の解釈を前提とした単語や文を探究してきた.統計力学的な方法論は,意味や解釈をめぐって,言語とは相性がよいとはいえなかったのである.その中で,物理学出身の研究者が言語を探究した報告があちこちに散乱しており,それは言語の諸研究の側からは見えない.本書はそのような既存研究に多くを拠っている.


 とてもよく分かった.例えば Zipf's Law (cf. zipfs_law) という著名な語彙統計学上の法則ですら,突っ込んだ議論を読みたいと思えば,言語学から一歩外に出なければならない.多くの普通の言語学の徒にとって,なかなか手を出せないのである.
 では,なぜ私は,理解するのが難しいと分かっていながらも,言語と複雑系などとの関係に心ひかれるのだろうか.その辺りのモヤモヤしたところも,田中 (11) が解消してくれた.

言語データを解析すると,統計的言語普遍としての性質が普遍的に立ち現れる.この事実から,統計的言語普遍は,言語が生み出す神秘の一つのように捉えられてきた側面がある.しかし,本書でも見るように,その因果関係はおそらく逆であると思われる.言語が統計的普遍を生み出すというよりは,統計的な性質がまずあり,言語はおそらくその性質を前提として成立している.つまり,統計的言語普遍は,言語を実現する前提となっていると思われる.ならばこの統計的必然性は,単語や統語構造などといった言語の諸性質に影響を及ぼしているはずである.そして,統計的必然の中で言語がどのような特殊性を持っているかを理解することは,言語の本質を捉える一つの手立てとなると思われる.


 どこまでが言語の(統計的)必然なのかが分かれば,そこから逸脱したものこそが言語における偶然だと知れるだろう.そして,後者こそ,人間が言語に込めた意図を反映しているものである可能性が高い.田中 (5) は,このことを「Mallarmé の賽」として示している.

かつて,詩人 Stéphane Mallarmé が,詩作において「賽を投じる」ことに言及している〔中略〕.「賽の一投は偶然を決して廃さない」との Mallarmé のことばは,純粋な統計としては自明なだけであるが,言語や詩作についてとなると難しい.言葉が発せられる背景には意図があることが多く,偶然だけに基づくとは考えにくい.Mallarmé は,言葉を使うことも,賽を投じるように偶然性を廃さないことを暗示し,偶然性をふまえた言葉のアートを試行したかにみえる.意図があって発話する場合にも,文や単語を生成する時に偶然が排除できないなら,言語行為には偶然性と必然性が混ざっているだろう.言語の統計的特性を知ることで,言葉が前提とする偶然性について明らかになる.その残滓の中に,意図など人間の要因の本質がかすかに見えはしまいか.


 私自身がなぜ言語の統計学に惹かれているのか,その辺りが読み進めるうちにどんどん分かってきたのが嬉しい.

 ・ 田中 久美子 『言語とフラクタル --- 使用の集積の中にある偶然と必然』 東京大学出版会,2021年.

Referrer (Inside): [2022-02-13-1]

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow