web_service / hellog～英語史ブログ

最終更新時間: 2025-07-02 08:38

2015-06-24 Wed

■ #2249. 綴字の余剰性 [spelling][orthography][cgi][web_service][redundancy][information_theory][punctuation][shortening][alphabet][q]

　言語の余剰性 (redundancy) や費用の問題について，「#1089. 情報理論と言語の余剰性」 ([2012-04-20-1])，「#1090. 言語の余剰性」 ([2012-04-21-1])，「#1091. 言語の余剰性，頻度，費用」 ([2012-04-22-1])，「#1098. 情報理論が言語学に与えてくれる示唆を2点」 ([2012-04-29-1])，「#1101. Zipf's law」 ([2012-05-02-1]) などで議論してきた．言語体系を全体としてみた場合の余剰性のほかに，例えば英語の綴字という局所的な体系における余剰性を考えることもできる．「#1599. Qantas の発音」 ([2013-09-12-1]) で少しく論じた通り，例えば <q> の後には <u> が現われることが非常に高い確立で期待されるため，<qu> は余剰性の極めて高い文字連鎖ということができる．
　英語の綴字体系は全体としてみても余剰性が高い．そのため，英語の語彙，形態，統語，語用などに関する理論上，運用上の知識が豊富であれば，必ずしも正書法通りに綴られていなくとも，十分に文章を読解することができる．個々の単語の綴字の規範からの逸脱はもとより，大文字・小文字の区別をなくしたり，分かち書きその他の句読法を省略しても，可読性は多少落ちるものの，およそ解読することは可能だろう．一般に言語の変化や変異において形式上の短縮 (shortening) が日常茶飯事であることを考えれば，非標準的な書き言葉においても，綴字における短縮が頻繁に生じるだろうことは容易に想像される．情報理論の観点からは，可読性の確保と費用の最小化は常に対立しあう関係にあり，両者の力がいずれかに偏りすぎないような形で，綴字体系もバランスを維持しているものと考えられる．
　いずれか一方に力が偏りすぎると体系として機能しなくなるものの，多少の偏りにとどまる限りは，なんとか用を足すものである．主として携帯機器用に提供されている最近の Short Messages Service (SMS) では，使用者は，字数の制約をクリアするために，メッセージを解読可能な範囲内でなるべく圧縮する必要に迫られる．英語のメッセージについていえば，綴字の余剰性を最小にするような文字列処理プログラムにかけることによって，実際に相当の圧縮率を得ることができる．電信文体の現代版といったところか．
　実際に，それを体験してみよう．以下の "Text Squeezer" は，母音削除を主たる方針とするメッセージ圧縮プログラムの1つである（Perl モジュール Lingua::EN::Squeeze を使用）．入力するテキストにもよるが，10%以上の圧縮率を得られる．出力テキストは，確かに可読性は落ちるが，慣れてくるとそれなりの用を足すことがわかる．適当な量の正書法で書かれた英文を放り込んで，英語正書法がいかに余剰であるかを確かめてもらいたい．

web_service - hellog～英語史ブログ

■ #2249. 綴字の余剰性 [spelling][orthography][cgi][web_service][redundancy][information_theory][punctuation][shortening][alphabet][q]

■ #2179. IPA の肺気流による子音の分類 (2) [phonetics][consonant][ipa][chart][hel_education][cgi][web_service]

■ #2096. SUBTLEX-US Word Frequency List [frequency][statistics][corpus][lexicology][zipfs_law][cgi][web_service]

■ #1963. 構文文法 [bnc][construction_grammar][syntax][cognitive_linguistics][prototype][web_service][speech_act][generative_grammar]

■ #1819. AHD Word History Note Search [etymology][dictionary][cgi][web_service]

■ #1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter) [cgi][web_service][corpus][archer][mode]

■ #1805. Morse code [semiotics][sign][double_articulation][cgi][web_service][morse_code]

■ #1743. ICE Frequency Comparer [corpus][web_service][cgi][frequency][new_englishes][variety][ice]

■ #1739. AmE-BrE Diachronic Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][representativeness]

■ #1730. AmE-BrE 2006 Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][spelling]

■ #1626. 現代日本語書き言葉均衡コーパス BCCWJ の各種インターフェース [web_service][corpus][link][japanese]

■ #1622. eLALME [me_dialect][lalme][preposition][map][web_service]

■ #1609. Cawdrey の辞書をデータベース化 [cawdrey][lexicography][dictionary][cgi][web_service][inkhorn_term][lexicology]

■ #1567. 英語と日本語のオンラインコーパスをいくつか紹介 [web_service][corpus][efl][link][japanese]

■ #1514. Sonority Analyser [phonetics][sonority][syllable][web_service][cgi]

■ #1441. JACET 8000 等のベース辞書による語彙レベル分析ツール [lexicology][web_service][link][elt]

■ #1432. もう1つの類義語ネットワーク「instaGrok」と連想語列挙ツール [web_service][thesaurus][synonym][cgi]

■ #1323. Helsinki Corpus の COCOA 検索 [cgi][web_service][hc][corpus]

■ #1322. ANC Frequency Extractor [cgi][web_service][frequency][corpus][anc]

■ #1321. BNC Frequency Extractor [cgi][web_service][frequency][corpus][bnc]