Vajjala 他の自然言語処理 (nlp) に関する本を読み終えた.機械学習やディープラーニングを含むこの発展著しい分野について,ようやく概要をつかめた気がする.自然言語処理は経験的で帰納的な手法に基づいているが,言語(の知識)とは何かという問題に,新技術の観点から新たな光を当てており,非常にエキサイティングな領域である.
自然言語処理の技術は様々に応用されているが,ソーシャルメディアの言語の分析も注目が集まっている分野の1つだ.Vajjala 他 (289) によると,ソーシャルメディアの言語の質と量を概観する目安として,以下を2020年の統計として挙げている.
量
Twitter の月間アクティヴユーザー数は1億5,200万人,Facebook は25億人
速度
6,000ツイート/秒,57,000投稿/秒 (Facebook)
多様性
トピック,言語,文体,文字体系
さらに,2019年の統計として,様々なソーシャルプラットフォームで1分間に生成されているデータの量が与えられている (290) .主要なものを抜き出して箇条書きする.
・ Google: 380万 検索クエリ数
・ facebook: 100万 ログイン数
・ YouTube: 450万 動画視聴数
・ Google Play/App Store: 390,030 ダウンロードされたアプリ数
・ Instagram: 347,222 スクロール数
・ Twitter: 87,500 ツイートしている人数
・ 電子メール: 1億8,800万 送信されたメール数
・ NETFLIX: 694,444 視聴時間
・ オンラインショップ: 996,956ドル オンライン上での買い物額
これらのデータのすべてが言語データではないにせよ,毎分計り知れない量の言語データが行き交っていることが分かる.もちろんこのようなメディアの外部,例えば日常的な対話などにおいても,交わされている言語データの量は計り知れないほどあることは容易に想像されるが,理論的/現実的にデータを入手し得るという点を考慮すれば「ソーシャルプラットフォームは自然言語データの最大の発生源であることは間違いない」 (290) .
英語史や英語歴史言語学の分野では,言語研究の主戦場となるメディアは現存する資料に刻まれた書き言葉だった.では,現代の共時的な英語(言語)研究の分野では,主戦場となるメディアは何になるのだろう.ソーシャルメディアの話し言葉や書き言葉が有力候補の1つになっていくことは確かである.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
ソーシャルメディアの書き言葉は,省略やタイポが多い.英語でいえば単語の省略の仕方は一通りではなく,いずれの省略綴字が用いられるかは予測できない.自然言語処理 (nlp) においては,このような省略綴字を正規化するなどの前処理が必要となり,なかなか厄介な問題のようだ.
一方,中英語の綴字のヴァリエーションも豊富である.綴り方は一通りではなく,いずれの綴字が用いられるかは,方言ごとに緩い傾向はあるものの,完全には予測できない.中英語を読んだり分析する際には,多様な綴字を「正規化」する必要があり,かなり厄介な問題だ.
両者は,このようにとても似ている."tomorrow" という単語の綴字ヴァリエーションを例に取り,比較してみよう.ソーシャルメディアの例は Vajjala 他 (p. 295) から,中英語の例は MED から取った.
[ ソーシャルメディアからの "tomorrow" の綴字 ]
tmw, tomarrow, 2mrw, tommorw, 2moz, tomorro, tommarrow, tomarro, 2m, tomorrw, tmmrw, tomoz, tommorow, tmrrw, tommarow, 2maro, tmrow, tommoro, tomolo, 2mor, 2moro, 2mara, 2mw, tomaro, tomarow, tomoro, 2morr, 2mro, tmoz, tomo, 2morro, 2mar, 2marrow, tmr, tomz, tmorrow, 2mr, tmo, tmro, tommorrow, tmrw, tmrrow, 2mora, tommrow, tmoro, 2ma, 2morrow, tomrw, tomm, tmrww, 2morow, 2mrrw, tomorow
[ MED からの "tomorrow" の綴字 ]
tōmōrn, tomorne, -moroun(e, -morwen, -morwin, -morewen, -morgen, tomor3en, -moregan, -moreuin, -marewene, -marwen, -marhen, -mar3an, -mar3en, -mær3en, temarwen; tōmōrwe, tomorewe, -moreu, -mor(r)owe, -mor(r)ou, -morou, -moru(e, -mor3e, -marewe, temorwe, tomoruwe, -more3e, -mar3e, -mær3e
もう主旨はお分かりだろう.ソーシャルメディアを対象とする自然言語処理技術の発展は,中英語研究にも有用にちがいない! 笑い話のようでありながら,いや,なかなかおもしろい比較ではないか.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
標題は生成文法を語ろうとしているわけではない.言語を構成する諸部門を大きく2つの層に分けると,それぞれを「基層」「表層」と名付けられるだろうというほどのものだ.しかし,言語学上,この2区分の波及効果は大きい.野村 (12) の説明が明快である.
ある言語(方言で考えてもらってもよい)のさまざまな要素は,おおむねその言語の基層と表層に振り分けられる.文法や音声・音韻や基礎的な語彙は,基層に属する.文化的な(「高級な」)語彙,言い回し・表現法(広義のレトリック),文体などは,表層に属する.ある言語の使い手は,基層に属する部分を子供時代に無意識的に習得してしまう.表層に属する部分は,教育と学習によって徐々に身につける.独創ともなれば,なおさらの努力が必要である.
基層と表層の区別が,言語習得における段階と連動していることはいうまでもない.また,この区別は,話し言葉と書き言葉の区別,あるいは書き言葉のなかでの口語体と文語体の区別とも連動することが,続く野村の文章で触れられている (12) .
書き言葉口語体は,文化語彙,言い回し・表現法,文体などの表層部分では,必ずしも話し言葉には従っていない.しかし,基層に属する文法や音声・音韻,基礎語彙などの面で,話し言葉のそれらに従っている.一方,「文語体」(古典語をもとにした文語体)は,文法,音韻,基礎語彙などの面で,古典語のそれらに従っているのである.
基層と表層の区別はまた,他言語からの借用に対して開かれている程度にも関係するだろう.基層は他言語からの干渉を比較的受けにくいが,表層では受けやすいということはありそうだ.この問題については,「#902. 借用されやすい言語項目」 ([2011-10-16-1]),「#1780. 言語接触と借用の尺度」 ([2014-03-12-1]),「#2011. Moravcsik による借用の制約」 ([2014-10-29-1]) の記事や,「#2067. Weinreich による言語干渉の決定要因」 ([2014-12-24-1]) も参照されたい.
・ 野村 剛史 『話し言葉の日本史』 吉川弘文館,2011年.
話し言葉と書き言葉の対立について,「#3274. 話し言葉と書き言葉 (5)) ([2018-04-14-1]) に掲げたリンク先の記事で様々に取り上げてきた.書き言葉の特徴と,その特徴がなぜあるのかについて,改めて考えてみたい.
野村 (8) によれば,話し言葉と比較される書き言葉の特徴として,以下の3点があるという.
(1) 内容が整理され,文体が洗練される.
(2) 上品になる.パブリックな場の表現である.
(3) 対・聞き手表現が減じる.
(1) には,順序や論理の考慮,引き締まった表現,語彙の選択,単調さを避ける工夫などが含まれる.(2) は,言葉遣いがフォーマルになるということである.(3) は,命令・依頼・問い掛けや間投詞などが減るということである.これらは程度の問題ではあるが,確かに書き言葉の本質的な特徴といってよい.
では,なぜこれらの特徴が古今東西の書き言葉において共通して見られるのだろうか.なぜこれらが書き言葉の本質的な特徴なのだろうか.野村 (10) は,次のように述べる.
まず,話し言葉では目前の聞き手,話題の現場や共通の了解など,言葉を発する以前に共有している事柄・知識の援助が期待できる.それにもたれかかれば,特に (1) の必要性は大いに減ずる.一方,書き言葉は,話し言葉と異なって文字に定着する.それは不特定の人々の目にさらされる可能性がある.初めから人々を意識して表現される場合もある.話し言葉であっても,大勢の人々の前で話すとなると改まりが生じる.人々の目にさらされることへの意識は,重要である.しかし,文字への定着ということの最も大切な特性は,それが書き手自身の目にさらされるという点にある.
「旅の恥はかき捨て」という言葉がある.話し言葉というのはもっとひどい.それは,語るそばから消えてしまう言語である.いわば言語の垂れ流しである.しかし,書き言葉ではそうはいかない.文章を書いてみるとわかることだが,何だかよそよそしく対象化された言語がそこにあるという感じになる.それは「洗練」を行いやすくもするが,同時に洗練せざるを得ないという状況も作り出すのである.
書き言葉は必然的に書き手自身の目に触れることになり,それゆえに書き手に洗練を迫るものなのだという議論は,非常に鋭い洞察である.人に見られる緊張感よりも,必ず自分の目に入ってしまう恐怖感のほうが強いということだろうか.「#1065. 第三者的な客体としての音声言語の特徴」 ([2012-03-27-1]) の記事で,音声言語を「第三者的な客体」ととらえたが,考えてみれば,書き言葉は書かれてしまえばそこにずっととどまるのだから,余計に第三者的な客体であると考えられる.新しい書き言葉観を得られた気がする.
・ 野村 剛史 『話し言葉の日本史』 吉川弘文館,2011年.
話し言葉と書き言葉は言語の2大メディアだが,それぞれに特有の,情報を整序し意味を伝える形式的なデバイスが存在する.英語に関するものとして,Stubbs (117) がいくつか列挙しているので,Milroy and Milroy (117--18) 経由で示そう.
Speech (conversation): intonation, pitch, stress, rhythm, speed of utterance, pausing, silences, variation in loudness; other paralinguistic features, including aspiration, laughter, voice quality; timing, including simultaneous speech; co-occurrence with proxemic and kinesic signals; availability of physical context.
Writing (printed material): spacing between words; punctuation, including parentheses; typography, including style of typeface italicization, underlining, upper and lower case; capitalization to indicate sentence beginnings and propoer nouns; inverted commas, for instance to indicate that a term is being used critically (Chimpanzees' 'language' is. . . .); graphics, including lines, shapes, borders, diagrams, tables; abbreviations; logograms, for example, &; layout, including paragraphing, spacing, margination, pagination, footnotes, headings and sub-headings; permanence and therefore availability of the co-text.
このようなデバイスのリストは,両メディアを比較対照して論じる際にたいへん有用である.本ブログでも,この種の比較対照は多くの記事で取り上げてきた話題なので,主たるものを参考のため,以下に示しておこう.
・ 「#230. 話しことばと書きことばの対立は絶対的か?」 ([2009-12-13-1])
・ 「#748. 話し言葉と書き言葉」 ([2011-05-15-1])
・ 「#849. 話し言葉と書き言葉 (2)」 ([2011-08-24-1])
・ 「#1001. 話しことばと書きことば (3)」 ([2012-01-23-1])
・ 「#1655. 耳で読むのか目で読むのか」 ([2013-11-07-1])
・ 「#1665. 話しことばと書きことば (4)」 ([2013-11-17-1])
・ 「#1829. 書き言葉テクストの3つの機能」 ([2014-04-30-1])
・ 「#2301. 話し言葉と書き言葉をつなぐスペクトル」 ([2015-08-15-1])
・ Milroy, Lesley and James Milroy. Authority in Language: Investigating Language Prescription and Standardisation. 4th ed. London and New York: Routledge, 2012.
・ Stubbs, M. Language and Literacy: The Sociolinguistics of Reading and Writing. London: Routledge & Kegan Paul, 1980.
Powered by WinChalow1.0rc4 based on chalow