この2日間の記事「#5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している」 ([2023-03-15-1]) と「#5071. ソーシャルメディアは自然言語データの最大の発生源である」 ([2023-03-16-1]) に引き続き,ソーシャルメディアの言語について.今回は同メディアにおける語彙の増加率が著しい件を取り上げる.
Vajjala 他 (296) に「増え続ける語彙」という1節がある(引用中の図の再掲は省略する).
ほとんどの言語では,毎年新しい単語が増えることはほとんどありません.しかし,「ソーシャルの言語」では,非常に早いスピードで語彙が増えています.毎日のように新しい単語が現れるのです.つまり,ソーシャルメディアのテキストを処理する NLP システムは,学習データの語彙に含まれていない大量の新語を扱うことになります.
この問題の深刻さを知るために,図8-5を見てみましょう.これは数年前に行った実験で,大規模なツイートのコーパスを集め,月ごとに新語の数を可視化したものです.この図は,1か月間に見られた新語の割合を前月のデータと比較しています.画像からもわかるように,前月の数字と比較すると,毎月10~15%の新しい単語が増えています.
冒頭の「ほとんどの言語では,毎年新しい単語が増えることはほとんどありません」は正確ではないが,ソーシャルメディアでの語彙増加率として提示されている「10~15%」を信じるならば,それと比較して微々たるものだという主張としては受け入れられそうだ.
自然言語処理のシステムは,このような日々の語彙爆発に対応するために,新単語をひたすら学習し,語彙体系を最新状態に保たなければならない.疲れ知らずの機械とはいえ,処理効率を維持するにあたり,大きな負荷になっているという.自然言語処理のシステムは,そもそも動的に更新されなければならない宿命なのである.
システムの動的性格について,Vajjala 他は別の箇所で次のようにも述べている (398) .
NLP のモデルは,静的なものではありません.本番環境でも頻繁にモデルの更新を求められます.これについてはいくつかの理由があります.本番環境では,以前の学習データとは異なる,より多くの(そしてより新しい)データを得られます.この変化に合わせてモデルを更新しなければ,モデルはすぐに陳腐化してしまい,予測性能は低下するでしょう.また,モデルの予測が間違っている場合について,ユーザーからフィードバックを得られることがあります.その際には,モデルとその特徴を反映し,適宜修正を加える必要があります.いずれの場合も,現行モデルを定期的に再学習して更新し,新しいモデルを本番にデプロイするプロセスを構築する必要があります.
ここまで考察して,これは機械による自然言語処理のシステムに限った話しではなく,まさに人間の言語処理にもそのまま当てはまることだと気づいた.人間も,周囲で生じている言語環境の変化に合わせて常に言語体系を最新状態に更新しているのであり,その点では特に機械と異なるところはない.言語は複雑系 (complex_system) の動的システムであり,動的平衡 (dynamic_equilibrium) を保ちながら機能し続けているのである.
人間の言語知識を再現しようとしている自然言語処理の分野の知見が,むしろ人間の言語知識とは何かという問いに示唆を与えてくれる1例ではないか.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
Vajjala 他の自然言語処理 (nlp) に関する本を読み終えた.機械学習やディープラーニングを含むこの発展著しい分野について,ようやく概要をつかめた気がする.自然言語処理は経験的で帰納的な手法に基づいているが,言語(の知識)とは何かという問題に,新技術の観点から新たな光を当てており,非常にエキサイティングな領域である.
自然言語処理の技術は様々に応用されているが,ソーシャルメディアの言語の分析も注目が集まっている分野の1つだ.Vajjala 他 (289) によると,ソーシャルメディアの言語の質と量を概観する目安として,以下を2020年の統計として挙げている.
量
Twitter の月間アクティヴユーザー数は1億5,200万人,Facebook は25億人
速度
6,000ツイート/秒,57,000投稿/秒 (Facebook)
多様性
トピック,言語,文体,文字体系
さらに,2019年の統計として,様々なソーシャルプラットフォームで1分間に生成されているデータの量が与えられている (290) .主要なものを抜き出して箇条書きする.
・ Google: 380万 検索クエリ数
・ facebook: 100万 ログイン数
・ YouTube: 450万 動画視聴数
・ Google Play/App Store: 390,030 ダウンロードされたアプリ数
・ Instagram: 347,222 スクロール数
・ Twitter: 87,500 ツイートしている人数
・ 電子メール: 1億8,800万 送信されたメール数
・ NETFLIX: 694,444 視聴時間
・ オンラインショップ: 996,956ドル オンライン上での買い物額
これらのデータのすべてが言語データではないにせよ,毎分計り知れない量の言語データが行き交っていることが分かる.もちろんこのようなメディアの外部,例えば日常的な対話などにおいても,交わされている言語データの量は計り知れないほどあることは容易に想像されるが,理論的/現実的にデータを入手し得るという点を考慮すれば「ソーシャルプラットフォームは自然言語データの最大の発生源であることは間違いない」 (290) .
英語史や英語歴史言語学の分野では,言語研究の主戦場となるメディアは現存する資料に刻まれた書き言葉だった.では,現代の共時的な英語(言語)研究の分野では,主戦場となるメディアは何になるのだろう.ソーシャルメディアの話し言葉や書き言葉が有力候補の1つになっていくことは確かである.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
ソーシャルメディアの書き言葉は,省略やタイポが多い.英語でいえば単語の省略の仕方は一通りではなく,いずれの省略綴字が用いられるかは予測できない.自然言語処理 (nlp) においては,このような省略綴字を正規化するなどの前処理が必要となり,なかなか厄介な問題のようだ.
一方,中英語の綴字のヴァリエーションも豊富である.綴り方は一通りではなく,いずれの綴字が用いられるかは,方言ごとに緩い傾向はあるものの,完全には予測できない.中英語を読んだり分析する際には,多様な綴字を「正規化」する必要があり,かなり厄介な問題だ.
両者は,このようにとても似ている."tomorrow" という単語の綴字ヴァリエーションを例に取り,比較してみよう.ソーシャルメディアの例は Vajjala 他 (p. 295) から,中英語の例は MED から取った.
[ ソーシャルメディアからの "tomorrow" の綴字 ]
tmw, tomarrow, 2mrw, tommorw, 2moz, tomorro, tommarrow, tomarro, 2m, tomorrw, tmmrw, tomoz, tommorow, tmrrw, tommarow, 2maro, tmrow, tommoro, tomolo, 2mor, 2moro, 2mara, 2mw, tomaro, tomarow, tomoro, 2morr, 2mro, tmoz, tomo, 2morro, 2mar, 2marrow, tmr, tomz, tmorrow, 2mr, tmo, tmro, tommorrow, tmrw, tmrrow, 2mora, tommrow, tmoro, 2ma, 2morrow, tomrw, tomm, tmrww, 2morow, 2mrrw, tomorow
[ MED からの "tomorrow" の綴字 ]
tōmōrn, tomorne, -moroun(e, -morwen, -morwin, -morewen, -morgen, tomor3en, -moregan, -moreuin, -marewene, -marwen, -marhen, -mar3an, -mar3en, -mær3en, temarwen; tōmōrwe, tomorewe, -moreu, -mor(r)owe, -mor(r)ou, -morou, -moru(e, -mor3e, -marewe, temorwe, tomoruwe, -more3e, -mar3e, -mær3e
もう主旨はお分かりだろう.ソーシャルメディアを対象とする自然言語処理技術の発展は,中英語研究にも有用にちがいない! 笑い話のようでありながら,いや,なかなかおもしろい比較ではないか.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
Powered by WinChalow1.0rc4 based on chalow