Vajjala 他の自然言語処理 (nlp) に関する本を読み終えた.機械学習やディープラーニングを含むこの発展著しい分野について,ようやく概要をつかめた気がする.自然言語処理は経験的で帰納的な手法に基づいているが,言語(の知識)とは何かという問題に,新技術の観点から新たな光を当てており,非常にエキサイティングな領域である.
自然言語処理の技術は様々に応用されているが,ソーシャルメディアの言語の分析も注目が集まっている分野の1つだ.Vajjala 他 (289) によると,ソーシャルメディアの言語の質と量を概観する目安として,以下を2020年の統計として挙げている.
量
Twitter の月間アクティヴユーザー数は1億5,200万人,Facebook は25億人
速度
6,000ツイート/秒,57,000投稿/秒 (Facebook)
多様性
トピック,言語,文体,文字体系
さらに,2019年の統計として,様々なソーシャルプラットフォームで1分間に生成されているデータの量が与えられている (290) .主要なものを抜き出して箇条書きする.
・ Google: 380万 検索クエリ数
・ facebook: 100万 ログイン数
・ YouTube: 450万 動画視聴数
・ Google Play/App Store: 390,030 ダウンロードされたアプリ数
・ Instagram: 347,222 スクロール数
・ Twitter: 87,500 ツイートしている人数
・ 電子メール: 1億8,800万 送信されたメール数
・ NETFLIX: 694,444 視聴時間
・ オンラインショップ: 996,956ドル オンライン上での買い物額
これらのデータのすべてが言語データではないにせよ,毎分計り知れない量の言語データが行き交っていることが分かる.もちろんこのようなメディアの外部,例えば日常的な対話などにおいても,交わされている言語データの量は計り知れないほどあることは容易に想像されるが,理論的/現実的にデータを入手し得るという点を考慮すれば「ソーシャルプラットフォームは自然言語データの最大の発生源であることは間違いない」 (290) .
英語史や英語歴史言語学の分野では,言語研究の主戦場となるメディアは現存する資料に刻まれた書き言葉だった.では,現代の共時的な英語(言語)研究の分野では,主戦場となるメディアは何になるのだろう.ソーシャルメディアの話し言葉や書き言葉が有力候補の1つになっていくことは確かである.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
ソーシャルメディアの書き言葉は,省略やタイポが多い.英語でいえば単語の省略の仕方は一通りではなく,いずれの省略綴字が用いられるかは予測できない.自然言語処理 (nlp) においては,このような省略綴字を正規化するなどの前処理が必要となり,なかなか厄介な問題のようだ.
一方,中英語の綴字のヴァリエーションも豊富である.綴り方は一通りではなく,いずれの綴字が用いられるかは,方言ごとに緩い傾向はあるものの,完全には予測できない.中英語を読んだり分析する際には,多様な綴字を「正規化」する必要があり,かなり厄介な問題だ.
両者は,このようにとても似ている."tomorrow" という単語の綴字ヴァリエーションを例に取り,比較してみよう.ソーシャルメディアの例は Vajjala 他 (p. 295) から,中英語の例は MED から取った.
[ ソーシャルメディアからの "tomorrow" の綴字 ]
tmw, tomarrow, 2mrw, tommorw, 2moz, tomorro, tommarrow, tomarro, 2m, tomorrw, tmmrw, tomoz, tommorow, tmrrw, tommarow, 2maro, tmrow, tommoro, tomolo, 2mor, 2moro, 2mara, 2mw, tomaro, tomarow, tomoro, 2morr, 2mro, tmoz, tomo, 2morro, 2mar, 2marrow, tmr, tomz, tmorrow, 2mr, tmo, tmro, tommorrow, tmrw, tmrrow, 2mora, tommrow, tmoro, 2ma, 2morrow, tomrw, tomm, tmrww, 2morow, 2mrrw, tomorow
[ MED からの "tomorrow" の綴字 ]
tōmōrn, tomorne, -moroun(e, -morwen, -morwin, -morewen, -morgen, tomor3en, -moregan, -moreuin, -marewene, -marwen, -marhen, -mar3an, -mar3en, -mær3en, temarwen; tōmōrwe, tomorewe, -moreu, -mor(r)owe, -mor(r)ou, -morou, -moru(e, -mor3e, -marewe, temorwe, tomoruwe, -more3e, -mar3e, -mær3e
もう主旨はお分かりだろう.ソーシャルメディアを対象とする自然言語処理技術の発展は,中英語研究にも有用にちがいない! 笑い話のようでありながら,いや,なかなかおもしろい比較ではないか.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
Powered by WinChalow1.0rc4 based on chalow