Vajjala 他の自然言語処理 (nlp) に関する本を読み終えた.機械学習やディープラーニングを含むこの発展著しい分野について,ようやく概要をつかめた気がする.自然言語処理は経験的で帰納的な手法に基づいているが,言語(の知識)とは何かという問題に,新技術の観点から新たな光を当てており,非常にエキサイティングな領域である.
自然言語処理の技術は様々に応用されているが,ソーシャルメディアの言語の分析も注目が集まっている分野の1つだ.Vajjala 他 (289) によると,ソーシャルメディアの言語の質と量を概観する目安として,以下を2020年の統計として挙げている.
量
Twitter の月間アクティヴユーザー数は1億5,200万人,Facebook は25億人
速度
6,000ツイート/秒,57,000投稿/秒 (Facebook)
多様性
トピック,言語,文体,文字体系
さらに,2019年の統計として,様々なソーシャルプラットフォームで1分間に生成されているデータの量が与えられている (290) .主要なものを抜き出して箇条書きする.
・ Google: 380万 検索クエリ数
・ facebook: 100万 ログイン数
・ YouTube: 450万 動画視聴数
・ Google Play/App Store: 390,030 ダウンロードされたアプリ数
・ Instagram: 347,222 スクロール数
・ Twitter: 87,500 ツイートしている人数
・ 電子メール: 1億8,800万 送信されたメール数
・ NETFLIX: 694,444 視聴時間
・ オンラインショップ: 996,956ドル オンライン上での買い物額
これらのデータのすべてが言語データではないにせよ,毎分計り知れない量の言語データが行き交っていることが分かる.もちろんこのようなメディアの外部,例えば日常的な対話などにおいても,交わされている言語データの量は計り知れないほどあることは容易に想像されるが,理論的/現実的にデータを入手し得るという点を考慮すれば「ソーシャルプラットフォームは自然言語データの最大の発生源であることは間違いない」 (290) .
英語史や英語歴史言語学の分野では,言語研究の主戦場となるメディアは現存する資料に刻まれた書き言葉だった.では,現代の共時的な英語(言語)研究の分野では,主戦場となるメディアは何になるのだろう.ソーシャルメディアの話し言葉や書き言葉が有力候補の1つになっていくことは確かである.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
Powered by WinChalow1.0rc4 based on chalow