#5072. 機械も人間も無限に増えていく語彙を学習し続けている

2023-03-17

　この2日間の記事「#5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している」 ([2023-03-15-1]) と「#5071. ソーシャルメディアは自然言語データの最大の発生源である」 ([2023-03-16-1]) に引き続き，ソーシャルメディアの言語について．今回は同メディアにおける語彙の増加率が著しい件を取り上げる．
　Vajjala 他 (296) に「増え続ける語彙」という1節がある（引用中の図の再掲は省略する）．

ほとんどの言語では，毎年新しい単語が増えることはほとんどありません．しかし，「ソーシャルの言語」では，非常に早いスピードで語彙が増えています．毎日のように新しい単語が現れるのです．つまり，ソーシャルメディアのテキストを処理する NLP システムは，学習データの語彙に含まれていない大量の新語を扱うことになります．
この問題の深刻さを知るために，図8-5を見てみましょう．これは数年前に行った実験で，大規模なツイートのコーパスを集め，月ごとに新語の数を可視化したものです．この図は，1か月間に見られた新語の割合を前月のデータと比較しています．画像からもわかるように，前月の数字と比較すると，毎月10～15%の新しい単語が増えています．

　冒頭の「ほとんどの言語では，毎年新しい単語が増えることはほとんどありません」は正確ではないが，ソーシャルメディアでの語彙増加率として提示されている「10～15%」を信じるならば，それと比較して微々たるものだという主張としては受け入れられそうだ．
　自然言語処理のシステムは，このような日々の語彙爆発に対応するために，新単語をひたすら学習し，語彙体系を最新状態に保たなければならない．疲れ知らずの機械とはいえ，処理効率を維持するにあたり，大きな負荷になっているという．自然言語処理のシステムは，そもそも動的に更新されなければならない宿命なのである．
　システムの動的性格について，Vajjala 他は別の箇所で次のようにも述べている (398) ．

NLP のモデルは，静的なものではありません．本番環境でも頻繁にモデルの更新を求められます．これについてはいくつかの理由があります．本番環境では，以前の学習データとは異なる，より多くの（そしてより新しい）データを得られます．この変化に合わせてモデルを更新しなければ，モデルはすぐに陳腐化してしまい，予測性能は低下するでしょう．また，モデルの予測が間違っている場合について，ユーザーからフィードバックを得られることがあります．その際には，モデルとその特徴を反映し，適宜修正を加える必要があります．いずれの場合も，現行モデルを定期的に再学習して更新し，新しいモデルを本番にデプロイするプロセスを構築する必要があります．

　ここまで考察して，これは機械による自然言語処理のシステムに限った話しではなく，まさに人間の言語処理にもそのまま当てはまることだと気づいた．人間も，周囲で生じている言語環境の変化に合わせて常に言語体系を最新状態に更新しているのであり，その点では特に機械と異なるところはない．言語は複雑系 (complex_system) の動的システムであり，動的平衡 (dynamic_equilibrium) を保ちながら機能し続けているのである．
　人間の言語知識を再現しようとしている自然言語処理の分野の知見が，むしろ人間の言語知識とは何かという問いに示唆を与えてくれる1例ではないか．

　・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana （著），中山光樹（訳）　『実践　自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』　オライリー・ジャパン，2022年．

[ ツイート | 固定リンク | 印刷用ページ ]

#5072. 機械も人間も無限に増えていく語彙を学習し続けている[social_media][vocabulary][nlp][complex_system][dynamic_equilibrium]