nlp / hellog～英語史ブログ

最終更新時間: 2026-07-15 01:27

2023-03-17 Fri

■ #5072. 機械も人間も無限に増えていく語彙を学習し続けている [social_media][vocabulary][nlp][complex_system][dynamic_equilibrium]

　この2日間の記事「#5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している」 ([2023-03-15-1]) と「#5071. ソーシャルメディアは自然言語データの最大の発生源である」 ([2023-03-16-1]) に引き続き，ソーシャルメディアの言語について．今回は同メディアにおける語彙の増加率が著しい件を取り上げる．
　Vajjala 他 (296) に「増え続ける語彙」という1節がある（引用中の図の再掲は省略する）．

ほとんどの言語では，毎年新しい単語が増えることはほとんどありません．しかし，「ソーシャルの言語」では，非常に早いスピードで語彙が増えています．毎日のように新しい単語が現れるのです．つまり，ソーシャルメディアのテキストを処理する NLP システムは，学習データの語彙に含まれていない大量の新語を扱うことになります．
この問題の深刻さを知るために，図8-5を見てみましょう．これは数年前に行った実験で，大規模なツイートのコーパスを集め，月ごとに新語の数を可視化したものです．この図は，1か月間に見られた新語の割合を前月のデータと比較しています．画像からもわかるように，前月の数字と比較すると，毎月10～15%の新しい単語が増えています．

　冒頭の「ほとんどの言語では，毎年新しい単語が増えることはほとんどありません」は正確ではないが，ソーシャルメディアでの語彙増加率として提示されている「10～15%」を信じるならば，それと比較して微々たるものだという主張としては受け入れられそうだ．
　自然言語処理のシステムは，このような日々の語彙爆発に対応するために，新単語をひたすら学習し，語彙体系を最新状態に保たなければならない．疲れ知らずの機械とはいえ，処理効率を維持するにあたり，大きな負荷になっているという．自然言語処理のシステムは，そもそも動的に更新されなければならない宿命なのである．
　システムの動的性格について，Vajjala 他は別の箇所で次のようにも述べている (398) ．

NLP のモデルは，静的なものではありません．本番環境でも頻繁にモデルの更新を求められます．これについてはいくつかの理由があります．本番環境では，以前の学習データとは異なる，より多くの（そしてより新しい）データを得られます．この変化に合わせてモデルを更新しなければ，モデルはすぐに陳腐化してしまい，予測性能は低下するでしょう．また，モデルの予測が間違っている場合について，ユーザーからフィードバックを得られることがあります．その際には，モデルとその特徴を反映し，適宜修正を加える必要があります．いずれの場合も，現行モデルを定期的に再学習して更新し，新しいモデルを本番にデプロイするプロセスを構築する必要があります．

　ここまで考察して，これは機械による自然言語処理のシステムに限った話しではなく，まさに人間の言語処理にもそのまま当てはまることだと気づいた．人間も，周囲で生じている言語環境の変化に合わせて常に言語体系を最新状態に更新しているのであり，その点では特に機械と異なるところはない．言語は複雑系 (complex_system) の動的システムであり，動的平衡 (dynamic_equilibrium) を保ちながら機能し続けているのである．
　人間の言語知識を再現しようとしている自然言語処理の分野の知見が，むしろ人間の言語知識とは何かという問いに示唆を与えてくれる1例ではないか．

　・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana （著），中山光樹（訳）　『実践　自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』　オライリー・ジャパン，2022年．

[ 固定リンク | 印刷用ページ ]

2023-03-16 Thu

■ #5071. ソーシャルメディアは自然言語データの最大の発生源である [social_media][media][nlp]

　Vajjala 他の自然言語処理 (nlp) に関する本を読み終えた．機械学習やディープラーニングを含むこの発展著しい分野について，ようやく概要をつかめた気がする．自然言語処理は経験的で帰納的な手法に基づいているが，言語（の知識）とは何かという問題に，新技術の観点から新たな光を当てており，非常にエキサイティングな領域である．
　自然言語処理の技術は様々に応用されているが，ソーシャルメディアの言語の分析も注目が集まっている分野の1つだ．Vajjala 他 (289) によると，ソーシャルメディアの言語の質と量を概観する目安として，以下を2020年の統計として挙げている．

量
　　　Twitter の月間アクティヴユーザー数は1億5,200万人，Facebook は25億人
速度
　　　6,000ツイート／秒，57,000投稿／秒 (Facebook)
多様性
　　　トピック，言語，文体，文字体系

　さらに，2019年の統計として，様々なソーシャルプラットフォームで1分間に生成されているデータの量が与えられている (290) ．主要なものを抜き出して箇条書きする．

　・ Google: 380万検索クエリ数
　・ facebook: 100万ログイン数
　・ YouTube: 450万動画視聴数
　・ Google Play/App Store: 390,030 ダウンロードされたアプリ数
　・ Instagram: 347,222 スクロール数
　・ Twitter: 87,500 ツイートしている人数
　・電子メール: 1億8,800万送信されたメール数
　・ NETFLIX: 694,444 視聴時間
　・オンラインショップ: 996,956ドルオンライン上での買い物額

　これらのデータのすべてが言語データではないにせよ，毎分計り知れない量の言語データが行き交っていることが分かる．もちろんこのようなメディアの外部，例えば日常的な対話などにおいても，交わされている言語データの量は計り知れないほどあることは容易に想像されるが，理論的／現実的にデータを入手し得るという点を考慮すれば「ソーシャルプラットフォームは自然言語データの最大の発生源であることは間違いない」 (290) ．
　英語史や英語歴史言語学の分野では，言語研究の主戦場となるメディアは現存する資料に刻まれた書き言葉だった．では，現代の共時的な英語（言語）研究の分野では，主戦場となるメディアは何になるのだろう．ソーシャルメディアの話し言葉や書き言葉が有力候補の1つになっていくことは確かである．

　・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana （著），中山光樹（訳）　『実践　自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』　オライリー・ジャパン，2022年．

Referrer (Inside): [2023-03-17-1]

[ 固定リンク | 印刷用ページ ]

2023-03-15 Wed

■ #5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している [spelling][me][nlp][med][social_media][media]

　ソーシャルメディアの書き言葉は，省略やタイポが多い．英語でいえば単語の省略の仕方は一通りではなく，いずれの省略綴字が用いられるかは予測できない．自然言語処理 (nlp) においては，このような省略綴字を正規化するなどの前処理が必要となり，なかなか厄介な問題のようだ．
　一方，中英語の綴字のヴァリエーションも豊富である．綴り方は一通りではなく，いずれの綴字が用いられるかは，方言ごとに緩い傾向はあるものの，完全には予測できない．中英語を読んだり分析する際には，多様な綴字を「正規化」する必要があり，かなり厄介な問題だ．
　両者は，このようにとても似ている．"tomorrow" という単語の綴字ヴァリエーションを例に取り，比較してみよう．ソーシャルメディアの例は Vajjala 他 (p. 295) から，中英語の例は MED から取った．

［　ソーシャルメディアからの "tomorrow" の綴字　］

tmw, tomarrow, 2mrw, tommorw, 2moz, tomorro, tommarrow, tomarro, 2m, tomorrw, tmmrw, tomoz, tommorow, tmrrw, tommarow, 2maro, tmrow, tommoro, tomolo, 2mor, 2moro, 2mara, 2mw, tomaro, tomarow, tomoro, 2morr, 2mro, tmoz, tomo, 2morro, 2mar, 2marrow, tmr, tomz, tmorrow, 2mr, tmo, tmro, tommorrow, tmrw, tmrrow, 2mora, tommrow, tmoro, 2ma, 2morrow, tomrw, tomm, tmrww, 2morow, 2mrrw, tomorow

［　MED からの "tomorrow" の綴字　］

tōmōrn, tomorne, -moroun(e, -morwen, -morwin, -morewen, -morgen, tomor3en, -moregan, -moreuin, -marewene, -marwen, -marhen, -mar3an, -mar3en, -mær3en, temarwen; tōmōrwe, tomorewe, -moreu, -mor(r)owe, -mor(r)ou, -morou, -moru(e, -mor3e, -marewe, temorwe, tomoruwe, -more3e, -mar3e, -mær3e

　もう主旨はお分かりだろう．ソーシャルメディアを対象とする自然言語処理技術の発展は，中英語研究にも有用にちがいない！　笑い話のようでありながら，いや，なかなかおもしろい比較ではないか．

　・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana （著），中山光樹（訳）　『実践　自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』　オライリー・ジャパン，2022年．

Referrer (Inside): [2023-03-17-1]

[ 固定リンク | 印刷用ページ ]

2023-03-12 Sun

■ #5067. 自然言語処理の前処理 [nlp][corpus]

　自然言語処理 (nlp) の対象となるほとんどすべてのテキストのソースは，そのまま自然言語処理にフィードするわけにはいかない．適切な「前処理」を施して入力に相応しい形に整えた上でフィードすることが求められる．典型的な前処理としては，Vajjala (52ff) によれば次のようなものがある．それぞれタスクとして難易度の差があり，テキストソースの特徴や施したい処理の目的に応じて，必要なタスクと不要なタスクがあることに注意したい．

　・文の分割
　・単語への分割
　・ストップワード (stop word) の除去
　・ステミング
　・見出し語化
　・数字・句読点の除去
　・小文字化
　・テキストの正規化 (text normalization)
　・言語検出
　・コードミキシング
　・翻字 (transliteration)
　・品詞タグ付け
　・構文解析
　・共参照解決 (coreference resolution)
　・関係抽出 (relation extraction)
　・固有表現認識 (named entity recognition)

　昨今は，多くの前処理タスクが，簡単なスクリプトにより，かなりの程度自動化できるようになってきているのでありがたい．ただし，既製の自動化スクリプトの利用はブラックボックスとなりがちなので，例えばコーパスの自作や編纂などをしようと思うのであれば，前処理の基本的な考え方は知っているほうがよいだろう．

　・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana （著），中山光樹（訳）　『実践　自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』　オライリー・ジャパン，2022年．

[ 固定リンク | 印刷用ページ ]

2023-03-10 Fri

■ #5065. 自然言語処理 (NLP) の基本タスク [nlp][corpus][history_of_linguistics]

　私の直接の専門からはほど遠いが，今をときめく言語に関する分野の1つに自然言語処理 (Natural Language Processing) がある．これ自体がとてつもなく広い領域を扱うし，来たるべきAI時代にあっては応用範囲も無限大だろう．コンピュータ・サイエンス，AI，機械学習，ディープ・ラーニングなどとも関連をもつ，この分野の本を読み出している．
　私の専攻する英語史や歴史言語学の分野では，どのような話題が自然言語処理と関係してきただろうかと問うてみると，おおよそコーパス周りの技術だろう．正規化，レマ化，品詞タグ付け，コンコーダンスなど自然言語処理のタスクのなかでは最も基本的な部類に入るタスクだ．より直接的には，近代英語より前の時代のスペリングの正規化・標準化などの問題に関心がある．
　入門書によれば，自然言語処理の基本タスクには様々なものがある．Vajjala 他の pp. 6--7 には，主要なものが列挙されている．

言語モデル
　　言語モデルは，単語の履歴に基づいて，次の単語を予測するタスクです．このタスクの目標は，ある言語における単語系列の出現確率を学習することです．言語モデルは，音声認識，光学式文字認識，手書き文字認識，機械翻訳，スペル修正など，幅広い問題のソリューションを構築するのに役立ちます．

テキスト分類
　　テキスト分類は，テキストをその内容に基づいて，事前に定義したカテゴリへ分類するタスクです．テキスト分類は NLP でもっとも一般的なタスクであり，電子メールのスパム識別からセンチメント分析まで，さまざまなツールで使われています．

情報抽出
　　情報抽出は，その名が示すように，テキストから関連情報を抽出するタスクです．たとえば，電子メールから予定を抽出したり，ソーシャルメディアの投稿で言及されている人名などの抽出に使えます．

情報検索
　　情報検索は，ユーザーのクエリに関連する文書を大規模な文書集合から検索するタスクです．よく知られたユースケースとして，Google 検索があります．

会話エージェント
　　会話エージェントは，自然言語での会話が可能な対話システムを構築するタスクです．よく知られたアプリケーションとして，Alexa や Siri があります．

テキスト要約
　　テキスト要約は，テキストの主な事柄と全体的な意味を維持しながら，元のテキストより短い要約を作成するタスクです．

質問応答
　　質問応答は，自然言語で尋ねられた質問に自動的に回答できるシステムを構築するタスクです．

機械翻訳
　　機械翻訳は，テキストをある言語から別の言語に変換するタスクです．よく知られたアプリケーションとして，Google 翻訳があります．

トピックモデル
　　トピックモデルは，大規模な文書集合のトピック構造を明らかにするタスクです．トピックモデルはテキストマイニングツールとしてよく使われており，文学からバイオインフォマティクスまで，幅広い分野で使われています．

　自然言語処理は実用的なタスクをこなすための技術だが，そのベースには当然ながら言語学の知見が多く含まれている．そこから再出発して，自然言語処理の技術によって可能となった問題解決の手法が，いかにして英語史や歴史言語学の学術的問題に適用され得るのか．この辺りを考察していくことが，今後エキサイティングな課題となりそうだ．

　・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana （著），中山光樹（訳）　『実践　自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』　オライリー・ジャパン，2022年．

Referrer (Inside): [2024-01-01-1]

[ 固定リンク | 印刷用ページ ]

nlp - hellog～英語史ブログ

2023-03-17 Fri

■ #5072. 機械も人間も無限に増えていく語彙を学習し続けている [social_media][vocabulary][nlp][complex_system][dynamic_equilibrium]

2023-03-16 Thu

■ #5071. ソーシャルメディアは自然言語データの最大の発生源である [social_media][media][nlp]

2023-03-15 Wed

■ #5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している [spelling][me][nlp][med][social_media][media]

2023-03-12 Sun

■ #5067. 自然言語処理の前処理 [nlp][corpus]

2023-03-10 Fri

■ #5065. 自然言語処理 (NLP) の基本タスク [nlp][corpus][history_of_linguistics]