hellog〜英語史ブログ     ChangeLog 最新    

vocabulary - hellog〜英語史ブログ

最終更新時間: 2024-04-23 15:39

2023-03-17 Fri

#5072. 機械も人間も無限に増えていく語彙を学習し続けている [social_media][vocabulary][nlp][complex_system][dynamic_equilibrium]

 この2日間の記事「#5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している」 ([2023-03-15-1]) と「#5071. ソーシャルメディアは自然言語データの最大の発生源である」 ([2023-03-16-1]) に引き続き,ソーシャルメディアの言語について.今回は同メディアにおける語彙の増加率が著しい件を取り上げる.
 Vajjala 他 (296) に「増え続ける語彙」という1節がある(引用中の図の再掲は省略する).

ほとんどの言語では,毎年新しい単語が増えることはほとんどありません.しかし,「ソーシャルの言語」では,非常に早いスピードで語彙が増えています.毎日のように新しい単語が現れるのです.つまり,ソーシャルメディアのテキストを処理する NLP システムは,学習データの語彙に含まれていない大量の新語を扱うことになります.
この問題の深刻さを知るために,図8-5を見てみましょう.これは数年前に行った実験で,大規模なツイートのコーパスを集め,月ごとに新語の数を可視化したものです.この図は,1か月間に見られた新語の割合を前月のデータと比較しています.画像からもわかるように,前月の数字と比較すると,毎月10~15%の新しい単語が増えています.


 冒頭の「ほとんどの言語では,毎年新しい単語が増えることはほとんどありません」は正確ではないが,ソーシャルメディアでの語彙増加率として提示されている「10~15%」を信じるならば,それと比較して微々たるものだという主張としては受け入れられそうだ.
 自然言語処理のシステムは,このような日々の語彙爆発に対応するために,新単語をひたすら学習し,語彙体系を最新状態に保たなければならない.疲れ知らずの機械とはいえ,処理効率を維持するにあたり,大きな負荷になっているという.自然言語処理のシステムは,そもそも動的に更新されなければならない宿命なのである.
 システムの動的性格について,Vajjala 他は別の箇所で次のようにも述べている (398) .

NLP のモデルは,静的なものではありません.本番環境でも頻繁にモデルの更新を求められます.これについてはいくつかの理由があります.本番環境では,以前の学習データとは異なる,より多くの(そしてより新しい)データを得られます.この変化に合わせてモデルを更新しなければ,モデルはすぐに陳腐化してしまい,予測性能は低下するでしょう.また,モデルの予測が間違っている場合について,ユーザーからフィードバックを得られることがあります.その際には,モデルとその特徴を反映し,適宜修正を加える必要があります.いずれの場合も,現行モデルを定期的に再学習して更新し,新しいモデルを本番にデプロイするプロセスを構築する必要があります.


 ここまで考察して,これは機械による自然言語処理のシステムに限った話しではなく,まさに人間の言語処理にもそのまま当てはまることだと気づいた.人間も,周囲で生じている言語環境の変化に合わせて常に言語体系を最新状態に更新しているのであり,その点では特に機械と異なるところはない.言語は複雑系 (complex_system) の動的システムであり,動的平衡 (dynamic_equilibrium) を保ちながら機能し続けているのである.
 人間の言語知識を再現しようとしている自然言語処理の分野の知見が,むしろ人間の言語知識とは何かという問いに示唆を与えてくれる1例ではないか.

 ・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.

[ 固定リンク | 印刷用ページ ]

2023-01-29 Sun

#5025. 最長の英単語をめぐって --- 『英文学者がつぶやく英語と英国文化をめぐる無駄話』より [review][spelling][vocabulary][shakespeare][word_game]

 昨年出版された安藤聡(著)『英文学者がつぶやく英語と英国文化をめぐる無駄話』(平凡社)を読了した.英語(文化)史を中心とした教養のエッセイ集である.

安藤 聡 『英文学者がつぶやく英語と英国文化をめぐる無駄話』 平凡社,2022年.



 本書の2つめのエッセイの題が「最も長い英単語」である (24--31) .本ブログでも関連する記事を3本書いてきた.

 ・ 「#63. 塵肺症は英語で最も重い病気?」 ([2009-06-30-1]) より pneumonoultramicroscopicsilicovolcanoconiosis
 ・ 「#2797. floccinaucinihilipilification」 ([2016-12-23-1])
 ・ 「#391. antidisestablishmentarianism 「反国教会廃止主義」」 ([2010-05-23-1])

 この3つの語は当該のエッセイでも触れられているが,もう1つ私の知らなかった長大な語が挙げられていたので,オォっとなった.supercalifragilisticexpialidocious という34文字からなる無意味な語である.OED によると "A nonsense word, originally used esp. by children, and typically expressing excited approbation: fantastic, fabulous." と説明がある.1931年が初出だが,1964年のディズニー映画『メリー・ポピンズ』のなかで呪文として用いられ有名になった語ということだ.
 同エッセイでは,特別部門での最長英単語も紹介されている.例えば固有名詞部門としてウェイルズの地名 Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch は58文字からなる.2つの村が合併して両方の名前が接続されたために,このようなことになったらしい.読み方は不明で,そもそも英単語なのかというと怪しいところがあり,アレではある.
 同じ文字を繰り返さない pangram 的な最長英単語の部門としては,dermatoglyphics 「掌紋学」と uncopyrightable 「版権を取ることが出来ない」がそれぞれ15文字で最長語候補となる.pangram については「#1007. Veldt jynx grimps waqf zho buck.」 ([2012-01-29-1]) を参照.
 Shakespeare が用いた最長単語の部門としては,『恋の骨折り損』より honorificabilitudinitatibus 「名誉を受けるに値する」が挙げられている.
 最後に,語頭と語末の間に1マイルもの距離がある smiles が最長英単語であるというのは古典的なジョークである.
 英語好きにぜひお勧めしたいエッセイ集.

 ・ 安藤 聡 『英文学者がつぶやく英語と英国文化をめぐる無駄話』 平凡社,2022年.

Referrer (Inside): [2023-03-14-1]

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow