中公新書の新刊書『言語の本質』.言語学界隈ではすでに多くのメディアで取り上げられ,話題となっている.中央公論新社のサイトでは特設サイトが設けられており,盛り上がりの様子がわかる.
私が同僚の井上逸兵氏とともに運営している YouTube の「井上逸兵・堀田隆一英語学言語学チャンネル」でも「#141. ベストセラー本,今井むつみ・秋田喜美『言語の本質』を語ってみました.」を2ヶ月ほど前に紹介している.また,人気 YouTube/Podcast チャンネル「ゆる言語学ラジオ」でも,本書の著者の1人である今井むつみ氏の出演回を含め多くの関連回が配信されている.
本書では,(1) 従来の言語学研究では周辺的な扱いを受けてきたオノマトペ (onomatopoeia) が,言語進化・言語習得の初期段階においてきわめて大きな役割を演じており,(2) その基盤の上に,仮説形成推論 (abduction) というヒト固有の推論に駆動される形で,言語能力が雪だるま式に発展・向上していく(=ブートストラッピング)モデルが提案されている.仮説モデルではあるものの,豊富な先行研究に基づきつつ発達心理学の実証実験に裏打ちされた議論には,強い知的興奮を感じる.
本書は,言語変化や言語変異を考える上でも示唆的な指摘に富む.終章では7点の「言語の大原則」が提案されているが,その2点目に「変化すること」が掲げられている.そちらを引用する (258) .
・ 慣習を守る力と,新たな形式と意味を創造して慣習から逸脱しようとする力の間の戦いである
・ 典型的な形式・意味からの一般化としては完全に合っていても,慣習に従わなければ「誤り」あるいは「不自然」と見なされる
・ ただし,言語コミュニティの大半が新たな形式や意味,使い方を好めば,それが既存の形式,意味,使い方を凌駕する
・ 変化は不可避である
言語は,維持しようとする力と変化しようとする力の拮抗と均衡により,結局は変化していくとはいえ体系としては維持されていくという,まさに動的平衡 (dynamic_equilibrium) を体現する不思議な存在であることが,ここでは謳われている.
『言語の本質』,ぜひご一読を.
・ 今井 むつみ・秋田 喜美 『言語の本質 --- ことばはどう生まれ,進化したか』 中公新書,2023年.
この2日間の記事「#5070. ソーシャルメディアと中英語の綴字のヴァリエーションは酷似している」 ([2023-03-15-1]) と「#5071. ソーシャルメディアは自然言語データの最大の発生源である」 ([2023-03-16-1]) に引き続き,ソーシャルメディアの言語について.今回は同メディアにおける語彙の増加率が著しい件を取り上げる.
Vajjala 他 (296) に「増え続ける語彙」という1節がある(引用中の図の再掲は省略する).
ほとんどの言語では,毎年新しい単語が増えることはほとんどありません.しかし,「ソーシャルの言語」では,非常に早いスピードで語彙が増えています.毎日のように新しい単語が現れるのです.つまり,ソーシャルメディアのテキストを処理する NLP システムは,学習データの語彙に含まれていない大量の新語を扱うことになります.
この問題の深刻さを知るために,図8-5を見てみましょう.これは数年前に行った実験で,大規模なツイートのコーパスを集め,月ごとに新語の数を可視化したものです.この図は,1か月間に見られた新語の割合を前月のデータと比較しています.画像からもわかるように,前月の数字と比較すると,毎月10~15%の新しい単語が増えています.
冒頭の「ほとんどの言語では,毎年新しい単語が増えることはほとんどありません」は正確ではないが,ソーシャルメディアでの語彙増加率として提示されている「10~15%」を信じるならば,それと比較して微々たるものだという主張としては受け入れられそうだ.
自然言語処理のシステムは,このような日々の語彙爆発に対応するために,新単語をひたすら学習し,語彙体系を最新状態に保たなければならない.疲れ知らずの機械とはいえ,処理効率を維持するにあたり,大きな負荷になっているという.自然言語処理のシステムは,そもそも動的に更新されなければならない宿命なのである.
システムの動的性格について,Vajjala 他は別の箇所で次のようにも述べている (398) .
NLP のモデルは,静的なものではありません.本番環境でも頻繁にモデルの更新を求められます.これについてはいくつかの理由があります.本番環境では,以前の学習データとは異なる,より多くの(そしてより新しい)データを得られます.この変化に合わせてモデルを更新しなければ,モデルはすぐに陳腐化してしまい,予測性能は低下するでしょう.また,モデルの予測が間違っている場合について,ユーザーからフィードバックを得られることがあります.その際には,モデルとその特徴を反映し,適宜修正を加える必要があります.いずれの場合も,現行モデルを定期的に再学習して更新し,新しいモデルを本番にデプロイするプロセスを構築する必要があります.
ここまで考察して,これは機械による自然言語処理のシステムに限った話しではなく,まさに人間の言語処理にもそのまま当てはまることだと気づいた.人間も,周囲で生じている言語環境の変化に合わせて常に言語体系を最新状態に更新しているのであり,その点では特に機械と異なるところはない.言語は複雑系 (complex_system) の動的システムであり,動的平衡 (dynamic_equilibrium) を保ちながら機能し続けているのである.
人間の言語知識を再現しようとしている自然言語処理の分野の知見が,むしろ人間の言語知識とは何かという問いに示唆を与えてくれる1例ではないか.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
Powered by WinChalow1.0rc4 based on chalow