ソーシャルメディアの書き言葉は,省略やタイポが多い.英語でいえば単語の省略の仕方は一通りではなく,いずれの省略綴字が用いられるかは予測できない.自然言語処理 (nlp) においては,このような省略綴字を正規化するなどの前処理が必要となり,なかなか厄介な問題のようだ.
一方,中英語の綴字のヴァリエーションも豊富である.綴り方は一通りではなく,いずれの綴字が用いられるかは,方言ごとに緩い傾向はあるものの,完全には予測できない.中英語を読んだり分析する際には,多様な綴字を「正規化」する必要があり,かなり厄介な問題だ.
両者は,このようにとても似ている."tomorrow" という単語の綴字ヴァリエーションを例に取り,比較してみよう.ソーシャルメディアの例は Vajjala 他 (p. 295) から,中英語の例は MED から取った.
[ ソーシャルメディアからの "tomorrow" の綴字 ]
tmw, tomarrow, 2mrw, tommorw, 2moz, tomorro, tommarrow, tomarro, 2m, tomorrw, tmmrw, tomoz, tommorow, tmrrw, tommarow, 2maro, tmrow, tommoro, tomolo, 2mor, 2moro, 2mara, 2mw, tomaro, tomarow, tomoro, 2morr, 2mro, tmoz, tomo, 2morro, 2mar, 2marrow, tmr, tomz, tmorrow, 2mr, tmo, tmro, tommorrow, tmrw, tmrrow, 2mora, tommrow, tmoro, 2ma, 2morrow, tomrw, tomm, tmrww, 2morow, 2mrrw, tomorow
[ MED からの "tomorrow" の綴字 ]
tōmōrn, tomorne, -moroun(e, -morwen, -morwin, -morewen, -morgen, tomor3en, -moregan, -moreuin, -marewene, -marwen, -marhen, -mar3an, -mar3en, -mær3en, temarwen; tōmōrwe, tomorewe, -moreu, -mor(r)owe, -mor(r)ou, -morou, -moru(e, -mor3e, -marewe, temorwe, tomoruwe, -more3e, -mar3e, -mær3e
もう主旨はお分かりだろう.ソーシャルメディアを対象とする自然言語処理技術の発展は,中英語研究にも有用にちがいない! 笑い話のようでありながら,いや,なかなかおもしろい比較ではないか.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
Powered by WinChalow1.0rc4 based on chalow