hellog〜英語史ブログ     前の日     次の日     最新     2023-03     検索ページへ     ランダム表示    

hellog〜英語史ブログ / 2023-03-10

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2023-03-10 Fri

#5065. 自然言語処理 (NLP) の基本タスク [nlp][corpus][history_of_linguistics]

 私の直接の専門からはほど遠いが,今をときめく言語に関する分野の1つに自然言語処理 (Natural Language Processing) がある.これ自体がとてつもなく広い領域を扱うし,来たるべきAI時代にあっては応用範囲も無限大だろう.コンピュータ・サイエンス,AI,機械学習,ディープ・ラーニングなどとも関連をもつ,この分野の本を読み出している.
 私の専攻する英語史や歴史言語学の分野では,どのような話題が自然言語処理と関係してきただろうかと問うてみると,おおよそコーパス周りの技術だろう.正規化,レマ化,品詞タグ付け,コンコーダンスなど自然言語処理のタスクのなかでは最も基本的な部類に入るタスクだ.より直接的には,近代英語より前の時代のスペリングの正規化・標準化などの問題に関心がある.
 入門書によれば,自然言語処理の基本タスクには様々なものがある.Vajjala 他の pp. 6--7 には,主要なものが列挙されている.

言語モデル
  言語モデルは,単語の履歴に基づいて,次の単語を予測するタスクです.このタスクの目標は,ある言語における単語系列の出現確率を学習することです.言語モデルは,音声認識,光学式文字認識,手書き文字認識,機械翻訳,スペル修正など,幅広い問題のソリューションを構築するのに役立ちます.

テキスト分類
  テキスト分類は,テキストをその内容に基づいて,事前に定義したカテゴリへ分類するタスクです.テキスト分類は NLP でもっとも一般的なタスクであり,電子メールのスパム識別からセンチメント分析まで,さまざまなツールで使われています.

情報抽出
  情報抽出は,その名が示すように,テキストから関連情報を抽出するタスクです.たとえば,電子メールから予定を抽出したり,ソーシャルメディアの投稿で言及されている人名などの抽出に使えます.

情報検索
  情報検索は,ユーザーのクエリに関連する文書を大規模な文書集合から検索するタスクです.よく知られたユースケースとして,Google 検索があります.

会話エージェント
  会話エージェントは,自然言語での会話が可能な対話システムを構築するタスクです.よく知られたアプリケーションとして,Alexa や Siri があります.

テキスト要約
  テキスト要約は,テキストの主な事柄と全体的な意味を維持しながら,元のテキストより短い要約を作成するタスクです.

質問応答
  質問応答は,自然言語で尋ねられた質問に自動的に回答できるシステムを構築するタスクです.

機械翻訳
  機械翻訳は,テキストをある言語から別の言語に変換するタスクです.よく知られたアプリケーションとして,Google 翻訳があります.

トピックモデル
  トピックモデルは,大規模な文書集合のトピック構造を明らかにするタスクです.トピックモデルはテキストマイニングツールとしてよく使われており,文学からバイオインフォマティクスまで,幅広い分野で使われています.


 自然言語処理は実用的なタスクをこなすための技術だが,そのベースには当然ながら言語学の知見が多く含まれている.そこから再出発して,自然言語処理の技術によって可能となった問題解決の手法が,いかにして英語史や歴史言語学の学術的問題に適用され得るのか.この辺りを考察していくことが,今後エキサイティングな課題となりそうだ.

 ・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.

Referrer (Inside): [2024-01-01-1]

[ 固定リンク | 印刷用ページ ]

2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2024-01-26 18:20

Powered by WinChalow1.0rc4 based on chalow