01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
OED が OED Text Visualizer という物凄いツールを作っている.入力欄に英文テキストを放り投げると,OED の情報に基づいて背後で各単語にタグが付され,初出年代と語源をタイムラインで視覚的に表現してくれるというものだ.いつかこのようなツールが作れたら(あるいは誰かが作ってくれたら)いいなと私が夢見ていたような語源表示ツールである.これまでも技術的には十分に可能だったろうが,本格的に取り組む者が現われなかった.それを OED が実装してくれたというのは,さすがである.開発中のベータ版ということで,入力する英文は500語まで,また1750年以後の英文でないと精度が下がるなどの制限はあるようだが,十分に楽しめる.
百聞は一見に如かず.「#3276. Churchill の We Shall Fight on the Beaches 演説」 ([2018-04-16-1]) より,308語からなる英文の1節を放り込んでみた.1940年の演説なので,その年代も添えつつ Vizualize ボタンをクリックすると,次のような図が返される(画像クリックで拡大).
テキストに現われる各単語(レンマ)がバブルで表現されている.バブルの左右の位置はその語の初出年代に対応し,色は語源に,大きさは同テキスト内の頻度に対応する.バブルにマウスを乗せれば,その語の詳しい情報が得られる.スゴい.
画面のさらに下には,各単語が token ベース,および lexeme ベースでタグ付けされた情報が一覧され,CSV や JSON でダウンロードできるので,後からプログラムを用いて詳しく分析することも可能である.
いや,驚いた.英語史の研究方法もどんどん変わっていきそうだ.
2024 : 01 02 03 04 05 06 07 08 09 10 11 12
2023 : 01 02 03 04 05 06 07 08 09 10 11 12
2022 : 01 02 03 04 05 06 07 08 09 10 11 12
2021 : 01 02 03 04 05 06 07 08 09 10 11 12
2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2024-11-26 08:10
Powered by WinChalow1.0rc4 based on chalow