hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 3 4 次ページ / page 1 (4)

web_service - hellog〜英語史ブログ

最終更新時間: 2019-01-18 05:57

2018-09-18 Tue

#3431. 各種の EEBO 検索インターフェース [eebo][corpus][emode][site][web_service][link][n-gram][kwic]

 初期近代英語期の膨大なテキストを収録した EEBO (Early English Books Online) について,「#3117. EEBO corpus がリリース」 ([2017-11-08-1]) で BYU 提供の EEBO 検索インターフェース Early English Books Online corpus を紹介した.
 それとは別に,Early Modern Print: Text Mining Early Printed English というサイトのプロジェクトで,n-gram や KWIC などの検索インターフェースが提供されていることを知ったので紹介しておきたい.全体的なイントロは,こちらのページをどうぞ.個々の具体的なツールは,次のリンクからアクセスできる.

 ・ EEBO N-Gram Browser (説明はこちら
 ・ EEBO-TCP Key Words in Context (説明はこちら
 ・ EEBO-TCP and ESTC Text Counts
 ・ EEBO-TCP Words Per Year

 また,University of Michigan の提供する Early English Books Online の各種サーチや Lancaster University による EEBO on CQPweb (V3) も同様に有用.
 各種インターフェースのいずれを用いるか迷うところだ.

[ | 固定リンク | 印刷用ページ ]

2018-08-24 Fri

#3406. Levenshtein distance [cgi][web_service][spelling][shakespeare][levenshtein_distance]

 文字列の類似度や相違度を測る有名な指標の1つに,標題の "Levenshtein distance" というものがある,「#3397. 後期中英語期の through のワースト綴字」 ([2018-08-15-1]),「#3398. 中英語期の such のワースト綴字」 ([2018-08-16-1]),「#3399. 綴字の類似度計算機」 ([2018-08-17-1]) でも前提としてきた指標であり,「#1163. オンライン語彙データベース DICT.ORG」 ([2012-07-03-1]) でもこの指標を利用して類似綴字語を取り出すオプションがある.
 考え方は難しくない.もとの文字列から目標の文字列に変換するには,いくつの編集工程(挿入,削除,置換)が必要かを数えればよい.例えば,kitten から sitting へ変換するには,kitten →(ks に置換)→ sitten →(ei に置換)→ sittin →(g を挿入)→ sitting という3工程を踏む必要があるので,両綴字間の Levenshtein distance は3ということになる.通常は挿入,削除,置換の編集工程にそれぞれ1の値を割り当てるが,各々に異なる値を与える計算の仕方もある.
 以下に,通常の重みづけで Levenshtein distance を計測する CGI を置いておく.試しに「#1720. Shakespeare の綴り方」 ([2014-01-11-1]) より25種類の異綴字を取り出して,カンマ区切りなどで下欄に入力してみてください(要するに以下をコピペ).Shakespeare, Schaksp, Shackespeare, Shackespere, Shackspeare, Shackspere, Shagspere, Shakespe, Shakespear, Shake-speare, Shakespere, Shakespheare, Shakp, Shakspe〜, Shakspear, Shakspeare, Shak-speare, Shaksper, Shakspere, Shaxberd, Shaxpeare, Shaxper, Shaxpere, Shaxspere, Shexpere

Input a batch of spellings separated by a newline, tab, or comma, with the first spelling being used as the basis of comparison.
Order of output: As input Sort by Levenshtein distance



 綴字間の類似度や相違度の計測は,曖昧検索やスペリングチェックなどの実用的な目的にも応用されている.標準的な綴字がなかった古い英語の研究にも,ときに役立つことがありそうだ.

[ | 固定リンク | 印刷用ページ ]

2018-08-17 Fri

#3399. 綴字の類似度計算機 [cgi][web_service][spelling][shakespeare][levenshtein_distance]

 この2日間の記事「#3397. 後期中英語期の through のワースト綴字」 ([2018-08-15-1]),「#3398. 中英語期の such のワースト綴字」 ([2018-08-16-1]) で,異綴字間の類似性を計算するスクリプトを利用して,throughsuch の様々な綴字を比較した.このスクリプトは,ある程度使い勝手があるかもしれないと思い,より汎用的な形で CGI を組んでみた.
 ところが,スクリプトの内部的な仕様の関係でサーバ上で動かないということが発覚.残念無念.公開しても無意味であることを承知のうえ,以下に置いておこうと思います(せっかく作ったのだし,私自身のローカルPCでは動いているので・・・).すみません.

Input a batch of spellings separated by a newline, tab, or comma, with the first spelling being used as the basis of comparison.
Order of output: As input Sort by similarity



 と,これではあんまりなので,Shakespeare の異綴字を比較した結果を披露しておきます.「#1720. Shakespeare の綴り方」 ([2014-01-11-1]) で挙げた25種類の異綴字 Shakespeare, Schaksp, Shackespeare, Shackespere, Shackspeare, Shackspere, Shagspere, Shakespe, Shakespear, Shake-speare, Shakespere, Shakespheare, Shakp, Shakspe〜, Shakspear, Shakspeare, Shak-speare, Shaksper, Shakspere, Shaxberd, Shaxpeare, Shaxper, Shaxpere, Shaxspere, Shexpere を入力して,ソートさせると,次のような出力が得られた.

SimilaritySpellings
1.0000Shakespeare
0.9565Shackespeare, Shake-speare, Shakespheare
0.9524Shakespear, Shakespere, Shakspeare
0.9091Shackespere, Shackspeare, Shak-speare
0.9000Shakspear, Shakspere
0.8571Shackspere
0.8421Shakespe, Shaksper
0.8000Shagspere, Shaxpeare, Shaxspere
0.7368Shaxpere, Shexpere
0.7000Shakspe〜
0.6667Schaksp, Shaxper
0.6250Shakp
0.5263Shaxberd


 類似度が0.7以下のものは,およそ省略である.0.7を超えるものは,およそ許せるように感じられるのがおもしろい.

Referrer (Inside): [2018-08-24-1]

[ | 固定リンク | 印刷用ページ ]

2018-02-04 Sun

#3205. スライドできる英語史年表 (3) [timeline][web_service][hel_education]

 「#2358. スライドできる英語史年表」 ([2015-10-11-1]),「#2871. 古英語期のスライド年表」 ([2017-03-07-1]),「#3164. スライドできる英語史年表 (2)」 ([2017-12-25-1]) に引き続き,もう1つのスライド英語史年表を提示する.
 最近の記事で,Algeo and Pyles の英語史概説書に基づく年表を掲載した (see 「#3193. 古英語期の主要な出来事の年表」 ([2018-01-23-1]),「#3196. 中英語期の主要な出来事の年表」 ([2018-01-26-1]),「#3197. 初期近代英語期の主要な出来事の年表」 ([2018-01-27-1]),「#3200. 後期近代英語期の主要な出来事の年表」 ([2018-01-30-1])).今回のスライドは,この Algeo and Pyles 版をもとに作成した.項目数は比較的少いながらも,説明書きが長いので,読みながら学習できるだろう.

 HEL Timeline by Algeo and Pyles

 ・ Algeo, John, and Thomas Pyles. The Origins and Development of the English Language. 5th ed. Thomson Wadsworth, 2005.

Referrer (Inside): [2018-03-07-1]

[ | 固定リンク | 印刷用ページ ]

2018-01-11 Thu

#3181. Spelling/Pronunciation Search [spelling][pronunciation][orthography][web_service][cgi][dictionary][spelling_pronunciation_gap][silent_letter]

 「#1191. Pronunciation Search」 ([2012-07-31-1]) で,The Carnegie Mellon Pronouncing Dictionary に基づくアメリカ英語発音検索ツールを作成した.そのデータベース (3MB+) の実体は,110935対の綴字と発音の組み合わせである.前回のツールは,Carnegie Mellon Pronouncing Dictionary の発音表記を正規表現で指定して,それを含む単語の綴字を返すものだったが,今回は綴字と発音のそれぞれに正規表現で条件を指定し,いずれにもマッチする単語を返すという仕様のツールを作ってみた.
 正規表現は Perl 用のもので,大文字・小文字の別は最初から無視する仕様.発音表記の凡例は,本記事の末尾に掲げておいた.どちらか一方の検索欄を空にすれば,純粋な綴字検索あるいは発音検索になる.

Spelling in Regex:
Pronunciation in Regex:
 


 工夫次第で,綴字と発音の関係についていろいろと調べたり遊んだりできる.例えば,Spelling に "l" を指定し,Pronunciation に "^[^l]+$" を指定すると(検索の際にはそれぞれ引用符は外して),綴字には <l> があるのに,発音には /l/ が現われない語を拾い出せる.これを他の子音字などにも応用していけば,黙字 (silent_letter) を含む単語を集められるだろう.また,Spelling に "gh$" を,Pronunciation に "f$" を指定すると,語末の <gh> を /f/ と発音する単語リストが得られる,等々.
 以下,Carnegie Mellon Pronouncing Dictionary の発音表記の凡例を示す.音素間は半角スペースで区切られており,強勢は母音表記に続く 0 (no stress), 1 (primary stress), 2 (secondary stress) で示される.例えば,international の発音表記は,"IH2 N T ER0 N AE1 SH AH0 N AH0 L" となる.

PhonemeExampleTranslation
AAoddAA D
AEatAE T
AHhutHH AH T
AOoughtAO T
AWcowK AW
AYhideHH AY D
BbeB IY
CHcheeseCH IY Z
DdeeD IY
DHtheeDH IY
EHEdEH D
ERhurtHH ER T
EYateEY T
FfeeF IY
GgreenG R IY N
HHheHH IY
IHitIH T
IYeatIY T
JHgeeJH IY
KkeyK IY
LleeL IY
MmeM IY
NkneeN IY
NGpingP IY NG
OWoatOW T
OYtoyT OY
PpeeP IY
RreadR IY D
SseaS IY
SHsheSH IY
TteaT IY
THthetaTH EY T AH
UHhoodHH UH D
UWtwoT UW
VveeV IY
WweW IY
YyieldY IY L D
ZzeeZ IY
ZHseizureS IY ZH ER

[ | 固定リンク | 印刷用ページ ]

2017-12-25 Mon

#3164. スライドできる英語史年表 (2) [timeline][web_service][hel_education]

 英語史に関連する種々の年表をこれまで timeline の各記事で示してきたが,今回は「#2562. Mugglestone (編)の英語史年表」 ([2016-05-02-1]) をスライド化してみた.スライドの仕様によりすべてが反映されているわけではないが,とりあえず遊びながら眺められる.14世紀くらいから,だんだんゴチャゴチャしてくる.

 HEL Timeline by Mugglestone

 関連して,「#2358. スライドできる英語史年表」 ([2015-10-11-1]),「#2871. 古英語期のスライド年表」 ([2017-03-07-1]) も参照.

 ・ Mugglestone, Lynda, ed. The Oxford History of English. Oxford: OUP, 2006.

Referrer (Inside): [2018-03-07-1] [2018-02-04-1]

[ | 固定リンク | 印刷用ページ ]

2017-11-08 Wed

#3117. EEBO corpus がリリース [eebo][corpus][web_service][site]

 本ブログでも何度か利用していたテキスト・データベース EEBO (Early English Books Online) が,BYU の Mark Davies 氏によりコーパス化され,この10月にオンラインで公開された.Early English Books Online corpus よりアクセスできる.
 簡単にこのコーパスを紹介すると,まず規模としては "755 million words in more than 25,000 texts from the 1470s to the 1690s" を含む,巨大コーパスであることがわかる.時代としては初期近代英語をまるまるカバーしている.BYU系の他のコーパスと同様に,見出し語化がなされており,品詞タグや意味タグも賦与されている.コンコーダンス・ラインを出したり,共起表現を分析することはもとより,10年ごとに検索語句の頻度を自動的にグラフ化するなど,様々な機能が備わっている.
 10年のまとまりごとのテキスト数や総語数の情報は,上のページのインフォメーションから容易に得られるが,第4列に1テキスト辺りの平均語数を加えた表を示そう.

Decade#words#texts#words/#texts
1470s712,130 18 39,562.8
1480s3,706,937 43 86,207.8
1490s1,992,503 49 40,663.3
1500s1,288,091 45 28,624.2
1510s946,117 35 27,031.9
1520s3,042,934 73 41,684.0
1530s7,099,997 181 39,226.5
1540s8,709,681 239 36,442.2
1550s7,219,423 283 25,510.3
1560s16,084,901 361 44,556.5
1570s26,927,229 442 60,921.3
1580s31,955,245 558 57,267.5
1590s24,105,385 723 33,340.8
1600s40,031,223 898 44,578.2
1610s42,901,535 894 47,988.3
1620s38,550,967 994 38,783.7
1630s42,826,013 1,036 41,337.9
1640s47,129,000 3,805 12,386.1
1650s99,452,875 2,416 41,164.3
1660s63,491,742 2,481 25,591.2
1670s74,600,805 2,421 30,814.0
1680s92,583,947 3,977 23,279.8
1690s79,719,722 2,999 26,582.1
TOTAL755,078,402 24,971 30,238.2


 全期間にしめる各10年間の値を百分率でグラフ化してみた.赤は単語数,水色はテキスト数に基づいた数値である.いずれも16世紀から17世紀にかけてサブコーパスが大きくなっているのが分かるが,単語数は1650年代と1680年代,テキスト数は1640年代と1680年代が際立っていることを気に留めておきたい.

% of Words and Texts for Each Decade in EEBO Corpus

Referrer (Inside): [2018-09-18-1]

[ | 固定リンク | 印刷用ページ ]

2017-10-13 Fri

#3091. Baugh and Cable の英語史概説書の目次よりランダムにクイズを作成 [toc][quiz][hel_education][cgi][web_service]

 英語史の流れをつかんでもらうために,授業で「#2089. Baugh and Cable の英語史概説書の目次」 ([2015-01-15-1]) を暗記してもらっているが,小テスト対策のために(というよりも実は問題作成の自動化のために)ランダムに穴を抜くツールを作ってみた.ブラウザで印刷すれば,そのまま小テスト.

Chapters for questions: to (対象となる章を指定)
Number of questions: (2以上の整数で,あるいは1.0までの小数で比率指定も可)
Hints: No Hints Hints (キューとなる単語の開示)



 ・ Baugh, Albert C. and Thomas Cable. A History of the English Language. 6th ed. London: Routledge, 2013.

Referrer (Inside): [2017-10-18-1]

[ | 固定リンク | 印刷用ページ ]

2017-09-23 Sat

#3071. Pig Latin [cryptology][game_of_language][cgi][web_service]

 英語の言葉遊びで Pig Latin というものがある.単語を一定の原則に基づいて変形する遊びだが,その原則は単純である.語頭の子音(群)を語尾に移し,さらにそこに <ay> /eɪ/ を追加する.語頭が母音の場合には,語尾に <way> /weɪ/ を追加するのみ.例えば,Pig LatinIgpay Atinlay となり,I dont know.Iway ontday nowkay. となる.語頭の子音(群)の扱いの差異や,語尾としての <way> /weɪ/ の代わりに <yey> /weɪ/ を用いるなどの変種もみられる.
 慣れてしまえば即興で作れるが,慣れていない者にとって理解が難しいことから,言葉遊びにとどまらず,話し言葉における隠語やちょっとした暗号として用いることもできる.言葉遊びと暗号の距離は意外と近い.
 Pig Latin のほか,より古い Hog Latin という呼称もある.前者は19世紀末,後者は19世紀初めに初出している.いずれも「崩れたラテン語」「偽のラテン語」ほどの意味である.実際にはラテン語と縁もゆかりもないが,格変化のような語尾が付き,理解しにくいという点で,ラテン語に擬せられたということだろう.なお,崩れたラテン語を表わす dog Latin という表現は17世紀半ばに初出しているが,こちらは変則的ながらも一応のところラテン語ベースである.
 以下,Pig Latin 変換器を実装したのでお試しあれ.

Plain English to Pig Latin
Pig Latin to Plain English

Referrer (Inside): [2017-09-29-1] [2017-09-24-1]

[ | 固定リンク | 印刷用ページ ]

2017-03-07 Tue

#2871. 古英語期のスライド年表 [timeline][web_service][oe][anglo-saxon]

 「#2358. スライドできる英語史年表」 ([2015-10-11-1]) にならい,Mitchell (361--64) の古英語期の年表をスライド化してみました.以下の画像をクリックしてご覧ください.スライド年表では,出来事のジャンル別に Lay = 緑,Religious = 赤,Literary = 青で色分けしています.

HEL Timeline for OE by Mitchell

 以下は,スライド年表のベースとした通常の表形式の年表です.参考までに.

DateLayReligiousLiterary
449Traditional date of coming of Angles, Saxons, and Jutes. The legend of Arthur may rest on a British leader who resisted the invaders.
c. 547  Gildas writes De excidio Britanniæ.
560--616Æthelbert King of Kent.  
c. 563 St Columba brings Celtic Christianity to Iona. 
597 St Augustine brings Roman Christianity to Kent. 
616--632Edwin King of Northumbria.  
c. 625Earliest possible date for Sutton Hoo ship-burial.  
627 Edwin converted to Christianity. 
632Edwin killed by heathen King Penda of Mercia.  
635 Aidan settles in Lindisfarne, bringing Celtic Christianity. 
635 King Cynegils of Wessex converted. 
641Oswald King of Northumbria killed by Penda.  
654Penda killed by Oswy King of Northumbria.  
664 Synod of Whitby establishes supremacy of Roman Christianity. 
664 St Chad becomes bishop. 
657--680 Hild Abbess of Whitby.Cædmon uses Germanic alliterative verse for religious subjects during this period.
c. 678 English missions to the continent begin. 
680  Approximate earliest date for composition of Beowulf.
c. 700  Date of first linguistic records.
709 Death of Aldhelm, Bishop of Sherborne. 
731  Bede completes Historia gentis Anglorum ecclesiastica.
735 Death of Bede. 
c. 735Birth of Alcuin.  
757--796Offa King of Mercia.  
782 Alcuin settles at Charlemagne's court. 
793Viking raids begin.Sacking of Lindisfarne. 
fl. 796  Nennius, author or reviser of Historia Britonum.
800Four great kingdoms remain --- Northumbria, Mercia, East Anglia, Wessex.  
780--850  Cynewulf probably flourishes some time in this period.
804 Death of Alcuin. 
851Danes' first winter in England.  
865Great Danish Army lands in East Anglia.  
867Battle of York. End of Northumbria as a political power.  
870King Edmund of East Anglia killed by Danes. East Anglia overrun.  
871Alfred becomes King of Wessex.  
874Danes settle in Yorkshire.  
877Danes settle in East Mercia.  
880Guthrum and his men settle in East Anglia. Only Wessex remains of the four Kingdoms.  
?886Boundaries of Danelaw agreed with Guthrum. Alfred occupies London. The period of the Alfredian translations and the beginning of the Anglo-Saxon Chronicle.
892Further Danish invasion.  
896Alfred builds a fleet.  
899Death of King Alfred.  
899--954The creation of the English Kingdom.  
c. 909 Birth of Dunstan. 
937Battle of Brunanburh. Poem commemorates the battle.
954The extinction of the Scandinavian kingdom of York.  
959--975Edgar reigns.  
960 Dunstan Archbishop of Canterbury. The period of the Monastic Revival. 
c. 971  The Blickling Homilies.
978 or 979Murder of King Edward.  
950--1000  Approximate dates of the poetry codices --- Junius MS, Vercelli Book, Exeter Book, and Beowulf MS.
978--1016Ethelred reigns.  
988 Death of Dunstan. 
991Battle of Maldon. Poem commemorates the battle.
990--992  Ælfric's Catholic Homilies.
993--998  Ælfric's Lives of the Saints.
1003--1023 Wulfstan Archbishop of York. 
c. 1014  Sermo Lupi ad Anglos.
1005--c. 1012 Ælfric Abbot of Eynsham. 
1013Sweyn acknowledged as King of England.  
1014Sweyn dies.  
1016Edmund Ironside dies.  
1016--1042Canute and his sons reign.  
1042--1066Edward the Confessor.  
1066Harold King. Battle of Stamford Bridge. Battle of Hastings. William I king.  


 ・ Mitchell, Bruce. An Invitation to Old English and Anglo-Saxon England. Oxford: Blackwell, 1995.

[ | 固定リンク | 印刷用ページ ]

2016-12-12 Mon

#2786. 世界言語構造地図 --- WALS Online [web_service][syntax][evolution][typology][word_order]

 The World Atlas of Language Structures (WALS Online) というサイトがある.世界中の多くの言語を様々な観点から記述したデータベースに基づき,その地理的分布を世界地図上にプロットしてくれる機能を有するツールである.進化人類学の成果物として提供されており,進化言語学や言語類型論にも貢献し得るデータベースとなっている.
 検索できる言語的素性の種類は豊富で,音韻,形態,統語,語彙と多岐にわたる.表をクリックしていくことで,簡単に分布図を表示してくれるという優れものだ.素性を組み合わせて分布図を示すこともでき,素性間の相関関係を探るのにも適している.例えば,VO/OV 語順と接置詞 (adposition) 語順の相関について,Feature 83A と 85A を組み合わせると,こちらの分布図が得られる.青と黄緑のマークが目立つが,青は日本語型の「OV語順かつ後置詞使用」を示す言語,黄緑は英語型の「VO語順かつ前置詞使用」を示す言語である.同じように VO/OV と NA/AN の素性 (Feature 83A と 87A) の組み合わせで地図を表示させることもできる(こちら).なお,この2つの例は,名古屋大学を中心とする研究者の方々により出版された『文法変化と言語理論』のなかの若山論文で参照され,論じられているものである.
 いろいろな素性を,単体で,あるいは組み合わせで試しながら遊べそうだ.WALS Online は,本ブログでは「#1887. 言語における性を考える際の4つの視点」 ([2014-06-27-1]) でも触れているので,ご参照を.

 ・ 若山 真幸 「言語変化における主要部媒介変数の働き」『文法変化と言語理論』田中 智之・中川 直志・久米 祐介・山村 崇斗(編),開拓社.294--308頁.

[ | 固定リンク | 印刷用ページ ]

2016-09-22 Thu

#2705. カエサル暗号機(hellog 版) [cryptology][grammatology][cgi][web_service][statistics]

 「#2704. カエサル暗号」 ([2016-09-21-1]) と関連して,文字遊びのために「カエサル暗号機」を作ってみた.まずは,最も単純な n 文字シフトの方針により,入力文字列を符号化 (encipher) あるいは復号化 (decipher) するだけの機能.バックエンドに Perl の Text::Cipher::KeywordAlphabet モジュールを利用している.

encipher decipher
n =    


 次に,下の暗号機は復号機能のみを実装しているが,英語の各文字の出現頻度に基づいた統計を利用して,n の値が不明でもカエサル暗号を解読してしまうことができる.



 このカエサル暗号とその発展形は,西洋の古代・中世を通じて1500年以上ものあいだ最も普通に用いられたが,原理は驚くほど単純である.現在では暗号学者ならずとも普通の人にもコンピュータを使って簡単に解読できてしまい,暗号とは呼べないほどに安全性は低いが,メッセージを隠したいという人間の欲求の生み出した,本格的な暗号文化の幕開きを代表する手法だった.歴史的意義は大きい.

[ | 固定リンク | 印刷用ページ ]

2016-09-11 Sun

#2694. EDD Online (2) [dialect][web_service][corpus][lmode][lexicography][edd]

 「#868. EDD Online」 ([2011-09-12-1]) で紹介したように,Joseph Wright による The English Dialect Dictionary の電子化プロジェクトが Innsbruck 大学で進められていたが,つい最近完成したとの知らせを受けた.これまでウェブ上のサービスではアカウント取得が必要だったが,これで直接自由にアクセスできるようになった.こちらの EDD Online からどうぞ.

 EDD Online Screenshot

 機能も充実しており,例えば上のスクリーンショットのように,検索語と関連して辞書内に言及されている方言地域を地図上で確認できる機能がある.ちょうど語源的綴字 (etymological_respelling) に関する調査の関係で,言及されている方言地域が地図上で確認できれば便利だろうと思っていた矢先だったので,嬉しい.
 また,紙媒体の元祖 The English Dialect Dictionary のページをイメージとして確認することもできる.検索については,dialect area, part of speech, phonetic, etymology, usage label, source, morphemic, time span など各種カテゴリーによるサーチが可能.
 利用マニュアルも閲覧できるので,参照しながらあれこれといじってみることをお薦めする.

 ・ Wright, Joseph, ed. The English Dialect Dictionary. 6 vols. Henry Frowde, 1898--1905.

Referrer (Inside): [2017-08-03-1]

[ | 固定リンク | 印刷用ページ ]

2016-09-07 Wed

#2690. N-gram Tool [cgi][n-gram][statistics][corpus][web_service][frequency][cgi]

 n-gram は,言語統計やコーパス言語学の世界における基本的な概念・手段である(「#2324. n-gram」 ([2015-09-07-1]), 「#956. COCA N-Gram Search」 ([2011-12-09-1]) を参照).テキストを指定してその n-gram を得るツールはネットその他にも遍在しているが,あえて簡易ツールをCGIで実装してみた.バックエンドに Perl モジュールの Text::Ngrams を用いている.

・ Type for analysis: word character
・ Size of n:
・ Order by: frequency alphabet
・ Display the first n-lines (Note: 0 means unlimited):
・ Normalization in statistics: unnormalized normalized

 使い方はおよそ自明だろう.適当な長さの英文テキストを投げ込めば,デフォルトでは単語ベースの 3-gram (およびそれ以下の 2-gram と 1-gram も含む)の一覧が絶対頻度の高い順に返される(出力行の制限はなし).オプションにより単語ベースではなく文字ベースにも変更でき,n-gram のサイズも変えられる.出力については,頻度順ではなくアルファベット順にすること,出力行に制限を設けること,絶対頻度ではなく相対頻度(各 n-gram 内で合計すると1.0となる)で返すことも可能.
 なお,1-gram は入力テキストを構成する単語の頻度表となるので,その用途にも利用できる.簡易的な n-gram ツールとしてどうぞ.

[ | 固定リンク | 印刷用ページ ]

2015-10-11 Sun

#2358. スライドできる英語史年表 [timeline][web_service]

 SIMILE が提供する Timeline API というものを利用して,ブラウザ上でスムーズに動かせる年表を作成できるといううことを知ったので,スライドできる英語史年表を作ってみた.年表データは,「#777. 英語史略年表」 ([2011-06-13-1]) で掲げた Crystal 版を利用することにした.
 スライド年表そのものは,こちらからアクセスしてください(あるいは以下の画像をクリック).今後,これを基本にして改訂を加え,見栄えや使い勝手のよい年表に仕上げていきたいところ.

HEL Timeline

 ・ Crystal, David. The English Language. 2nd ed. London: Penguin, 2002.

[ | 固定リンク | 印刷用ページ ]

2015-09-19 Sat

#2336. Text Analyser --- 簡易テキスト統計分析器 [cgi][text_tool][web_service][corpus]

 最近では,テキスト分析のための高機能なツールが手軽に入手できるようになった.英語コーパスを分析するプログラムなどでは,使用語数に基づいて様々な統計値が計算され,見やすい形で提示される.そのようなツールを改めて公開する必要もないといえばないが,簡易テキスト統計分析器の CGI を作成してみたので,ここに hellog 版ということで設置しておきたい.テキストボックスに文章を投げ込むだけ.



 背後では Perl モジュール Lingua::EN::Fathom を使用しているが,語や文の認識や音節カウントなど,自動では完全解決の難しい問題も多くあるため,結果としての統計値は近似的なものとして理解されたい.今回のバージョンでは,以下の14の統計値を示すことにした.

 (1) Number of characters
 (2) Number of words (tokens)
 (3) Number of types
 (4) Type/token ratio
 (5) Per cent of complex words
 (6) Average syllables per word
 (7) Number of sentences
 (8) Average words per sentences
 (9) Number of text lines
 (10) Number of blank lines
 (11) Number of paragraphs
 (12) Fog index
 (13) Flesch reading ease score
 (14) Flesch-Kincaid grade level score

 多くの統計値の意味は自明と思われるが,いくつかについて注記しておく.(4) Type/token ratio は,語彙の多様性を示す指標である.テキスト内のすべての語が各々1度きり現われる場合には,最大値 1.0 を示す.ただし,テキストの長さに大きく依存するため,この指標単体ではさほど情報量はない.
 (5) Per cent of complex words の "complex words" とは,3音節以上の語の割合である.(12), (13), (14) は,テキストの読みやすさの指標であり,いずれも1文あたりの語数 (words_per_sentence) と1語あたりの音節数 (syllables_per_word) に基づいて計算されている.各指標の特徴と解釈の仕方を以下に略述する.

 (12) The Fog index
 読みやすさを表わす簡便な指標.( words_per_sentence + percent_complex_words ) * 0.4 で求めることができる.指標の数値は学年を表わし,その学年の標準的な生徒であれば,その文章を一度読んで理解できる水準といわれる.目安としては,8 = childish, 10 = acceptable, 12 = ideal, 14 = difficult, 18 = unreadable.

 (13) The Flesch reading ease score
 206.835 - (1.015 * words_per_sentence) - (84.6 * syllables_per_word) で求められる.最高点は100点で,指標が高ければ高いほど理解しやすいテキストである.60--70点が最適とされる.

 (14) Flesch-Kincaid grade level score
 (11.8 * syllables_per_word) + (0.39 * words_per_sentence) - 15.59 で求められる.指標は米国の学年を表わし,例えば 8.0 であれば,そのテキストは第8学年の生徒に理解できる水準ということになる.7.0--8.0 が最適値とされる.

Referrer (Inside): [2018-09-08-1]

[ | 固定リンク | 印刷用ページ ]

2015-06-24 Wed

#2249. 綴字の余剰性 [spelling][orthography][cgi][web_service][redundancy][information_theory][punctuation][shortening][alphabet]

 言語の余剰性 (redundancy) や費用の問題について,「#1089. 情報理論と言語の余剰性」 ([2012-04-20-1]),「#1090. 言語の余剰性」 ([2012-04-21-1]),「#1091. 言語の余剰性,頻度,費用」 ([2012-04-22-1]),「#1098. 情報理論が言語学に与えてくれる示唆を2点」 ([2012-04-29-1]),「#1101. Zipf's law」 ([2012-05-02-1]) などで議論してきた.言語体系を全体としてみた場合の余剰性のほかに,例えば英語の綴字という局所的な体系における余剰性を考えることもできる.「#1599. Qantas の発音」 ([2013-09-12-1]) で少しく論じた通り,例えば <q> の後には <u> が現われることが非常に高い確立で期待されるため,<qu> は余剰性の極めて高い文字連鎖ということができる.
 英語の綴字体系は全体としてみても余剰性が高い.そのため,英語の語彙,形態,統語,語用などに関する理論上,運用上の知識が豊富であれば,必ずしも正書法通りに綴られていなくとも,十分に文章を読解することができる.個々の単語の綴字の規範からの逸脱はもとより,大文字・小文字の区別をなくしたり,分かち書きその他の句読法を省略しても,可読性は多少落ちるものの,およそ解読することは可能だろう.一般に言語の変化や変異において形式上の短縮 (shortening) が日常茶飯事であることを考えれば,非標準的な書き言葉においても,綴字における短縮が頻繁に生じるだろうことは容易に想像される.情報理論の観点からは,可読性の確保と費用の最小化は常に対立しあう関係にあり,両者の力がいずれかに偏りすぎないような形で,綴字体系もバランスを維持しているものと考えられる.
 いずれか一方に力が偏りすぎると体系として機能しなくなるものの,多少の偏りにとどまる限りは,なんとか用を足すものである.主として携帯機器用に提供されている最近の Short Messages Service (SMS) では,使用者は,字数の制約をクリアするために,メッセージを解読可能な範囲内でなるべく圧縮する必要に迫られる.英語のメッセージについていえば,綴字の余剰性を最小にするような文字列処理プログラムにかけることによって,実際に相当の圧縮率を得ることができる.電信文体の現代版といったところか.
 実際に,それを体験してみよう.以下の "Text Squeezer" は,母音削除を主たる方針とするメッセージ圧縮プログラムの1つである(Perl モジュール Lingua::EN::Squeeze を使用).入力するテキストにもよるが,10%以上の圧縮率を得られる.出力テキストは,確かに可読性は落ちるが,慣れてくるとそれなりの用を足すことがわかる.適当な量の正書法で書かれた英文を放り込んで,英語正書法がいかに余剰であるかを確かめてもらいたい.


Referrer (Inside): [2015-08-21-1]

[ | 固定リンク | 印刷用ページ ]

2015-04-15 Wed

#2179. IPA の肺気流による子音の分類 (2) [phonetics][consonant][ipa][chart][hel_education][cgi][web_service]

 「#1813. IPA の肺気流による子音の分類」 ([2014-04-14-1]) に引き続き,調音音声学に関する図表について.Carr (xx--xxi) の音声学の教科書に,調音器官の図とIPAの分節音の表が見開きページに印刷されているものを見つけたので,スキャンした(画像をクリックするとPDFが得られる).

The Organs of Speech and IPA Charts by Carr (xx--xxi)

 特に右上にある肺気流による子音の分類表について,学習の一助になるようにと,表の穴埋め問題生成ツールを以下に作ってみた.調音音声学の学習の一助にどうぞ.

Choose how many questions to make out of the total of 78. (0 questions will give the original table.)

0 10 20 30 40 50 60 70 78

    


 ・ Carr, Philip. English Phonetics and Phonology: An Introduction. 2nd ed. Malden MA: Wiley-Blackwell, 2013.

[ | 固定リンク | 印刷用ページ ]

2015-01-22 Thu

#2096. SUBTLEX-US Word Frequency List [frequency][statistics][corpus][lexicology][zipfs_law][cgi][web_service]

 従来の英語学研究において,権威ある語彙頻度表といえばアメリカ英語に関する Kucera and Francis (1967) のものや,イギリス英語に比重を置いたより新しいものとして CELEX (1993) やその2版 (cf. 「#1424. CELEX2」 ([2013-03-21-1])) がよく用いられてきた.しかし,最近,これらを批判し,新しい手法に基づいたアメリカ英語の語彙頻度表が現われた.ベルギー,ヘント大学の実験心理学科の提供する SUBTLEXus である.左のHPから,SUBTLEXus の一群の頻度表のファイルや記述がダウンドーロできる.
 SUBTLEXus の基盤にあるコーパスは,8388件の映画の字幕の集成であり,総語数は5100万語に及ぶ.SUBTLEXus の頻度表は,Kucera and Francis や CELEX の頻度表と比べて,いくつかの算出された指標においてすぐれていると主張されている.頻度は,見出し語 (lemma) ごとではなく語形 (word form) ごとに数えられており,例えば名詞であれば単数形と -s 語尾などをもつ複数形は別扱いされる(異なる語形は74,286種類).名詞と動詞など複数の品詞として用いられる語形については,それぞれの品詞ごとの頻度にもアクセスできるし,より優勢な品詞 (Dominant POS) のほうへ合算した頻度へもアクセスできる.データには,ほかに何件の映画に現われているか,小文字として現われているのは何回か,頻度の対数を取った指標,Zipf 指標 (cf. 「#1101. Zipf's law」 ([2012-05-02-1])) なども含まれている.これだけの種類のデータが含まれていると,目的とアイデア次第でおおいに有効に利用できるだろう.話し言葉ベースであることも顕著な特徴だ.
 ダウンロードできるいくつかのデータのなかで "a zipped Excel file of SUBTLEX-US with the Zipf values included" をダウンロードし,少しいじってみた.例えば,(1) 全体的に多く現われ,かつ (2) 多くの映画にも現われる語形は,総合的な意味で頻度が高いと考えられるだろう.そこで (1) と (2) に関する対数の指標を掛け合わせて,それを降順に並べて最初の100語を取ると,正真正銘の最頻単語100語が得られるはずだ.省略形の片割れなども含まれているが,以下がそのリストである.

you, I, the, to, s, a, it, t, that, and, of, what, in, me, is, we, this, he, on, for, my, m, your, don, have, do, re, no, be, know, was, not, can, are, all, with, just, get, here, but, there, ll, so, they, like, right, out, go, up, about, she, if, him, got, at, now, come, oh, one, how, well, want, yeah, her, think, good, see, let, did, why, who, as, going, his, will, from, when, back, time, yes, look, d, take, an, where, man, would, them, been, some, or, tell, us, had, were, say, could, gonna, didn, hey


 ほかには,最頻10語,25語,50語,100語,250語,500語,1,000語,2,500語,5,000語,10,000語,25,000語,50,000語,100,000語について,Dominant POS ごとに数え上げてみることもたやすい.「#666. COCA 最頻5000語で品詞別の割合は?」 ([2011-02-22-1]),「#667. COCA 最頻50万語で品詞別の割合は?」 ([2011-02-23-1]),「#1132. 英単語の品詞別の割合」 ([2012-06-02-1]) の記事でも,別のコーパスにより似たような調査を行ったが,SUBTLEX-US 版の調査結果は次のグラフにまとめられる.

Wordform-Based POS Ratios by SUBTLEXus

 以下はおまけの検索ツール (SUBTLEX-US Word Frequency Extractor) .おまけなので,10例までしか結果が出力されない仕様です.SUBTLEXus の提供する複雑な検索も可能な,SUBTLEXus Online Search もどうぞ.

    

Referrer (Inside): [2018-01-03-1]

[ | 固定リンク | 印刷用ページ ]

2014-09-11 Thu

#1963. 構文文法 [bnc][construction_grammar][syntax][cognitive_linguistics][prototype][web_service][speech_act][generative_grammar]

 構文文法 (construction grammar) は,この四半世紀の間で発展してきた認知言語学に基づく文法理論である.Lakoff, Fillmore, Goldberg, Kay などによって洗練されてきた.
 構文という捉え方そのものは,統語論において長い伝統がある.構造言語学では当然視されていたし,その流れを汲んだ「文型」の考え方も,語学教育を通じて広く知られている.しかし,生成文法の登場により,従来の構文や文型は相対化され,二次的な付帯現象として扱われるようになった.
 しかし,1970年代後半の認知言語学の誕生により,構文は単に形式的な観点からだけではなく,機能的・意味的な観点からアプローチされるようになった.特定の構文は,深層構造から生成されるのではなく,それ自身の資格において特定の意味に直接貢献する単位であるという考え方だ.例えば,Me write a novel?! という一見すると破格的な構文は,それ自体が独自の韻律(主部と述部が上昇調のイントネーションを帯びる)を伴い,「あざけり」を含意する.また,There's the bell! のような構文は,人差し指を上げる動作とともに用いられることが多く,「知覚の直示性」を表わす,といった具合だ.構文文法では,構文そのものが意味,語用,韻律などを規定していると捉える.
 ただし,構文が意味などを規定しているといっても,その規定の強さは変異する.例えば,Is A B? の構文は典型的に質問の発話行為を表わすが,Is that a fact? は,通常,質問ではなく話者の驚きを表わす(いわゆる間接的発話行為 (indirect speech_act)) .このように,構文文法は,構文とその意味の関係もプロトタイプ的に考える必要があると主張する.また,定型構文となると,そのなかの語句を他のものに交換できなくなるなど,意味的,統語的に融通のきかなくなるケースもある.例えば,Thanks a lot, Thanks a million からの発展で Thanks a billion は可能だが,*Thanks a hundred は不可能となる.day in day out, month in month out は可だが,minute in minute outcentury in century out は不可である,等々 (Taylor 225--28) .
 構文文法は上記のように生成文法へのリアクションとして生じてきたが,近年では生成文法の側でも構文文法と親和性のある反語彙論や分散形態論などの理論が発展してきている.構文復権の徴候が顕著になってきたといえるだろう.
 構文文法の枠組みで BNC の例文に構文情報を付したデータベースが,http://framenet.icsi.berkeley.edu/ で公開されており,こちらのインターフェースよりアクセスできる.数十の注目すべき英語構文が登録されている.

 ・ Taylor, John R. Linguistic Categorization. 3rd ed. Oxford: OUP, 2003.

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow