cgi / hellog～英語史ブログ

最終更新時間: 2025-07-01 23:33

2018-08-24 Fri

■ #3406. Levenshtein distance [cgi][web_service][spelling][shakespeare][levenshtein_distance]

　文字列の類似度や相違度を測る有名な指標の1つに，標題の "Levenshtein distance" というものがある，「#3397. 後期中英語期の through のワースト綴字」 ([2018-08-15-1])，「#3398. 中英語期の such のワースト綴字」 ([2018-08-16-1])，「#3399. 綴字の類似度計算機」 ([2018-08-17-1]) でも前提としてきた指標であり，「#1163. オンライン語彙データベース DICT.ORG」 ([2012-07-03-1]) でもこの指標を利用して類似綴字語を取り出すオプションがある．
　考え方は難しくない．もとの文字列から目標の文字列に変換するには，いくつの編集工程（挿入，削除，置換）が必要かを数えればよい．例えば，kitten から sitting へ変換するには，kitten →（k を s に置換）→ sitten →（e を i に置換）→ sittin →（g を挿入）→ sitting という3工程を踏む必要があるので，両綴字間の Levenshtein distance は3ということになる．通常は挿入，削除，置換の編集工程にそれぞれ1の値を割り当てるが，各々に異なる値を与える計算の仕方もある．
　以下に，通常の重みづけで Levenshtein distance を計測する CGI を置いておく．試しに「#1720. Shakespeare の綴り方」 ([2014-01-11-1]) より25種類の異綴字を取り出して，カンマ区切りなどで下欄に入力してみてください（要するに以下をコピペ）．Shakespeare, Schaksp, Shackespeare, Shackespere, Shackspeare, Shackspere, Shagspere, Shakespe, Shakespear, Shake-speare, Shakespere, Shakespheare, Shakp, Shakspe?, Shakspear, Shakspeare, Shak-speare, Shaksper, Shakspere, Shaxberd, Shaxpeare, Shaxper, Shaxpere, Shaxspere, Shexpere

　綴字間の類似度や相違度の計測は，曖昧検索やスペリングチェックなどの実用的な目的にも応用されている．標準的な綴字がなかった古い英語の研究にも，ときに役立つことがありそうだ．

Referrer (Inside): [2020-01-21-1]

Similarity	Spellings
1.0000	Shakespeare
0.9565	Shackespeare, Shake-speare, Shakespheare
0.9524	Shakespear, Shakespere, Shakspeare
0.9091	Shackespere, Shackspeare, Shak-speare
0.9000	Shakspear, Shakspere
0.8571	Shackspere
0.8421	Shakespe, Shaksper
0.8000	Shagspere, Shaxpeare, Shaxspere
0.7368	Shaxpere, Shexpere
0.7000	Shakspe?
0.6667	Schaksp, Shaxper
0.6250	Shakp
0.5263	Shaxberd

Phoneme	Example	Translation
AA	odd	AA D
AE	at	AE T
AH	hut	HH AH T
AO	ought	AO T
AW	cow	K AW
AY	hide	HH AY D
B	be	B IY
CH	cheese	CH IY Z
D	dee	D IY
DH	thee	DH IY
EH	Ed	EH D
ER	hurt	HH ER T
EY	ate	EY T
F	fee	F IY
G	green	G R IY N
HH	he	HH IY
IH	it	IH T
IY	eat	IY T
JH	gee	JH IY
K	key	K IY
L	lee	L IY
M	me	M IY
N	knee	N IY
NG	ping	P IY NG
OW	oat	OW T
OY	toy	T OY
P	pee	P IY
R	read	R IY D
S	sea	S IY
SH	she	SH IY
T	tea	T IY
TH	theta	TH EY T AH
UH	hood	HH UH D
UW	two	T UW
V	vee	V IY
W	we	W IY
Y	yield	Y IY L D
Z	zee	Z IY
ZH	seizure	S IY ZH ER

Spelling in Regex:
Pronunciation in Regex:

cgi - hellog～英語史ブログ

■ #3406. Levenshtein distance [cgi][web_service][spelling][shakespeare][levenshtein_distance]

■ #3399. 綴字の類似度計算機 [cgi][web_service][spelling][shakespeare][levenshtein_distance]

■ #3181. Spelling/Pronunciation Search [spelling][pronunciation][orthography][web_service][cgi][dictionary][spelling_pronunciation_gap][silent_letter]

■ #3091. Baugh and Cable の英語史概説書の目次よりランダムにクイズを作成 [toc][quiz][hel_education][cgi][web_service]

■ #3071. Pig Latin [cryptology][word_play][cgi][web_service]

■ #2705. カエサル暗号機（hellog 版） [cryptology][grammatology][cgi][web_service][statistics]

■ #2690. N-gram Tool [cgi][n-gram][statistics][corpus][web_service][frequency][cgi]

■ #2690. N-gram Tool [cgi][n-gram][statistics][corpus][web_service][frequency][cgi]

■ #2336. Text Analyser --- 簡易テキスト統計分析器 [cgi][text_tool][web_service][corpus]

■ #2249. 綴字の余剰性 [spelling][orthography][cgi][web_service][redundancy][information_theory][punctuation][shortening][alphabet][q]

■ #2179. IPA の肺気流による子音の分類 (2) [phonetics][consonant][ipa][chart][hel_education][cgi][web_service]

■ #2096. SUBTLEX-US Word Frequency List [frequency][statistics][corpus][lexicology][zipfs_law][cgi][web_service]

■ #1819. AHD Word History Note Search [etymology][dictionary][cgi][web_service]

■ #1808. ARCHER 検索結果の時代×ジャンル仕分けツール (ARCHER Period-Genre Sorter) [cgi][web_service][corpus][archer][mode]

■ #1805. Morse code [semiotics][sign][double_articulation][cgi][web_service][morse_code]

■ #1743. ICE Frequency Comparer [corpus][web_service][cgi][frequency][new_englishes][variety][ice]

■ #1739. AmE-BrE Diachronic Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][representativeness]

■ #1730. AmE-BrE 2006 Frequency Comparer [corpus][ame_bre][web_service][cgi][frequency][spelling]

■ #1609. Cawdrey の辞書をデータベース化 [cawdrey][lexicography][dictionary][cgi][web_service][inkhorn_term][lexicology]

■ #1514. Sonority Analyser [phonetics][sonority][syllable][web_service][cgi]