hellog〜英語史ブログ

#2332. EEBO のキーワードを抽出[eebo][lob][corpus][keyword][text_tool][emode]

2015-09-15

 コーパスからキーワードを拾うという分析を,「#317. 拙著で自分マイニング(キーワード編)」 ([2010-03-10-1]),「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]),「#880. いかにもイギリス英語,いかにもアメリカ英語の単語」 ([2011-09-24-1]) で紹介してきた.今回は初期近代英語を中心的に扱うテキスト・データベース EEBO (Early English Books Online) より,キーワードを拾ってみたい.
 EEBO から個人的に収集した初期近代英語のテキスト集(全11億語以上)に対し,WordSmith の KeyWords 抽出機能を用いた.参照コーパスとしては,現代イギリス英語を代表するものとして LOB コーパスを指定した.本来は参照コーパスのほうがずっと大規模ではなければならないのだが,EEBO が大きすぎるということで,今回は目をつぶっておきたい.狙いは,現代英語と比べて使用頻度の著しく高い初期近代英語の語を拾い出すということである.当時の社会を特徴づける語彙が集まるはずである.
 キーワード性を示す指標の高い順に,500語までのリストがたちどころに得られた.いずれも小文字で示す.

[ Top 100 ]

amp, note, god, and, that, hath, them, christ, shall, haue, thou, they, thy, so, all, our, not, their, upon, doth, vnto, of, unto, his, king, yet, or, hee, eacute, vs, ye, him, lord, thee, which, bee, doe, saith, men, onely, but, vpon, be, nor, de, c, gods, by, faith, holy, great, church, your, o, as, selfe, wee, owne, ad, con, est, things, then, such, therefore, himselfe, may, y, to, sin, grace, cause, tis, us, mr, ther, kings, thereof, let, spirit, man, al, vp, yea, any, this, ac, s, pro, ing, com, thus, e, against, forth, re, shew, whom, l, wherein

[ -- 200 ]

loue, ly, selves, scripture, self, law, st, those, thing, cor, sinne, being, glory, euery, death, good, sonne, true, neuer, whereof, iohn, againe, psal, pope, religion, ed, hym, soule, hast, lib, ex, heaven, agrave, whiche, pray, neither, downe, acirc, tion, quod, my, sed, fore, soul, nature, euen, dayes, is, p, apostles, euer, till, feare, chap, ver, rom, vnder, ma, qui, vse, according, giue, power, ouer, mans, egrave, lesse, se, doctrine, ne, ment, meanes, themselues, shal, d, sins, viz, prince, did, vertue, wicked, honour, earth, ut, blessed, princes, ter, apostle, th, persons, que, thinke, same, others, lords, ought, pag, truth, none, kingdome

[ -- 300 ]

tho, si, cap, goe, if, beene, flesh, et, christs, make, fathers, concerning, reason, body, mercy, selues, enemies, bishops, farre, v, bishop, ar, hearts, wil, likewise, other, rome, name, obedience, en, wise, cum, speake, finde, nay, iesus, we, conscience, manner, non, heart, sinnes, it, yt, hauing, saints, generall, mat, contrary, worke, wit, sayd, whereby, covenant, wherefore, gen, passe, poore, lorde, publick, word, mens, suffer, na, heare, mee, ei, heb, divers, christians, therein, theyr, minde, shalt, bloud, shewed, certaine, vers, un, son, amongst, ibid, ca, jesus, betwixt, quae, scriptures, say, divine, thine, rest, countrey, besides, di, heauen, cannot, qu, therfore, godly, sent

[ -- 400 ]

m, moses, these, christian, called, n, vn, false, should, paul, also, discourse, meane, without, booke, whence, shee, emperour, souls, place, thereby, yeares, tyme, lawes, peace, what, dis, behold, foure, citie, giuen, israel, anno, liberty, thence, gospel, cast, ograve, aboue, souldiers, tooke, sa, priests, gaue, fol, maketh, places, pardon, te, warre, saviour, wayes, saint, thinges, will, themselves, kinde, suche, bene, love, salvation, yeare, towne, spirituall, esse, fa, duke, majesty, brethren, laws, alwayes, workes, ab, lest, for, wrath, wordes, soules, done, sunt, angels, vel, ry, liue, ted, ty, looke, repentance, dr, beare, prayer, keepe, faire, ii, parts, helpe, iudge, no, churches, r

[ -- 500 ]

dy, vsed, prophet, outward, ble, ap, spake, sect, armes, notwithstanding, come, h, naturall, maner, crosse, popes, sayth, pa, papists, whatsoever, gospell, iudgement, writ, noble, hoc, par, sacrifice, dye, worship, ons, af, eternal, leaue, ob, euill, am, sacrament, diuers, both, ghost, quam, lye, yee, comming, secondly, how, iustice, sword, daies, father, vi, before, prayers, bodie, whome, councell, nec, though, faithfull, lawe, humane, aut, wel, mi, hir, iii, worthy, isa, easie, ugrave, nowe, lawfull, ere, seene, priest, glorious, serue, commanded, earle, forme, thither, eternall, prophets, turne, iewes, mo, im, halfe, matth, manifest, wilt, are, words, iust, betweene, affections, ocirc, li, ned, creatures

 対象としたのは EEBO から収集した平テキストであり,そこには多くの注記やタグも含まれている.それを除去するなどの特別なテキスト処理は施していないので,雑音も相当混じっていることに注意したい.実際,1位の amp はタグの一部であり,2位の note も注記を表わす記号と考えてよいので,いずれも無視すべきだが,ここではキーワード抽出結果をそのまま提示することにした.
 現代でも高頻度語ではあるが,初期近代では綴字が異なる hath, haue, doth, hee, vs, bee などが上位に来ることは理解できるだろう.また,現代では古風となっている2人称単数代名詞 thou, thy, thee の顕著なことも理解できる.
 おもしろいのは,現在でも現役ではあるが,それほど顕著ではなくなっている語である.例えば,リストの上位にキリスト教的な語が多いことに気づく.200位以内に限ってざっと拾うだけでも、god, christ, gods, faith, holy, church, grace, spirit, loue, scripture, sinne, glory, death, pope, religion, soule, heaven, pray, soul, apostles, vertue, wicked, honour, blessed, apostle などが挙がる.チューダー朝,スチュアート朝ともに,キリスト教に翻弄され続けた時代だったことも関係するだろう.逆にいえば,現代がいかに世俗化したか,ということでもある.
 綴字としては,無音の <e> の自由な付加・脱落,<u> と <v> 及び <i> と <j> の混在,shall の顕著な使用,ye の残存などが挙げられるだろう (see 「#373. <u> と <v> の分化 (1)」 ([2010-05-05-1]),「#374. <u> と <v> の分化 (2)」 ([2010-05-06-1]); 「#1650. 文字素としての j の独立」 ([2013-11-02-1])) .また,現在では堅苦しい機能語も多い (ex. upon, vnto, nor, therefore, thereof, whereof) .

Referrer (Inside): [2018-09-06-1] [2018-01-10-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow