hellog〜英語史ブログ     ChangeLog 最新    

keyword - hellog〜英語史ブログ

最終更新時間: 2024-11-22 17:50

2022-02-17 Thu

#4679. 言語における塊現象とゆらぎ [complex_system][computational_linguistics][statistics][frequency][1/f][terminology][keyword]

 昨日の記事「#4678. 言語における塊現象と長相関」 ([2022-02-16-1]) で,言語における塊現象を「長相関」の観点からみたが,今回はもう1つの観点である「ゆらぎ」に注目しよう.ゆらぎ解析について,田中 (112) は次のように説明している.

このような塊現象を捉える自然な方法の一つとして,ある一定の範囲内に出現する単語の頻度の分散を調べることが挙げられる.ある単語の出現にゆらぎがあるのであれば,ある一定の範囲内にその単語が出現しない場合があり,また一方でその単語が数多く出現する場合もあり,その頻度の分散は大きくなるはずである.


 解析原理としては分かりやすい.ある文章中に表われる語彙を念頭におく場合,ゆらぎ方は語によって異なるが,おもしろいことに,いわゆるキーワードはしばしばゆらぎが大きいという(田中,p. 118).これは,機械的なキーワードの同定などに貢献しそうな興味深い傾向である.
 また,人間言語による文章とランダム文字列の文章とでゆらぎを比べると,明らかに前者の方がゆらぎが大きく,このことは人間言語の特徴の一端を示唆する.さらに,文章のジャンルによってもゆらぎは異なるために(田中,p. 120),ゆらぎの度合いは文体論的な指標ともなり得る.
 様々な可能性を秘めた言語における「ゆらぎ」にアンテナを張っておきたい.関連して「1/f ゆらぎ」 (1/f) も要注目.

 ・ 田中 久美子 『言語とフラクタル --- 使用の集積の中にある偶然と必然』 東京大学出版会,2021年.

[ 固定リンク | 印刷用ページ ]

2021-09-11 Sat

#4520. Oxford 3000, Oxford 5000, OPAL の語彙 [lexicology][lexicography][dictionary][keyword][statistics]

 「#4518. OALD10 の世界英語のレーベル15種」 ([2021-09-09-1]) でも紹介したが,昨年 Oxford Advanced Learner's Dictionary of Current English (通称 OALD)の第10版が出版された.改訂とともに進化し続けるこの辞書のファンの1人としては,辞書本文以上に付録的な部分にも注目してしまうのだが,関連して Oxford 3000, Oxford 5000, OPAL と呼ばれる英語学習・教育上の有用な語彙一覧を紹介したい.OALD10 の x--xi に各々の解説がある.

 ・ The Oxford 3000TM
   20億語からなる巨大な The Oxford English Corpus における生起頻度に基づいた,英語学習者を意識して編まれた英単語3000個の一覧.同コーパスは,イギリス英語とアメリカ英語のみならず世界英語を網羅している.最頻2000語で英語テキストの8割の語彙をカバーしているともいわれるが,この3000語の一覧は CEFR (= Common European Framework of Reference) の A1 から B2 までの水準を念頭においた頼りになるリストだ.こちらより一覧をダウンロードできる.

 ・ The Oxford 5000TM
   The Oxford 3000 よりも水準の高い,CEFR の B2 から C1 までの語彙を含めた拡張版の単語一覧.上記と同様こちらから一覧にアクセスできる.

 ・ The Oxford Phrasal Academic LexiconTM
   "OPAL" と略称されている,学術英語 (English for Academic Purposes) に有用な語彙.大学の講義,セミナー,レポート,卒論などの英語を念頭に編まれた単語一覧である.この一覧は,書き言葉コーパス The Oxford Corpus of Academic English (= OCAE) と話し言葉コーパス The British Academic Spoken English (= BASE) をソースとしたキーワード (keyword) 分析に基づくもので,学術英語の習得に役立つ単語一覧である.こちらからアクセスできる.

 昨今の英語学習・教育は実に統計的・科学的になっているなあと感心するばかりだが,英語学・英語史のアカデミックな研究においても語彙の頻度情報というのは基本事項であるから,おおいに活用したい.

 ・ Oxford Advanced Learner's Dictionary of Current English. 10th ed. Ed. A. S. Hornby. Oxford: Oxford UP, 2020.

Referrer (Inside): [2021-10-24-1]

[ 固定リンク | 印刷用ページ ]

2021-09-03 Fri

#4512. 英米英語と比較したカメルーン英語のキーワード [keyword][corpus][ice][flob][frown]

 複数のコーパスを用いたキーワード分析は,私も何度か行なったことがある (cf. keyword) .特定のコーパスに特徴的に現われるキーワードを,別の一般的なコーパスとの対比によって統計的に抜き出してくる手法で,うまくいくと言語文化的な観点からおもしろい結果が出る.
 今回は,Polzenhagen and Wolf の論考を読んでいて,ICE (International Corpus of English) が提供するカメルーン英語のコーパスからキーワードを抜き出した調査が紹介されているのを見つけたので,それを紹介したい.対比のための参照コーパスとして,イギリス英語の FLOB とアメリカ英語の FROWN が用いられている.
 さて,調査の結果だが,カメルーン英語のキーワードとして以下の単語群が上位に浮かび上がってきたという (161) .

 ・ community
 ・ communal
 ・ family
 ・ relative
 ・ kin / kinship / kinsman / kinspeople
 ・ brotherhood
 ・ marriage
 ・ marry
 ・ marital
 ・ husband
 ・ wife
 ・ parent / parental / parenting
 ・ maternity / maternal
 ・ Birth
 ・ child / childhood / childless
 ・ Offspring

 意味の場として共通項をくくり出せば「親族」と「共同体」といったところだろうか.カメルーン社会の顕点が明らかになっているといってよいだろう.民族誌や認知人類学にも洞察を与えてくれる興味深い結果といえる.ただし,対比のための参照ポイントが英米変種(文化)であること,つまり結果が相対的なものであることは,常に意識しておく必要があるだろう.

 ・ Polzenhagen, Frank and Hans-Georg Wolf, "World Englishes and Cognitive Linguistics." Chapter 8 of The Oxford Handbook of World Englishes. Ed. by Markku Filppula, Juhani Klemola, and Devyani Sharma. New York: OUP, 2017. 147--72.

[ 固定リンク | 印刷用ページ ]

2018-09-07 Fri

#3420. キーワードを複数含む英語ことわざの一覧 [proverb][keyword]

 昨日の記事「#3419. 英語ことわざのキーワード」 ([2018-09-06-1]) を受けて,英語ことわざを特徴づける50のキーワードが実際にいくつか含まれていることわざを挙げておきたい.安藤リストの全866件のなかから,5つ以上のキーワードを含むことわざ(重複あり)は33件ほど見つかった.  *

 ・ No man better knows what good is than he who has endured evil.
 ・ See no evil, hear no evil, speak no evil.
 ・ Give a man a fish and you feed him for a day; show him how to catch fish and you feed him for a lifetime.
 ・ Better the devil you know than the devil you don't know.
 ・ A good neighbor is better than a brother far off.
 ・ It is easier for a camel to go through the eye of a needle, than for a rich man to enter into the kingdom of God.
 ・ Half a loaf is better than no bread.
 ・ Better be the head of a dog than the tail of a horse.
 ・ A wise man changes his mind, a fool never.
 ・ A man of words and not of deeds is like a garden full of weeds.
 ・ A man may lead (or take) a horse to the water but he cannot make him drink.
 ・ A good wife and health is a man's best wealth.
 ・ Where there is a will, there is a way.
 ・ We may not expect a good whelp from an ill dog.
 ・ The good you do for others is good you do yourself.
 ・ Poverty is no disgrace, but it is a great inconvenience.
 ・ It is the bridle and spur that makes a good horse.
 ・ It is better to be stung by a nettle than pricked by a rose.
 ・ In a calm sea every man is a pilot.
 ・ He that hath a full purse never wanted a friend.
 ・ Don't make yourself a mouse, or the cat will eat you.
 ・ Better be the head of a dog than the tail of a lion.
 ・ Adversity makes a man wise.
 ・ A picture is worth a thousand words.
 ・ A wise man never wants a weapon.
 ・ A good wife makes a good husband.
 ・ A good wife is a good prize.
 ・ A good husband makes a good wife.
 ・ A good beginning makes a good ending.
 ・ A friend who shares is a friend who cares.
 ・ A friend to everybody is a friend to nobody.
 ・ A friend in need is a friend indeed.
 ・ A fool at forty is a fool indeed.

 なるほど,英語ことわざの典型がいかなるものか,何となくつかめてくる.賢愚,邪正,貧福,貴賤.キーワードを組み合わせれば,適当なことわざを作れてしまえそうなほどだ.逆にいえば,少なからぬことわざが表わす知恵や真理というものは,限られた数のキーワードを組み合わせることによって表現できるほどのものなのかもしれない.だから内容も軽いと言いたいわけではなく,むしろ重いのだろう.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.

Referrer (Inside): [2021-04-16-1] [2018-09-08-1]

[ 固定リンク | 印刷用ページ ]

2018-09-06 Thu

#3419. 英語ことわざのキーワード [proverb][keyword][statistics][corpus]

 今年6月に開拓社より出版された安藤邦男(著)『ことわざから探る 英米人の知恵と考え方』の紹介ページに,同著で言及された英語ことわざの索引や,その他の関連するリストが公開されている.こちらから英語のことわざ866件を取り出し,簡単にキーワード分析してみた.  *
 一般的な参照コーパスとして,British English 06 (BE06) を指定した.このコーパスについては「#1730. AmE-BrE 2006 Frequency Comparer」 ([2014-01-21-1]) で紹介しているが,端的にいえば2006年(頃)に出版されたイギリス英語の諸テキストからなる100万語規模のコーパスである.計算の結果,キーワード度数の高かった順に50の単語を挙げよう.  *

is, makes, good, man, cannot, a, never, you, love, wise, better, thief, devil, ill, than, fool, horse, no, truth, fortune, sweet, adversity, evil, make, shall, travels, friend, every, don't, beauty, knows, not, money, neighbor, speak, words, will, worth, fair, hath, best, blind, deceives, dog, longest, comes, honor, man's, great, bread


 上位語には機能語も多く入っているが,ことわざの文体の雰囲気をよく示しているように思われ,興味深い.cannot, never, you, than, no, shall, every, don't, not, hath などは,いかにもことわざと似合う機能語である.
 それに劣らず内容語のラインナップもおもしろい.動詞では make, know, deceive というのがいかにもだし,名詞では man, thief, devil, fool, horse, truth, fortune, adversity, evil, friend, beauty, money, neighbor, words, dog, honor, bread など,思わず首肯してしまうものばかりだ.形容詞や副詞では,good, better, best, ill はもちろんのこと,wise, fair, blind, longest などには納得させられる.善悪,真偽,賢愚の対比や比較により,道徳上・生活上の知恵を授けるという英語ことわざの本質が見えてくるようなキーワードだ.
 このような文体に関わるキーワード分析は,極めて客観的でありながら,往々にして直観に適う結果が出る(あるいはそれ以上に発見がある)という点でおもしろい.ほかにも,「いかにもなキーワード」シリーズの記事として,「#317. 拙著で自分マイニング(キーワード編)」 ([2010-03-10-1]),「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]),「#880. いかにもイギリス英語,いかにもアメリカ英語の単語」 ([2011-09-24-1]),「#2332. EEBO のキーワードを抽出」 ([2015-09-15-1]) を参照.歴史英語の通時的なキーワード分析については,初期中英語コーパス LAEME を利用した Hotta (2013) 論文もある.

 ・ 安藤 邦男 『ことわざから探る 英米人の知恵と考え方』 開拓社,2018年.
 ・ Hotta, Ryuichi. "Representativeness, Word Frequency, and Keywords in the LAEME Corpus." Journal of the Faculty of Letters: Language, Literature and Culture 112 (2013): 67--84.

[ 固定リンク | 印刷用ページ ]

2015-09-15 Tue

#2332. EEBO のキーワードを抽出 [eebo][lob][corpus][keyword][text_tool][emode]

 コーパスからキーワードを拾うという分析を,「#317. 拙著で自分マイニング(キーワード編)」 ([2010-03-10-1]),「#518. Singapore English のキーワードを抽出」 ([2010-09-27-1]),「#880. いかにもイギリス英語,いかにもアメリカ英語の単語」 ([2011-09-24-1]) で紹介してきた.今回は初期近代英語を中心的に扱うテキスト・データベース EEBO (Early English Books Online) より,キーワードを拾ってみたい.
 EEBO から個人的に収集した初期近代英語のテキスト集(全11億語以上)に対し,WordSmith の KeyWords 抽出機能を用いた.参照コーパスとしては,現代イギリス英語を代表するものとして LOB コーパスを指定した.本来は参照コーパスのほうがずっと大規模ではなければならないのだが,EEBO が大きすぎるということで,今回は目をつぶっておきたい.狙いは,現代英語と比べて使用頻度の著しく高い初期近代英語の語を拾い出すということである.当時の社会を特徴づける語彙が集まるはずである.
 キーワード性を示す指標の高い順に,500語までのリストがたちどころに得られた.いずれも小文字で示す.

[ Top 100 ]

amp, note, god, and, that, hath, them, christ, shall, haue, thou, they, thy, so, all, our, not, their, upon, doth, vnto, of, unto, his, king, yet, or, hee, eacute, vs, ye, him, lord, thee, which, bee, doe, saith, men, onely, but, vpon, be, nor, de, c, gods, by, faith, holy, great, church, your, o, as, selfe, wee, owne, ad, con, est, things, then, such, therefore, himselfe, may, y, to, sin, grace, cause, tis, us, mr, ther, kings, thereof, let, spirit, man, al, vp, yea, any, this, ac, s, pro, ing, com, thus, e, against, forth, re, shew, whom, l, wherein

[ -- 200 ]

loue, ly, selves, scripture, self, law, st, those, thing, cor, sinne, being, glory, euery, death, good, sonne, true, neuer, whereof, iohn, againe, psal, pope, religion, ed, hym, soule, hast, lib, ex, heaven, agrave, whiche, pray, neither, downe, acirc, tion, quod, my, sed, fore, soul, nature, euen, dayes, is, p, apostles, euer, till, feare, chap, ver, rom, vnder, ma, qui, vse, according, giue, power, ouer, mans, egrave, lesse, se, doctrine, ne, ment, meanes, themselues, shal, d, sins, viz, prince, did, vertue, wicked, honour, earth, ut, blessed, princes, ter, apostle, th, persons, que, thinke, same, others, lords, ought, pag, truth, none, kingdome

[ -- 300 ]

tho, si, cap, goe, if, beene, flesh, et, christs, make, fathers, concerning, reason, body, mercy, selues, enemies, bishops, farre, v, bishop, ar, hearts, wil, likewise, other, rome, name, obedience, en, wise, cum, speake, finde, nay, iesus, we, conscience, manner, non, heart, sinnes, it, yt, hauing, saints, generall, mat, contrary, worke, wit, sayd, whereby, covenant, wherefore, gen, passe, poore, lorde, publick, word, mens, suffer, na, heare, mee, ei, heb, divers, christians, therein, theyr, minde, shalt, bloud, shewed, certaine, vers, un, son, amongst, ibid, ca, jesus, betwixt, quae, scriptures, say, divine, thine, rest, countrey, besides, di, heauen, cannot, qu, therfore, godly, sent

[ -- 400 ]

m, moses, these, christian, called, n, vn, false, should, paul, also, discourse, meane, without, booke, whence, shee, emperour, souls, place, thereby, yeares, tyme, lawes, peace, what, dis, behold, foure, citie, giuen, israel, anno, liberty, thence, gospel, cast, ograve, aboue, souldiers, tooke, sa, priests, gaue, fol, maketh, places, pardon, te, warre, saviour, wayes, saint, thinges, will, themselves, kinde, suche, bene, love, salvation, yeare, towne, spirituall, esse, fa, duke, majesty, brethren, laws, alwayes, workes, ab, lest, for, wrath, wordes, soules, done, sunt, angels, vel, ry, liue, ted, ty, looke, repentance, dr, beare, prayer, keepe, faire, ii, parts, helpe, iudge, no, churches, r

[ -- 500 ]

dy, vsed, prophet, outward, ble, ap, spake, sect, armes, notwithstanding, come, h, naturall, maner, crosse, popes, sayth, pa, papists, whatsoever, gospell, iudgement, writ, noble, hoc, par, sacrifice, dye, worship, ons, af, eternal, leaue, ob, euill, am, sacrament, diuers, both, ghost, quam, lye, yee, comming, secondly, how, iustice, sword, daies, father, vi, before, prayers, bodie, whome, councell, nec, though, faithfull, lawe, humane, aut, wel, mi, hir, iii, worthy, isa, easie, ugrave, nowe, lawfull, ere, seene, priest, glorious, serue, commanded, earle, forme, thither, eternall, prophets, turne, iewes, mo, im, halfe, matth, manifest, wilt, are, words, iust, betweene, affections, ocirc, li, ned, creatures

 対象としたのは EEBO から収集した平テキストであり,そこには多くの注記やタグも含まれている.それを除去するなどの特別なテキスト処理は施していないので,雑音も相当混じっていることに注意したい.実際,1位の amp はタグの一部であり,2位の note も注記を表わす記号と考えてよいので,いずれも無視すべきだが,ここではキーワード抽出結果をそのまま提示することにした.
 現代でも高頻度語ではあるが,初期近代では綴字が異なる hath, haue, doth, hee, vs, bee などが上位に来ることは理解できるだろう.また,現代では古風となっている2人称単数代名詞 thou, thy, thee の顕著なことも理解できる.
 おもしろいのは,現在でも現役ではあるが,それほど顕著ではなくなっている語である.例えば,リストの上位にキリスト教的な語が多いことに気づく.200位以内に限ってざっと拾うだけでも,god, christ, gods, faith, holy, church, grace, spirit, loue, scripture, sinne, glory, death, pope, religion, soule, heaven, pray, soul, apostles, vertue, wicked, honour, blessed, apostle などが挙がる.チューダー朝,スチュアート朝ともに,キリスト教に翻弄され続けた時代だったことも関係するだろう.逆にいえば,現代がいかに世俗化したか,ということでもある.
 綴字としては,無音の <e> の自由な付加・脱落,<u> と <v> 及び <i> と <j> の混在,shall の顕著な使用,ye の残存などが挙げられるだろう (see 「#373. <u> と <v> の分化 (1)」 ([2010-05-05-1]),「#374. <u> と <v> の分化 (2)」 ([2010-05-06-1]); 「#1650. 文字素としての j の独立」 ([2013-11-02-1])) .また,現在では堅苦しい機能語も多い (ex. upon, vnto, nor, therefore, thereof, whereof) .

Referrer (Inside): [2018-09-06-1] [2018-01-10-1]

[ 固定リンク | 印刷用ページ ]

2011-09-24 Sat

#880. いかにもイギリス英語,いかにもアメリカ英語の単語 [corpus][ame_bre][ame][bre][flob][frown][text_tool][keyword]

 道具が揃っていれば簡単に実行でき,しかも結果がとてもおもしろいコーパスの使い方として,キーワード抽出がある.その原理については[2010-03-10-1]の記事「#317. 拙著で自分マイニング(キーワード編)」で概説し,[2010-09-27-1]の記事「#518. Singapore English のキーワードを抽出」でもキーワード抽出の事例を紹介した.
 今回はより身近な疑問として,(1) アメリカ英語に対していかにもイギリス英語的な単語は何か,(2) イギリス英語に対していかにもアメリカ英語的な単語は何か,を FLOB と Frown の2コーパスを用いて取り出してみたい(両コーパスについては[2010-06-29-1]の記事「#428. The Brown family of corpora の利用上の注意」を参照).解析のお供は,以前と同様 WordSmith の KeyWords 抽出機能である.
 両変種の語彙頻度表を互いに突き合わせ,それぞれキーワード性 (keyness) の高い順に上位500語を取り出した(全リストはこちらのテキストファイルを参照).ここでは,それぞれから上位50語のみを再掲しよう.すべて小文字で示す.

 Q. (1) アメリカ英語に対していかにもイギリス英語的な単語は何か?
 A. (1) 以下の通り.

cent, which, labour, uk, towards, london, per, centre, was, british, programme, behaviour, it, be, colour, britain, defence, favour, royal, there, been, round, bbc, thatcher, sir, mp, charter, nhs, realised, scottish, yesterday, lord, favourite, local, council, recognised, theatre, mr, being, fviii, tory, kinnock, mps, thalidomide, whilst, scotland, churches, should, programmes, parliament


 Q. (2) イギリス英語に対していかにもアメリカ英語的な単語は何か
 A. (2) 以下の通り.

percent, toward, program, programs, clinton, u, bush, labor, s, defense, president, american, states, center, washington, formula, federal, behavior, color, united, black, state, fiber, says, zen, americans, ó, california, congress, zach, san, o, white, presidential, pex, jell, women, treaty, favorite, said, bill, gray, colors, perot, favor, douglass, hershey, quayle, j, n


 中には,それだけでは意味不明のものもある.BrE の第1位 cent などは何故かと思うかもしれないが,分かち書きをする per cent の2語目が抜き出された結果である.AmE では対応する percent が第1位である.他にも綴字の英米差はよく反映されており,behaviour, centre, colour, defence, favour, favourite, labour, programme(s) は互いのリストに現われる.
 英国の政治を特徴づける MP(s), NHS, Parliament, Royal, Scotland, Tory,対応する米国の Congress, Federal, President, State(s), Washington, White (House) などは,なるほどと頷かせる.両コーパスのテキスト年代である1990年代初頭(と少し以前の時期)を特徴づける Thatcher, Bush, Clinton も含まれている.
 文法語としては,BrE の whichwhilst ([2010-09-17-1]の記事「#508. Dracula に現れる whilst」を参照)が興味深い.
 それにしても,それぞれ鼻につくほどの BrE あるいは AmE である.逆に,各変種の汎用コーパスからこのようにして抽出されたキーワードがどれくらい含まれているかによって,小説なり何なりのテキストがいかに BrE 的か AmE 的か,あるいはより中立な "World Standard English" に近いかということを測ることができるかもしれない.
 キーワード抽出による「いかにも」シリーズは今後も続きそう.

[ 固定リンク | 印刷用ページ ]

2010-09-27 Mon

#518. Singapore English のキーワードを抽出 [text_tool][corpus][flob][ice][singapore_english][keyword]

 昨日の記事[2010-09-26-1]ICE ( International Corpus of English ) からいくつかの英語地域変種コーパスが手に入る旨を紹介したが,そのなかから Singapore English のコーパス ( ICE-SIN ) を少しいじってみた.
 [2010-03-10-1]の記事で WordSmith の KeyWords 抽出機能を拙著の英文で試したが,今回は ICE-SIN で同様に試してみるとどうなるだろうかと思った.そこで今回も,1990年代初頭のイギリス英語を対象に編纂された比較可能な FLOB corpus ( see [2010-06-29-1] ) を参照コーパスとし,British English に照らして Singapore English に特徴的な語(=キーワード)を抽出してみた.キーワード性の高い上位20語について,WordSmith に出力された表を掲げよう(上位100語までのリストはこのページのHTMLソースを参照).

nwordice-sin.freq.ice-sin.lst %flob.freq.flob.lst %keyness
1uh8,2300.748 19,246.0
2you18,1751.647,2580.2917,768.5
3uhm3,8380.350 9,021.1
4ya3,5800.3210 8,283.9
5i15,1661.3712,2300.497,051.3
6singapore3,0410.2764 6,570.0
7word3,4900.324820.025,621.8
8know4,7680.431,5340.065,345.5
9okay2,2960.2128 5,112.0
10so6,7590.614,4520.184,113.8
11lah1,7470.162 4,074.4
12it's3,5850.321,1860.053,949.9
13your3,4850.311,6420.072,972.2
14oh1,9520.183440.012,900.2
15think2,7610.251,2080.052,501.5
16ah1,2880.12142 2,204.9
17we5,8840.535,4060.222,190.7
18is15,0221.3620,5880.832,027.9
19don't2,3720.211,1960.051,904.9
20what4,6350.424,0720.161,865.8


 上位リストを眺めていたら2つの特徴が浮かんできた.

(1) 当然ながら Singapore English としばしば結びつけられる表現が上位に食い込んでいる.例えば,11位の lah は日本語でいう終助詞「ね」「よ」や間投詞のような働きをする pragmatic marker で,Singapore (and Malaysian) English らしい表現として知られている.しかし,やはり局地的な表現だからか手元の英語辞書にはほとんど掲載されておらず,唯一 Macmillan English Dictionary for Advanced Learners, 2nd ed. で次のような説明があった.

adverb INFORMAL
used by people in Malaysia and Singapore for making something they are saying sound more friendly and informal


 例文を挙げるには,ICE-SIN から直接拾ってくると早い.会話文ではもちろんのこと,次のような親しい手紙文でも使われている.

Anyway, life is getting colder here. Hottest degree - 16 degrees celcius, coldest so far is 8oc. Brr..rr!! I'm wearing 3 to 4 layers now, like I did in England. So heavy one lah! Get back ache, you know!


 ほかには,Singapore が6位に入っていたり,dollar(s), Chinese, Singaporeans, Malay などが上位100語以内に入っている.

(2) lah の頻度の高さとも関係するが,口語性の高い語,会話で頻出すると考えられる語が目立つ.直示性を表わす人称代名詞や副詞,また語調を和らげる語 ( hedge ) が特に多い.広く語用論的な機能をもつ語群としてまとめてよいかもしれない.もっとも話し言葉と結びつけられるキーワードが多いことは予想されたことではある.書き言葉は標準に準拠しやすく,地域変種間の差が少ないのが普通だからである.とりわけ話し言葉に地域変種の差が出やすいということが,今回のキーワード抽出で確かめられたということだろう.

 今回のようなキーワード抽出は,もちろん他の地域変種にも応用できる.参照コーパスをイギリス英語以外に動かして相対的に各変種の特徴をみるというのもおもしろそうだ.

[ 固定リンク | 印刷用ページ ]

2010-03-10 Wed

#317. 拙著で自分マイニング(キーワード編) [text_tool][flob][corpus][keyword]

 昨日の記事[2010-03-09-1]に引き続き,拙著 The Development of the Nominal Plural Forms in Early Middle English で自分マイニング.WordSmith には KeyWords 抽出機能がある.単に単語リストを頻度順に並べた昨日のリストでもおよそのテキストの主題を読み取ることは可能だが,上位に機能語などの雑音が大量に入り込み,解釈しにくい.それに対して,キーワードリストでは対象テキストの主題をよく表す実質的なキーワードが上位に来るので,解釈しやすい.
 考え方としては以下の通りである.巨大なコーパスなどを参照テキストとして使用し,そこから単語ごとに一般的な頻度を導き出す.次に,対象テキスト内で各単語について頻度を出す.ある語の対象テキスト内での頻度が,参照テキスト内での頻度よりも相当に大きい場合には,それは対象テキストに特有のキーワードとみなせる.そのようなキーワードを自動的に探し出してくれるのが,WordSmith の KeyWords 抽出機能である.拙著はイギリス英語で書いていることもあり,参照テキストとしては FLOB ( Freiburg-LOB corpus ) を使用した.以下,上位50語のキーワードである.

plural, english, s, n, old, nouns, norse, dialect, midland, middle, plurals, dialects, texts, language, forms, text, ending, diffusion, v, south, west, nominative, early, stem, the, spread, linguistic, singular, endings, inflectional, contact, accusative, o, system, weak, in, development, sec, change, fem, dative, morphological, languages, saxon, item, formation, period, transfer, germanic, strong


 ずばり来てくれました plural .複数形の研究なのでそうでなければ困るところだ.昨日のリストよりも機能語の雑音がよくはじかれている.
 WordSmith には各キーワードのファイル内での出現箇所を視覚的にプロットする機能もあり,上記の50語について以下のようなプロットが得られた.

KeyWords Plotted for Self-Mining

 執筆者本人なので,なるほどと思えることが多い.最上位語はテキスト中にまんべんなく現れる傾向があるが,それでも分布が偏っているものもある.7位の norse は Old Norse について論じている7章に固まっているし,18位 diffusion は Lexical Diffusion を集中的に扱っている5章に集中している.
 われながらの発見もあった.言語変化を論じているので developmentchange を多用しているが,執筆中にはそれほど意識して両語を使い分けていたわけではなかった.そうであればまんべんなく分布していそうなものだが,実際には change が5章辺りに偏在している.ということは,無意識のうちに使い分けていたということなのだろうか.無意識の癖とでもいうべきものが発見できておもしろい.
 文章をこのように分析することで,実用的な効果がいろいろ考えられそうである.思いつきを記す.

 ・ 文体の統計を把握することで今後の文章改善に活かす(誰々の文体に近づきたい,ボキャ貧をなおしたい,パラグラフ構成の指針をもちたい,など)
 ・ 自分の過去の文章と比較し,文体の経年変化を観察する
 ・ 論文などを書き終えた後でタイトル候補が複数ある場合に,キーワードを参考にして決定する
 ・ 自分の過去の論文などをひっくるめて分析対象とし,「私の研究テーマは(キーワード)です」と言い切れるようになる
 ・ 相手の過去の論文などをひっくるめて分析対象とし,「あなたの研究テーマは(キーワード)です」と言い切れるようになる(←おせっかい)
 ・ 緩やかに関連する二つの論文 A と B を互いに参照テキストとしてそれぞれのキーワードを抽出し,A の特徴と B の特徴を比べる.共通点が多いことを前提としているので,キーワードによって逆に相違点が浮き彫りになる可能性がある.

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow