hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 次ページ / page 1 (2)

collocation - hellog〜英語史ブログ

最終更新時間: 2024-04-27 09:58

2023-02-19 Sun

#5046. silence と共起する形容詞 [adjective][collocation][bnc][corpus]

 昨日の記事「#5045. deafening silence 「耳をつんざくような沈黙」」 ([2023-02-18-1]) で取り上げた共起表現について,BNCweb により例文を引き出してみた.いくつか挙げてみよう.

 ・ All that remained on the barren expanse was a deafening silence.
 ・ But the countryside! Absolute deafening silence. Not a tractor in sight. No buzzing saw mills, no electric milking machines humming away. Just horses and ploughs and, for want of a better word, peasants.
 ・ now there is almost a deafening silence, broken only by the odd apologetic cough as the minutes tick towards 8.30.
 ・ In the deafening silence inside the gallery she could hear her heart thumping madly against her ribs.
 ・ It was a relief when a couple of minutes later, amidst the deafening silence that had descended on the room, Mrs Aitken poked her head round the door. 'Dinner will be served whenever you're ready.'

 この撞着語法 (oxymoron) の共起表現に関心を焚きつけられて,silence という名詞はほかにどのような形容詞で修飾されることが多いのだろうかと問いが湧いてきた.これは共起 (collocation) に関する初歩的な類いの疑問で,コロケーション辞書や活用辞書を引けば済む話しだが,行きがかり上 BNCweb で調べてみることにする."_AJ* {silence/N}" と検索した上で Frequency breakdown の機能を用い,50位までの頻度ランキングを出してみた.

No.Lexical itemsNo. of occurrences
1long silence145
2stunned silence53
3complete silence44
4total silence43
5tense silence37
6awkward silence31
7brief silence28
8short silence27
9sudden silence23
10absolute silence22
11deafening silence22
12embarrassed silence22
13uncomfortable silence22
14shocked silence16
15stony silence15
16dead silence14
17deep silence13
18Eerie silence13
19heavy silence13
20small silence12
21thoughtful silence12
22uneasy silence12
23utter silence12
24ensuing silence11
25sullen silence11
26momentary silence10
27fraught silence9
28ominous silence9
29terrible silence9
30brooding silence8
31companionable silence8
32sponsored silence8
33virtual silence8
34dignified silence7
35horrified silence7
36Hushed Silence7
37lengthy silence7
38long silences7
39longer silence7
40strained silence7
41uncanny silence7
42awful silence6
43cold silence6
44comparative silence6
45continuing silence6
46embarrassing silence6
47gloomy silence6
48great silence6
49strange silence6
50angry silence5


 deafening silence も10位タイに入っており,それなりに知られた共起表現だということがわかる.stunned silence, stony silence, dead silence など味わい深い表現があるものだ.

[ 固定リンク | 印刷用ページ ]

2023-02-18 Sat

#5045. deafening silence 「耳をつんざくような沈黙」 [oxymoron][voicy][heldio][collocation][rhetoric][pragmatics][ethnography_of_speaking][prosody][syntagma_marking][sociolinguistics][anthropology][link][collocation]

 今週の Voicy 「英語の語源が身につくラジオ (heldio)」にて,「#624. 「沈黙」の言語学」「#627. 「沈黙」の民族誌学」の2回にわたって沈黙 (silence) について言語学的に考えてみました.



 hellog としては,次の記事が関係します.まとめて読みたい方はこちらよりどうぞ.

 ・ 「#1911. 黙説」 ([2014-07-21-1])
 ・ 「#1910. 休止」 ([2014-07-20-1])
 ・ 「#1633. おしゃべりと沈黙の民族誌学」 ([2013-10-16-1])
 ・ 「#1644. おしゃべりと沈黙の民族誌学 (2)」 ([2013-10-27-1])
 ・ 「#1646. 発話行為の比較文化」 ([2013-10-29-1])

 heldio のコメント欄に,リスナーさんより有益なコメントが多く届きました(ありがとうございます!).私からのコメントバックのなかで deafening silence 「耳をつんざくような沈黙」という,どこかで聞き覚えたのあった英語表現に触れました.撞着語法 (oxymoron) の1つですが,英語ではよく知られているものの1つのようです.
 私も詳しく知らなかったので調べてみました.OED によると,deafening, adj. の語義1bに次のように挙げられています.1968年に初出の新しい共起表現 (collocation) のようです.

b. deafening silence n. a silence heavy with significance; spec. a conspicuous failure to respond to or comment on a matter.
   1968 Sci. News 93 328/3 (heading) Deafening silence; deadly words.
   1976 Survey Spring 195 The so-called mass media made public only these voices of support. There was a deafening silence about protests and about critical voices.
   1985 Times 28 Aug. 5/1 Conservative and Labour MPs have complained of a 'deafening silence' over the affair.


 例文から推し量ると,deafening silence は政治・ジャーナリズム用語として始まったといってよさそうです.
 関連して想起される silent majority は初出は1786年と早めですが,やはり政治的文脈で用いられています.

1786 J. Andrews Hist. War with Amer. III. xxxii. 39 Neither the speech nor the motion produced any reply..and the motion [was] rejected by a silent majority of two hundred and fifty-nine.


 最近の中国でのサイレントな白紙抗議デモも記憶に新しいところです.silence (沈黙)が政治の言語と強く結びついているというのは非常に示唆的ですね.そして,その観点から改めて deafening silence という表現を評価すると,政治的な匂いがプンプンします.
 oxymoron については.heldio より「#392. "familiar stranger" は撞着語法 (oxymoron)」もぜひお聴きください.

Referrer (Inside): [2023-02-19-1]

[ 固定リンク | 印刷用ページ ]

2023-02-18 Sat

#5045. deafening silence 「耳をつんざくような沈黙」 [oxymoron][voicy][heldio][collocation][rhetoric][pragmatics][ethnography_of_speaking][prosody][syntagma_marking][sociolinguistics][anthropology][link][collocation]

 今週の Voicy 「英語の語源が身につくラジオ (heldio)」にて,「#624. 「沈黙」の言語学」「#627. 「沈黙」の民族誌学」の2回にわたって沈黙 (silence) について言語学的に考えてみました.



 hellog としては,次の記事が関係します.まとめて読みたい方はこちらよりどうぞ.

 ・ 「#1911. 黙説」 ([2014-07-21-1])
 ・ 「#1910. 休止」 ([2014-07-20-1])
 ・ 「#1633. おしゃべりと沈黙の民族誌学」 ([2013-10-16-1])
 ・ 「#1644. おしゃべりと沈黙の民族誌学 (2)」 ([2013-10-27-1])
 ・ 「#1646. 発話行為の比較文化」 ([2013-10-29-1])

 heldio のコメント欄に,リスナーさんより有益なコメントが多く届きました(ありがとうございます!).私からのコメントバックのなかで deafening silence 「耳をつんざくような沈黙」という,どこかで聞き覚えたのあった英語表現に触れました.撞着語法 (oxymoron) の1つですが,英語ではよく知られているものの1つのようです.
 私も詳しく知らなかったので調べてみました.OED によると,deafening, adj. の語義1bに次のように挙げられています.1968年に初出の新しい共起表現 (collocation) のようです.

b. deafening silence n. a silence heavy with significance; spec. a conspicuous failure to respond to or comment on a matter.
   1968 Sci. News 93 328/3 (heading) Deafening silence; deadly words.
   1976 Survey Spring 195 The so-called mass media made public only these voices of support. There was a deafening silence about protests and about critical voices.
   1985 Times 28 Aug. 5/1 Conservative and Labour MPs have complained of a 'deafening silence' over the affair.


 例文から推し量ると,deafening silence は政治・ジャーナリズム用語として始まったといってよさそうです.
 関連して想起される silent majority は初出は1786年と早めですが,やはり政治的文脈で用いられています.

1786 J. Andrews Hist. War with Amer. III. xxxii. 39 Neither the speech nor the motion produced any reply..and the motion [was] rejected by a silent majority of two hundred and fifty-nine.


 最近の中国でのサイレントな白紙抗議デモも記憶に新しいところです.silence (沈黙)が政治の言語と強く結びついているというのは非常に示唆的ですね.そして,その観点から改めて deafening silence という表現を評価すると,政治的な匂いがプンプンします.
 oxymoron については.heldio より「#392. "familiar stranger" は撞着語法 (oxymoron)」もぜひお聴きください.

Referrer (Inside): [2023-02-19-1]

[ 固定リンク | 印刷用ページ ]

2022-10-08 Sat

#4912. 意味調整における前景化と背景化 [semantics][modulation][collocation][metonymy]

 昨日の記事「#4911. 意味調整における昇格と降格」 ([2022-10-07-1]) に引き続き,文脈が語に与える意味調整 (semantic modulation) について.
 意味調整には,昇格 (promotion) や降格 (demotion) と似てはいるが別種のタイプがある."highlighting" と "backgrounding" と言われるものだ.当面,それぞれを「前景化」「背景化」と和訳しておく.Cruse (53) の説明と例が分かりやすい.

Another effect of contextual modulation on the sense of a lexical unit involves the relative highlighting or backgrounding of semantic traits. Different sorts of trait can be affected in this way. Two examples will suffice. First, some part of an object (or process, etc.) may be thrown into relief relative to other parts. For instance, The car needs servicing and The car needs washing highlight different parts of the car. (This is not to say that car refers to something different in each of these sentences --- in both cases is is the whole car which is referred to.) Second, it is commonly the case that what is highlighted or backgrounded is an attribute, or range of attributes, of the entity referred to. For instance, We can't afford that car highlights the price of the car, Our car crushed Arthur's foot its weight. It is in respect of 'contextually modulated sense' that a lexical unit may be justifiably said to have a different meaning in every distinct context in which it occurs.


 文脈に応じて同じ car という語に意味調整が働き,注目点が精妙に操作されているわけだ.前景化(および背景化)は,指示対象の特定の「部分」や「属性」に注目する点で,メトニミー (metonymy) と関係が深い.

 ・ Cruse, D. A. Lexical Semantics. Cambridge: CUP, 1986.

[ 固定リンク | 印刷用ページ ]

2022-10-07 Fri

#4911. 意味調整における昇格と降格 [semantics][modulation][collocation]

 語の意味が文脈によって調整される現象は,意味調整 (semantic modulation) と呼ばれる.意味調整は本質として連続的かつ流動的で,それだけ精妙なものである.意味調整の種類1つに昇格 (promotion) と降格 (demotion) がある.文脈によりある語の特定の意味特徴が "canonical" になった場合,その意味特徴は昇格されたといわれる.反対に,ある意味特徴があり得なくなった場合,それは降格されたといわれる.Cruse (52) より例を挙げよう.

 (1) A nurse attended us.
 (2) A pregnant nurse attended us.

 (1) の nurse には,多くの場合「女性」という意味特徴が含まれているだろうと予期される.おそらく女性でありそうだ,おそらく男性ではなさそうだ,ほどの予期である.
 一方 (2) の nurse にあっては,「女性」という意味特徴は "canonical" である,つまり解釈する上で必須の意味特徴である.文脈(あるいは pregnant との共起)によって,意味特徴「女性」が,単にありそうだという地位から,そうでなければならないという地位に昇格されるということだ.逆にいえば,「男性」という意味特徴は,場合によってはあり得るという地位から,絶対にあり得ないという地位に降格されることになる.
 もう1つ例を挙げれば,

 (3) Arthur poured the butter into a dish.

という文において,butter は必然的に「液体性」という意味特徴を帯びる.通常は butter の液体性は,場合によってはあり得る程度の意味特徴にすぎないが,この文脈(あるいは poured との共起)にあっては,そうでなければならないという地位に昇格されているのである.

 ・ Cruse, D. A. Lexical Semantics. Cambridge: CUP, 1986.

Referrer (Inside): [2022-10-08-1]

[ 固定リンク | 印刷用ページ ]

2021-05-23 Sun

#4409. 色白で美しく公正な白雪姫 --- fair の語感 [khelf_hel_intro_2021][adjective][synonym][semantics][semantic_change][lexical_stratification][bnc][collocation][etymology]

 「英語史導入企画2021」より今日紹介するコンテンツは,昨日学部生より公表された「この世で一番「美しい」のは誰?」です.ディズニー映画 Snow White and the Seven Dwarfs (『白雪姫』)の台詞 "Magic mirror on the wall, who is the fairest one of all?" で用いられている形容詞 fair の意味変化に焦点を当てた英語史導入コンテンツとなっています.
 「美しい」といえばまず beautiful が思い浮かびますが,なぜ問題の台詞では fair なのでしょうか.まず,コンテンツでも解説されている通り fair には「色白の」という語義もありますので,Snow White とは相性のよい縁語といえます.さらに,beautiful が容姿の美しさを形容するのに特化している感があるのに対し,fair には「公正な,公平な」の語義を含め道徳的な含意があります (cf. fair trading, fair share, fair play) .白雪姫を形容するのにぴったりというわけです.
 fair は古英語期より用いられてきた英語本来語で,古く清く温かい情感豊かな響きをもちます.一方,beautiful は,14世紀に古フランス語の名詞 beute を借用した後に,15世紀に英語側で本来語接尾辞 -ful を付加して作った借用語です.フランス借用語(正確には「半」フランス借用語)は相対的にいって中立的で無色透明の響きをもつことが多いのですが,beautiful についていえば確かに fair と比べて道徳的・精神的な深みは感じられません.(ラテン借用語 attractive と合わせた fair -- beautiful -- attractive の3語1組 (triset) と各々の使用域 (register) については,「#334. 英語語彙の三層構造」 ([2010-03-27-1]) をご覧ください.)
 fairbeautiful のような類義語の意味・用法上の違いについて詳しく知りたい場合には,辞書やコーパスの例文をじっくりと眺め,どのような語と共起 (collocation) しているかを観察することをお薦めします.試しに約1億語からなるイギリス英語コーパス BNCweb で両語の共起表現を調べてみました.ここでは人物と容姿を形容する共起語に限って紹介しますが,fair とタッグを組みやすいのは hairlady です.一方,beautiful とタッグを組む語としては woman, girl, young, hair, face, eyes, looks などが挙がってきます.気品を感じさせる fair lady に対して,あくまで容姿の良さを表わすことに特化した beautiful woman/girl という対立構造が浮かび上がってきます.白雪姫にはやはり fair がふさわしいのでしょうね.
 fair に見られる白さと公正さの結びつきは,candid という形容詞にも見られます.candid は第一に「率直な」を意味しますが,やや古風ながらも「公平な」の語義がありますし,古くは「白い」の語義もありました.もともとの語源はラテン語 candidus で,まさに「白い」を意味しました.「白熱して輝いている」が原義で,candle (ロウソク)とも語根を共有しています.また,candidate (候補者)は,ローマで公職候補者が白いトーガを着る習わしだったことに由来します.ちなみに日本語でも「潔白」「告白」「シロ(=無罪)」などに白さと公正さの関係が垣間見えますね.

[ 固定リンク | 印刷用ページ ]

2021-04-15 Thu

#4371. 価値なきもの イチジク,エンドウ,ピーナッツ,ネギ,マメ,ワラ [negative][idiom][collocation][proverb][khelf_hel_intro_2021]

 英語における「取るに足りないもの」の物尽し.

価値なきもの
イチジク,エンドウ,ピーナッツ,
ネギ,マメ,ワラ


 この物尽しの果実・野菜・豆などを表わす植物名を英単語に置き換え,not worth a に後続させると,いずれも「?ほどの価値もない,取るに足りない」を意味する慣用句 (idiom) となる.not worth a fig/pea/peanut/leek/bean/straw の如くだ.
 私などは,ワラを除いて,すべて旨い食べ物ではないか,とりわけ酒のつまみに良さそうではないか(イチジクはよしておこう)と評価したいところだが,英語文化においてはどうやら軽視される存在のようだ.
 日本語では,例えば「豆」は接頭辞として「豆電球」「豆台風」などと用いるが,物理的に小さいことを示しこそすれ,軽視のコノテーションは感じられない.また,日本語の「溺れる者は藁をも掴む」という諺は,窮地に陥っている人はワラのように頼りにならないものにも救いを求めるものだという教えで,一見すると「ワラ=取るに足りない」が成立しそうだが,この諺は実は英語の A drowning man will catch at a straw. の直訳にすぎず,日本語発の諺ではない.この辺りの感覚は,日英語でかなり異なるらしい.
 英語のこのような「価値なきもの」を表わす種々の慣用句の役割は「文彩的否定」(figurative negation)呼ばれるという.これは「英語史導入企画2021」の一環として昨日アップされた院生によるコンテンツ「否定と植物」から学んだことである.文彩的否定の表現には様々な「取るに足りない」植物の名前が用いられてきたようで,歴代引き合いに出されてきた植物としては cress (カラシナ)や sloe (リンボク)なども含まれ,何だかよく分からないリストとなっている.
 同コンテンツによると,このような表現は中英語期に続々と生まれたという.植物のみならず動物,昆虫,魚なども引き合いに出されたというから,こうした名詞の一覧を整理してみれば,英語文化において何が軽視されてきたかが概観できそうである.たいへん洞察に富むコンテンツ.

Referrer (Inside): [2021-04-16-1]

[ 固定リンク | 印刷用ページ ]

2021-01-29 Fri

#4295. Porzig の「意味の場」 [semantics][semantic_field][collocation][cognitive_linguistics][terminology]

 一昨日と昨日の記事「#4292. Trier の「意味の場」の言語学史上の意義 (1)」 ([2021-01-27-1]) と「#4293. Trier の「意味の場」の言語学史上の意義 (2)」 ([2021-01-28-1]) では,Trier の「意味の場」 (semantic_field) の学史的背景をみた.今回は,Trier と同じ時代にかなり異なる種類の「意味の場」を提起した Porzig に注目してみたい.参照する論文は昨日と同じ Öhman である.
 Trier の「意味の場」が paradigmatic な視点からのものであるのに対し,Porzig の「意味の場」は syntagmatic である.現代の術語でいえば語の共起 (collocation),あるいは共起制限の発想に近い.また,Trier は「意味の場」を論じるのに名詞を重視するが,Porzig は動詞や形容詞などの述語的な語彙を重視する.

The field concept of Porzig is of quite a different type than Trier's. Porzig finds certain "essential semantic relationships" between verbs and nouns or between adjectives and nouns. 'To go' presupposes 'the feet', 'to grasp' presupposes 'the hand', and 'blond' (in German and English) presupposes 'the hair'. These relationships form the basic articulations of the meaning system and therefore Porzig calls them "elementary semantic fields" (elementare Bedeutungsfelder). The nucleus of such a semantic field can only consist of a verb or an adjective, because these classes of words have a predicative function and are therefore less ambiguous than nouns. One can grasp with the hand only, but one can do many things with the hand. (129)


 両者のもう1つの大きな違いは,Trier の「意味の場」が最終的には意味や語彙の全体を覆う大構造を前提としているのに対して,Porzig のそれは基本的で具体的な場に主たる関心があるという点だ.後者には現代の認知意味論的な風味も感じられる.

Trier protests against Porzig's use of the term "field" in this new sense. Trier based his theory on the entire vocabulary, dividing it into large field units, and subdividing these until he reached the smallest entities---single words. Porzig's field, on the other hand, is conceived as primitive concrete situations linguistically designated. By means of it the speech community succeeds in grasping higher and more abstract spheres.


 現在の言語学でも「意味の場」の概念・用語は,かなり緩いものとして用いられているように見受けられる.この緩さの背景を理解するのに学史を振り返ってみることも重要だと,今回感じた.

 ・ Öhman, Suzanne. "Theories of 'the Linguistic Field'." Word 9 (1953): 123--34.

[ 固定リンク | 印刷用ページ ]

2020-12-03 Thu

#4238. oddly enough, interestingly enough などの表現における enough (1) [adverb][semantics][bnc][corpus][collocation][eurhythmy]

 以前より不思議に思っていた表現がある.enough という卑近な副詞を用いた表現なのだが,典型的に -ly 副詞に enough が後置され,文頭位置あるいは挿入句として生起するものだ.例をみるのが早い.BNCweb より挙げてみよう(問題の句はイタリック体にしてある).なお,検索窓には "*ly_{ADV} enough" と入力した.

 ・ Oddly enough, many parliaments expect to modify government plans, which takes time.
 ・ Her large grin and knotted black curls were, strangely enough, more memorable.
 ・ I had a dream last night funnily enough about Leeds (I dont normally --- honest!).
 ・ Interestingly enough, even hens and rats have been found to consume more calories when they are offered a varied diet than when they are fed `the same old thing' all the time.
 ・ Naturally enough, those who commit crimes will tend to conceal their actions and protect themselves.

 それぞれ「妙なことに」「奇妙なことに」「滑稽なことに」「興味深いことに」「当然のことに」を意味する,いわゆる文修飾の副詞句である.文修飾であるから,統語的には文頭に現われたり,挿入的に用いられたりすることは不思議ではない.理解しかねるのは,enough の役割である.なぜ「十分に」が添えられているのだろうか.enough が省略されたところで,前置されている副詞単体でも文修飾として同じように機能するのだ.副詞単体ではやや寂しく感じられ,たいした強調ともならない enough を添えることでリズムを良くする程度の効果 (eurhythmy) はありそうだが.
 enough に前置されることの多い副詞の種類としては,ヒット数の多い順に20個を挙げると oddly, quickly, strangely, funnily, interestingly, early, easily, naturally, curiously, clearly, appropriately, only, seriously, barely, ironically, nearly, surprisingly, badly, reasonably, hardly となる.しかし,quickly, early, easily などは,今回注目する用法としてではない例(つまり「十分に素早く」などの通常の用法)によって頻度が高くなっているにすぎない.注目する用法で現われる最も典型的な10語を選べば,oddly, strangely, funnily, interestingly, naturally, curiously, appropriately, ironically, surprisingly, reasonably あたりとなる.
 この用法が生起する分布に注意すると,書き言葉にも話し言葉にも現われており,メディアによる違いはないといってよい(いずれも 18 wpm 程度).使用者の男女差や世代差でみても,特に目立った分布上の特徴ははない.テキストタイプとしては Fiction and verse で相対的に高い値 (27.01 wpm) を示すが,際立っているわけでもない.多くの異なるレジスターで用いられているのが実態である.
 改めて enough の意味の問題に立ち戻ろう.この enough は意味論的にはかなり薄いものと言わざるを得ない.実際『ジーニアス英和大辞典』によれば,この enough には「十分に」の意味はほどんどない旨,言及がある.また,OED の enough, adj., pron., and n., and adv.C. adv. 2 にも "With the idea of satisfying a requirement reduced or absent." とあり,何のために「十分な」のかについて「何」の前提が薄くなってしまった語義が立てられている.その下位区分 (b) として与えられているのが,まさに今問題にしている用法で,次のように説明がある.

(b) With a sentence adverb, as in aptly enough.

   See also funnily enough at FUNNILY adv. 2, oddly enough at ODDLY adv. 5b.

   1704 W. Nicolson Diary 22 Nov. in London Diaries (1985) 231 The Text of the Book (whimsically enough) in Vermilion-Letters, instead of an Italic Character.
   1783 Ld. Hailes Disquis. Antiq. Christian Church ii. 15 Which, aptly enough, might be denominated the journals of the senate.
   1912 E. V. Baxter & L. J. Rintoul Rep. Sc. Ornithol. 3 Curiously enough, both the Common Nightingale .. and the Northern Nightingale .. were added in spring to the Scottish list.
   2015 H. Scales Spirals in Time ix. 249 A mollusc named, appropriately enough, the Windowpane Oyster.


 この用法での初例が1704年となっているので,はるばる古英語 geōg にさかのぼる古参の副詞とはいえ,別の副詞に前置される問題の表現は,なかなかモダンらしい.

Referrer (Inside): [2020-12-05-1] [2020-12-04-1]

[ 固定リンク | 印刷用ページ ]

2020-10-30 Fri

#4204. コーパス言語学の基本的な用語を解説 --- concordance [terminology][corpus][hel_education][collocation]

 昨日の記事 ([2020-10-29-1]) に引き続き,コーパス周りの用語を解説する.
 concordance とは,もともとは「用語索引」ほどを意味し,ある本に出てくる単語を1つ1つ取り出してアルファベット順にリスト化したものである.その本に例えば the という単語が何回出現したか,さらに具体的にどこに出現したがが分かるような作りになっていることもあり,文献学研究や言語研究では馴染みのツールだった.聖書のコンコーダンスやChaucer のコンコーダンスなどがよく知られている.
 しかし,電子コーパスが普及してからは,concordance という用語は別の意味でも用いられるようになった.昨今の電子コーパスで何らかの語なり表現なりを検索式の形にして検索すると,その条件にあった形式を含む例文がコーパス全体から収集され,ずらっと画面上に提示される.この全体が,その形式の concordance ということになる.そして,例文を含む個々の行のことを concordance line と呼ぶ.たとえていえば,ある単語を Google 検索して1万件ヒットしたという場合,その1万件全体が concordance ということになり,その1件1件が concordance line ということになる.
 たいていのコーパス検索では,注目している形式の前後にどのような語が共起しているかを知りたいことが多いので,注目する形式が各 concordance line の中央に位置するように表示されると都合がよい.前後の文脈 (context) も合わせてその形式の用例を確認できることから,この表示法はコーパス研究ではある種のデフォルトといってよく,KWIC (= Key Word in Context) という名前すらついている.
 昨日の記事で取り上げたが,BNCweb で "{love/V}" として検索してみると,14,195行もの concordance lines が得られる.その先頭の10行ほどを KWIC で表示すると,次のようになる.読みやすいし分析しやすい表示法であることがわかるだろう.

{love/V} in KWIC view, BNC

 このように電子コーパスでは,ある形式の concordance が容易に得られる.もちろん concordance を産出するプログラムが背後で動いてくれているおかげであり,そのようなプログラムやアプリケーションを concordancer と呼んでいる.

[ 固定リンク | 印刷用ページ ]

2019-07-10 Wed

#3726. Just The Word --- 英作文の強力なお供 [collocation][bnc][webservice]

 英作文のお供といえば『新編英和活用大辞典』(研究社)などを用いてきたが,中田 (125) で紹介されているオンラインツールの Just The Word なども素晴らしい使い勝手だ.適当な語を入力欄に入れて "combinations" のボタンを押すと,構文パターン別に頻度の高い collocation が表示されるという代物だ.さらに,適当な collocation をクリックすると,その例文が KWIC でいくつか示されるというから,至れり尽くせりだ.
 Just The Word のもう1つの便利な使い途は,適切な英語表現を見つけようとする際のやり方である.「冗談を言う」に対応する英語表現を知りたいときに,半信半疑ながらも,まずは "say joke" と入力した上で "alternatives from thesaurus" をクリックしてみる.すると "say joke" は悪いコロケーションとして赤で表示されるが,その下に "tell joke" が良いコロケーションとして緑で表示されるのだ.そこをクリックすれば,やはり KWIC で "tell a joke" や "tell jokes" などの例文が多く得られる.
 こちらの説明書きによれば,背後に控えているのは BNC のようだ.そして,コロケーションの「良さ」は T-score の数値に依存しているという(「#1283. 共起性の計算法」 ([2012-10-31-1])).
 コーパスを用いた研究や技術の成果が,ここまで応用されているのかと驚くばかりである.

 ・ 中田 達也 『英単語学習の科学』 研究社,2019年.

[ 固定リンク | 印刷用ページ ]

2016-03-07 Mon

#2506. 英語の2項イディオムと日本語の文選読み [binomial][japanese][kanji][lexicology][borrowing][lexicology][collocation]

 2項イディオムとも呼ばれる英語の word pair あるいは binomial について,本ブログでも「#820. 英仏同義語の並列」 ([2011-07-26-1]),「#1443. 法律英語における同義語の並列」 ([2013-04-09-1]),「#2157. word pair の種類と効果」 ([2015-03-24-1]) をはじめ,いくつかの記事で話題にしてきた.
 この語法は,特に中英語以降,フランス語やラテン語からの借用語が増えてきたときに,本来語にそれを並置する習慣から生じた.日本語も英語と同じように,諸言語,特に漢語からの借用を広く受け入れてきた経緯があるので,歴史的に似たような状況があったに違いない.この点について,齋藤 (10 fn.) に関連する言及があった.

Cf. "The inaudible and noiseless foot of Time" (Shakespeare: All's Well That Ends Well, V. iii. 41)
   "The dark backward and abysm of Time" (Shakespeare: The Tempest, I. ii. 50)

これは昔,わが国の学者が「詩経」の冒頭にある
     関関雎鳩,。。。窈窕淑女,
を,「クヮンクヮンとやはらぎなけるショキウのみさごは,。。。エゥテゥとゆほびかなるシュクヂョのよきむすめ」と,いわゆる「文選(もんぜん)読み」をしたのに似ている。


 文選読みとは,同一の漢語を音と訓で2度読むことで,「豺狼 (サイラウ) のおほかみ」,「蟋蟀 (シッシュツ) のきりぎりす」,「芬芳(フンポウ)トカウバシ」などがこれに当たる.漢文訓読に由来する読み方で,平安時代に流行した,中国の周から梁に至る千年間の詩文集『文選』を読むときにとりわけ用いられたので,この名前がある.英語における本来語と借用語のペアには,後者の意味を理解させるための前者の並置という動機づけがしばしばあったが,文選読みでも同様に,一般には難しく馴染みの薄い漢語を理解しやすくするために和語の訓読を添えるという習慣が発達したものと思われる.これまで話題にしてきた英仏や英羅の単語ペアは,日本語の発想でいうと「音訓複読」というべきものだったわけだ.日英両言語にこのような類似点のあることは,あまり気づかれていないが,ともに豊富な語彙借用の歴史を歩んできたことを考えれば,ある程度は必然的といってもよいのかもしれない(『日本語学研究事典』 p. 117 も参照).
 日本語での "binomial" については,「#1616. カタカナ語を統合する試み,2種」 ([2013-09-29-1]) で触れた「アーカイブ〔保存記録〕」「インフォームドコンセント〔納得診療〕」「ワーキンググループ〔作業部会〕」などの表記も,その一例となるだろう.

 ・ 齋藤 勇 『英文学史概説』 研究社,1963年.
 ・ 『日本語学研究事典』 飛田 良文ほか 編,明治書院,2007年.

Referrer (Inside): [2017-06-26-1]

[ 固定リンク | 印刷用ページ ]

2015-09-07 Mon

#2324. n-gram [corpus][information_theory][coca][bnc][google_books][statistics][n-gram][collocation][frequency][link]

 情報理論や自然言語処理の分野で用いられる n-gram という分析手法がある.コーパス言語学でもすでにお馴染みの概念であり,共起表現 (collocation) の研究などでは当たり前のように用いられるようになった.種々のコーパスのインターフェースにおいても採用されており,「#607. Google Books Ngram Viewer」 ([2010-12-25-1]) では名前に含まれているほどだし,本ブログでも COCA (Corpus of Contemporary American English) の N-gram データベースを用いて「#956. COCA N-Gram Search」 ([2011-12-09-1]) を実装してきた(その応用は,「#953. 頭韻を踏む2項イディオム」 ([2011-12-06-1]),「#954. 脚韻を踏む2項イディオム」 ([2011-12-07-1]),「#955. 完璧な語呂合わせの2項イディオム」 ([2011-12-08-1]) を参照).BNC では,Explore Words and Phrases from the BNC が利用できる.
 コンピュータを用いた分析手法というと難しそうに聞こえるが,n-gram の考え方は至って単純である.文字レベルの 2-gram (bigram) を考えてみよう.最長の英単語といわれる pneumonoultramicroscopicsilicovolcanoconiosis (「#63. 塵肺症は英語で最も重い病気?」 ([2009-06-30-1])) を例にとる.まず,先頭の2文字1組の pn を取り出す.次に,2文字目に進んで同じように ne を取り出す.3文字目に進んで eu を,4文字目に進んで um を得る.同じように,1文字ずつ右にずらしながら,最後の is まで2文字1組を次々と拾っていく.これで44組の2文字を得たことになる.この組のなかで,ic と co という組み合わせは各々3回起こり,os, si, no, on の組み合わせは各々2回現われ,それ以外の組み合わせはいずれも1度きりである.したがって,この単語において最高頻度の2文字1組は ic と co となる.
 n-gram の単位は,このように文字である必要はなく,音素でもよいし,より大きな単位である形態素や語でもよく,さらに大きな句などのより大きな単位でもよい.英語コーパス言語学では,語という単位で考えるのが普通だろう.Martin Luther King, Jr. の I Have a Dream の演説のテキストで語単位の 4-gram を取ると,最も多い4語の組み合わせは,予想通り "I have a dream" の8回だが,"will be able to" も同じく8回現われる."Let freedom ring from" も7回とよく現われる,等々の分析が可能となる.ここでは4語という「窓」を設定したので 4-gram と呼ばれるが,隣接するいくつの文字を考慮するかにより 1-gram (unigram), 2-gram (bigram), 3-gram (trigram),そして 5-gram 以上ももちろん考えることができる(1-gram の場合,得られるリストは,事実上各語の生起頻度表である).
 巨大コーパスから得られた 2-gram や 3-gram の一覧は,それ自体が共起表現の研究などでは基本データとなるため,ウェブ上でもいろいろと公開されている.日本語では「N-gram コーパス - 日本語ウェブコーパス 2010」があるし,現代英語では COCA の n-gram データベース がある.また,Bigram Plus では,歴史英語コーパスを含めた各種英語コーパスから N-Gram Search を行なえる機能を提供している.ほかにも任意のテキストやコーパスを対象に n-gram を取る各種のツールやソフトも,ウェブ上で入手可能だ.
 n-gram 分析の言語分野への応用範囲は広い.次に来る語(音,文字)は何か,という予測可能性とも関係が深いため,機械による音声認識,統語分析,言語判定,自動翻訳,スペルチェック,剽窃探知,全文検索用インデックスの作成などに活用される.もちろん,共起表現の研究では,基本にして不可欠の手段となっている.一方,n-gram はもっぱら言語として表面化されたテキストを対象とし,深層にある構造にまったく触れることがないため,生成文法のような言語理論の方面からは批判があるようだ.詳しくは,n-gram in Wikipedia を参照.
 n-gram は工夫次第で,まだまだ使い道がありそうだ.歴史英語テキストにも,応用していきたい.

(後記 2015/09/12(Sat): Sketch Engine より N-grams も参照.)

Referrer (Inside): [2016-09-07-1]

[ 固定リンク | 印刷用ページ ]

2015-02-05 Thu

#2110. 言語(変化)の使用基盤モデル [cognitive_linguistics][usage-based_model][language_change][frequency][collocation][speed_of_change]

 認知言語学の言語変化に関するモデルとして,使用基盤モデル (usage-based model) というものが提案されている.谷口による説明と図解 (106, 105) がわかりやすい.

あることばの用法の共通性となるスキーマ [A] から、何らかの点で逸脱し拡がった新しい用法 (B) が生じる。はじめ、(B) はスキーマ [A] に合致しない。しかし、(B) の用法が繰り返され定着するにつれて、(B) は [A] と共にその言語のシステムに取り込まれるようになる。すると、(B) を取り込んだ形であらたなスキーマ [A'] が抽出され、それによって (B) が容認されるようになっていくのである。このような変化のシステムを、「使用基盤モデル」あるいは「用法基盤モデル」 (usage-based model) という (Langacker 2000) 。(谷口,106)


Language Change in Usage-Based Model

 新しいスキーマの創出は,抽象化であるという点で,文法規則の創出とも比較される.しかし,通常文法規則は静的であるのに対して,スキーマは動的であり,柔軟であるという違いがある.スキーマは,逸脱した事例が徐々に定着するにつれて,常に変更されていく.また,変化の過程において,逸脱した事例が定着する度合いには個人差があるため,必然的にスキーマ自体の個人差も生じることになる.言語変化をこのように位置づけてとらえる使用基盤モデルにおいては,言語の体系そのものが流動的なものにみえるだろう.
 新スキーマの定着度に個人差があるということは,言語変化の速度 (speed_of_change) の問題に直結するし,当該の言語項の使用頻度 (frequency) や共起 (collocation) の問題とも関連が深い.使用基盤モデルは,これらの関係する問題にも注目している.言語変化は定義上ダイナミックなものではあるが,言語そのものが常にダイナミックなものであり,そのダイナミズムの源泉は日常の使用のなかにあるということを改めて強調した理論と評価できるだろう.

 ・ 谷口 一美 『学びのエクササイズ 認知言語学』 ひつじ書房,2006年.

[ 固定リンク | 印刷用ページ ]

2014-02-17 Mon

#1757. synaesthesia とロマン派詩人 (1) [synaesthesia][semantic_change][collocation][rhetoric][literature]

 synaesthesia共感覚)の話題は,多くの人々の関心を引きつける.私の大学のゼミでも,毎年のように卒論の題材に選ぶ学生が現われる.そもそも synaesthesia とは何か.まずは,Bussmann の言語学用語辞典よる説明を引用しよう.

synesthesia [Grk synaísthēsis 'joint perception']
The association of stimuli or the sense (smell, sight, hearing, taste, and touch). The stimulation of one of these senses simultaneously triggers the stimulation of one of the other senses, resulting in phenomena such as hearing colors or seeing sounds. In language, synesthesia is reflected in expressions in which one element is used in a metaphorical sense. Thus, a voice can be 'soft' (sense of touch), 'warm' (sensation of heat), or 'dark' (sense of sight).


 つまり,ある感覚を表わすのに,別の感覚に属する表現を用いてすることである.通言語的に広く観察される現象であり,昨日の議論「#1756. 意味変化の法則,らしきもの?」 ([2014-02-16-1]) の流れでいえば,意味に関する傾向というよりは法則と呼ぶべきものに近い.日本語でも,「柔らかい色」(触覚と視覚),「甘い香り」(味覚と嗅覚),「黄色い声援」(視覚と聴覚)など多数ある.
 英語でも上記の引用中の日常的な例のほか,より文学的な言語からは "I see a voice: now will I to the chink, To spy an I can hear my Thisby's face" (Sh., Mids. N. D. 5:1:194--95), "As they smelt music" (Sh., Tempest 4:1:178), "eyes which mutter thickly" (E. E. Cummings), "And taste the music of that vision pale" (Keats) などの表現がいくらでも見つかる.
 文学史的にいえば,予想されることだが,synaesthesia はロマン派の詩人が好んだ修辞法である.ロマン派の出現と synaesthesia は,無縁ではないどころか,堅く結びついている.Ullmann (272--73) は,18世紀後半の社会史と文学史の展開に,英語における本格的な共感覚表現使用の起源をみている.

In the latter half of the eighteenth century, a number of contributory factors prepared the ground for the romantic vogue of synaesthesia: occult influences (Swedenborg), theories about language origin (Herder), efforts to delimit the various arts (Lessing, Erasmus Darwin), Rousseau's use of sense-metaphors, and various other currents of pre-romantic literature.
   All these threads were gathered up by the Romantic Movement. There were also some factors peculiar to that generation: the cult of exoticism and the use of drugs like hashish and opium; the part played by certain synaesthetic temperaments, such as E. T. A. Hoffmann; the tightening of social contacts between writers, artists and musicians; and in a more general way, the new code of aesthetics, with its search for novel and imaginative effects, expressiveness, and evocatory power. For the first time in the history of literature synaesthetic metaphor became a fully-fledged poetic device, and its stylistic potentialities were widely exploited. The most frequent settings in which it automatically presented itself were descriptive passages with strong suggestive power, where synaesthesia, like Leibniz's monads, provided several angles from which the same sensation could be viewed; situations where the organic unity of perceptual states had to be stressed; and last but not least, vague, dreamy, or even uncanny and hallucinatory moods where the semi-pathological implications of intersensorial transfer found a congenial expression. So strong was the interest in these 'correspondences', 'harmonies', and 'transpositions', that entire poems were devoted to synaesthetic themes. (273)


 この引用は,意味論の記述であるとともに文学史上の批評ともなっており,実に興味深い.Ullmann が取り上げた作家群には,Byron, Keats, William Morris, Wilde, Dowson, Phillips, Lord Alfred Douglas, Arthur Symons; Longfellow; Leconte de Lisle, Théphile Gautier; and the Hungarian romantic poet Vörösmarty などがいた.
 では,ロマン派の詩人は具体的にどのような種類の synaesthesia 表現を用いたのだろうか.これについては,明日の記事で.

 ・ Bussmann, Hadumod. Routledge Dictionary of Language and Linguistics. Trans. and ed. Gregory Trauth and Kerstin Kazzizi. London: Routledge, 1996.
 ・ Ullmann, Stephen. The Principles of Semantics. 2nd ed. Glasgow: Jackson, 1957.

Referrer (Inside): [2014-02-19-1] [2014-02-18-1]

[ 固定リンク | 印刷用ページ ]

2012-10-31 Wed

#1283. 共起性の計算法 [corpus][statistics][bnc][collocation][lltest]

 [2010-03-04-1]の記事「#311. girl とよく collocate する形容詞は何か」で,語と語の共起 (collocation) を測る計算法 (association measure) にはいくつかの種類があることを見た.コーパス言語学では,Log-Likelihood Test という検定にかかわる計算法が比較的よく使われているが,それぞれの計算法には特徴があるので,なるべく複数の方法を試すのがよい.今回は[2010-03-04-1]の内容と重複する部分もあるが,BNCweb で実装されている7種類の計算法の各々について Hoffmann et al. (149--58) を参照しながら,特徴および利用のヒントを示したい.
 各種の計算法は,(a) 共起頻度 (frequency of co-occurrence),(b) 共起有意性 (significance of co-occurrence),(c) エフェクト・サイズ (effect-size) の1つ,あるいは複数の組み合わせに基づいている.(b) は,共起が統計的に有意であるとの確信度を表わす指標であり,共起の強さを表わすものではないことに注意する必要がある.(c) は,観察頻度と期待頻度との比を計算の基本とする指標である.

 (1) Rank by frequency
  観察される共起頻度そのものを用いる,最も単純で直感的な尺度.他の計算法のような複雑な統計処理はほどこされておらず,指標としては最も粗い.機能語や句読記号などが上位に来ることが多い.通常の共起分析には用いられない.

 (2) Log-likelihood
  共起有意性を用いる.BNCweb のデフォルトの計算法で,コーパス研究で広く用いられている.機能語や句読記号などの極めて高頻度の語との共起や,逆に極めて低頻度の語(1, 2回など)との共起をはじく傾向がある.しかし,共起頻度の高い組み合わせに高得点を与えるという特徴があり,解釈には注意を要する.

 (3) Mutual information (MI)
  エフェクト・サイズを用いる.非常によく用いられている計算法だが,利用に当たっては多くの注意を要する.機能語や句読記号などとのありふれた共起を効果的に排除してくれる点はよいが,反面,低頻度の共起表現への偏りが激しい.この偏りの影響を減じるために,BNCweb では "Freq(node, collocate) at least" を10以上に設定することが推奨される.これにより,"conspicuous and intuitively appealing collocations involving words of intermediate frequency" (Hoffmann et al. 154) が浮き彫りとなる.

 (4) T-score
  共起頻度と共起有意性を考慮する計算法.期待頻度が1以下程度の稀な共起表現については Rank by frequency と似たような振る舞いをし,頻度の高い共起表現については共起有意性を反映した振る舞いをする.また,観察頻度が期待頻度よりも必ず高くなる.Log-likelihood と類似した結果となることが多いが,高頻度へのバイアスは一層強くなる.ノードそのものが1000回を大きく下回る場合に,効果を発揮することがある.

 (5) Z-score
  共起有意性とエフェクト・サイズを考慮する計算法.高頻度の共起表現にはエフェクト・サイズをより重視するが,低頻度の共起表現にはそこまでエフェクト・サイズに寄りかからない.Log-likelihood と MI の両特徴を兼ね備えたような,バランスの取れた指標である.ただし,MI と同様に,低頻度の共起表現へのバイアスがみられるので,"Freq(node, collocate) at least" を5程度に設定するのがよいとされる.

 (6) MI3
  共起頻度とエフェクト・サイズを考慮する計算法.MI のもつ低頻度表現への偏重を取り除くべく改善されている.低頻度共起表現にはエフェクト・サイズが,高頻度共起表現には共起頻度が,比較的よく反映される.POS による限定とともに用いると効果的.複数語からなる用語などの取り出しに威力を発揮する.しかし,全体としては高頻度共起表現へのバイアスが強く,一般的な共起分析には向かない.

 (7) Dice coefficient
  MI3 と同様に,共起頻度とエフェクト・サイズを考慮する計算法.しかし,MI3と異なり,低頻度共起表現には共起頻度が,高頻度共起表現にはエフェクト・サイズがよく反映され,両者の切り替えが急なのが特徴的である.切り替えは,ノードそのものの頻度が共起表現の頻度の10倍ほどの点で起こるとされる.経験的に,Z-score と似たような結果が得られるが,Z-score ほど頻度に基づくバイアスが見られない.

 以上のように多種類あって目移りするが,Hoffmann et al. の見解によれば,単一基準の計算法としては Log-likelihood と MI がお勧めで,混合基準の計算法としては Z-score と Dice がお勧めとのことである.
 共起性の様々な計算法については,Association measures を参照.

 ・ Hoffmann, Sebastian, Stefan Evert, Nicholas Smith, David Lee, and Ylva Berglund Prytz. Corpus Linguistics with BNCweb : A Practical Guide. Frankfurt am Main: Peter Lang, 2008.

Referrer (Inside): [2019-07-10-1]

[ 固定リンク | 印刷用ページ ]

2012-05-06 Sun

#1105. 美女の形容としての grey eyes (2) [romance][adjective][collocation][bnc][corpus]

 昨日の記事[2012-05-05-1]に引き続き grey eyes の話題.昨日は,中英語ロマンスの grey eyes について考えたが,この共起表現は現代にも続いている.BNCWeb で,"(grey|gray) {eye/N}" として検索すると,287例がヒットした.grey eyes がさらに別の形容詞に先行されている例をみると,clear, dark, deep, pale が比較的多い.beautifulbright の例もわずかながらあった.
 このような例から判断すると,grey 自体は輝きの有無を表わす意味を担当していないように思われる.もし担当しているとすれば,むしろ pale 寄りの「薄い,輝きのない」という解釈に引き寄せられるだろう.英英辞書で確認する限り,現代英語の grey の一般的な語感は,日本語のそれとよく似て,negative だからだ.老年,陰気,病気,憂鬱,退屈,悪天候のイメージだ.したがって,現代英語の grey eyes は,negative なニュアンスを特に含意しない読みを求めるとするならば,純粋に色としての「灰色」あるいは「青みのいくぶん混じった灰色」を表わすものと考えられる.あるいは,grey eyes は,意味の薄まった共起表現の伝統として用いられているにすぎないという可能性もあるかもしれない.
 すると,ますます中英語の美女の典型的な描写としての grey eyes がわからない.もし,MED や Silverstein が述べている通り,中英語の grey が輝きを表わしたのだとすれば,現代英語の輝きのない grey は180度の意味変化を経たことになる.
 色は gradation を描くものであり,かつて覆っていた範囲や意味を推定して復元することは,なかなか難しい.英語のみならず日本語においても,色彩語を巡る議論は厄介である.
 なお,中世の美女の典型的な描写を示しておこう.Brewer (258) は,Matthew of Vandôme による Helen of Troy の描写が,以下の要約の通り,1つの型であるとしている.

. . . her hair is golden, forehead white as paper, eyebrows black and thin. The space between the eyes (in contrast to the Greek ideal) is white and clear, a 'milky way'; the face is a shining star; the eyes are like stars. She has a little smile, a nose neither too big nor too small. Her face is rosy, her colouring white and red, like rose and snow. Teeth are like ivory, lips are small, slightly swelling, honeyed. Her mouth smells like a rose, her neck is smooth, shoulders radiant, well-spaced (dispatiati), breasts small, and figure incomparable.


 こんな女性,いるんでしょうか,ぜひ会ってみたい・・・.

 ・ Silverstein, Theodore, ed. Sir Gawain and the Green Knight. Chicago: U of Chicago P, 1983.
 ・ Brewer, D. S. "The Ideal of Feminine Beauty in Medieval Literature, Especially 'Harley Lyrics', Chaucer, and Some Elizabethans." The Modern Language Review 50 (1955): 257--69.

[ 固定リンク | 印刷用ページ ]

2012-01-08 Sun

#986. COCA の "WORD AND PHRASE . INFO" [coca][corpus][dictionary][synonym][collocation][semantic_prosody][intensifier][web_service]

 COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,年末に,COCAベースで語に関する諸情報を一覧できるサービス WORD AND PHRASE . INFO を公開した.語(lemma 頻度で上位60,000語以内に限る)を入力すると,ジャンルごとの生起頻度やそのコンコーダンス・ラインはもとより,WordNet に基づいた定義や類義語群までが画面上に現われる.ほとんどの項目がクリック可能で,さらなる機能へとアクセスできる.インターフェースが直感的で使いやすい.
 類義語研究や collocation 研究には相当に役立つ仕様になったのではないか.例えば,semantic_prosody を扱った[2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」で,強意語 utterly, absolutely, perfectly, totally, completely, entirely, thoroughly についての研究を紹介したが,WORD AND PHRASE . INFO で utterly を入力すれば,これらの類義語群が左下ウィンドウに一覧される.あとは,各語をクリックしてゆくだけで,頻度や collocation の詳細が得られる.このような当たりをつけるのに効果を発揮しそうだ.

utterly by WORD AND PHRASE . INFO

Referrer (Inside): [2012-03-03-1]

[ 固定リンク | 印刷用ページ ]

2011-12-09 Fri

#956. COCA N-Gram Search [cgi][web_service][coca][corpus][collocation][n-gram]

 ##953,954,955 の記事で,最近公開された COCA ( Corpus of Contemporary American English )n-gram データベースを利用してみた.COCA に現われる 2-grams, 3-grams, 4-grams, 5-grams について,それぞれ最頻約100万の表現を羅列したデータベースで,手元においておけば,工夫次第で COCA のインターフェースだけでは検索しにくい共起表現の検索が可能となる.
 ただし,各 n-gram のデータベースは,数十メガバイトの容量のテキストファイルで,直接検索するには重たい.そこで,SQLite データベースへと格納し,SQL 文による検索が可能となるように検索プログラムを組んだ.以下は,検索結果の最初の10行だけを出力する CGI である.

    


 以下,使用法の説明.テーブル名は n-gram の "n" の値に応じて,"two", "three", "four", "five" とした.ちなみに,1-grams のデータベース(事実上,COCA に3回以上現われる語の頻度つきリスト)も付随しており,こちらもテーブル名 "one" としてアクセス可能にした.フィールドは,全テーブルに共通して "freq" (頻度)があてがわれているほか,"n" の値に応じて,"word1" から "word5" までの語形 (case-sensitive) と,"pos1" から "pos5" までの COCA の語類標示タグが設定されている.select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# 1-grams で,前置詞を頻度順に取り出す(ただし,case-sensitive なので再集計が必要)
select * from one where pos1 like "i%" order by freq desc;

# 2-grams で,ハンサムなものを頻度順に取り出す
select * from two where word1 = "handsome" and pos1 = "jj" and pos2 like "nn_" order by freq desc;

# 2-grams で,"absolutely (adj.)" で強調される形容詞を頻度順に取り出す([2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」を参照)
select * from two where word1 = "absolutely" and pos2 = "jj" order by freq desc;

# 3-grams で,高頻度の as ... as 表現を取り出す
select * from three where word1 = "as" and word3 = "as" order by freq desc;

# 4-grams で,高頻度の from ... to ... 表現を取り出す
select * from four where word1 = "from" and pos1 = "ii" and word3 = "to" and pos3 = "ii" order by freq desc;

# 5-grams で,死因を探る; "die of" と "die from" の揺れを観察する
select * from five where word1 in ("die", "dies", "died", "dying") and pos1 like "vv%" and word2 in ("of", "from") and pos2 like "i%" order by word3;


 n-gram データベースを最大限に使いこなすには,このようにして得られた検索結果をもとにさらに条件を絞り込んだり,複数の検索結果を付き合わせるなどの工夫が必要だろう.

[ 固定リンク | 印刷用ページ ]

2011-12-08 Thu

#955. 完璧な語呂合わせの2項イディオム [binomial][rhyme][corpus][coca][collocation][euphony][n-gram][suffix][proverb]

 [2011-12-06-1], [2011-12-07-1]の記事で,COCA ( Corpus of Contemporary American English ) の 3-gram データベースから取り出した,現代英語における頭韻を踏む2項イディオム (binomial) と脚韻を踏む2項イディオムの例を見てきた.分析するなかで,両リストのなかで重複する2項イディオムが散見されたので,取り出してみた.これぞ,頭韻と脚韻の両方を兼ねそなえた,完璧な語呂合わせとしての共起表現である.(検索結果を収めたテキストファイルはこちら.)整理した50表現を挙げよう.

Saturday and Sunday, personal and professional, himself or herself, quantity and quality, morbidity and mortality, quantitative and qualitative, security and stability, best and brightest, latitude and longitude, sixteenth and seventeenth, whenever and wherever, sensitivity and specificity, watching and waiting, majority and minority, basketball and baseball, fight or flight, ranting and raving, forties and fifties, cooperation and coordination, nature and nurture, pushing and pulling, tossing and turning, twisting and turning, grandchildren and great-grandchildren, skiers and snowboarders, communication and collaboration, cooking and cleaning, psychiatrists and psychologists, biggest and best, development and deployment, slipping and sliding, communication and cooperation, Dungeons and Dragons, heterosexual and homosexual, healthier and happier, grandmother and grandfather, stopping and starting, sixteen or seventeen, hooting and hollering, competence and confidence, stalactites and stalagmites, waxing and waning, positive and productive, reading and rereading, patience and perseverance, bedroom and bathroom, consultation and collaboration, going and getting, grandfather and grandmother, protection and promotion


 多くは,頭韻と脚韻が語呂として偶然に一致したと考えるよりは,語幹どうしに語源的な関連があるがゆえに頭韻を踏んでいるのであり,同じ接尾辞を用いているがゆえに脚韻を踏んでいるのだ,と解釈すべきだろう.
 単なる語呂遊びというなかれ.上記の例は,音と意味の調和をいやおうなく感じさせ,2項の間に一種の必然性すら呼び起こすかのような,高度に修辞的な表現といえるだろう.fight or flight, nature and nurture, competence and confidence, positive and productive などは,単なる高頻度の共起表現であるという以上に,教訓的,ことわざ的ですらある.

Referrer (Inside): [2018-08-22-1] [2015-09-07-1]

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow