自然言語処理 (nlp) の対象となるほとんどすべてのテキストのソースは,そのまま自然言語処理にフィードするわけにはいかない.適切な「前処理」を施して入力に相応しい形に整えた上でフィードすることが求められる.典型的な前処理としては,Vajjala (52ff) によれば次のようなものがある.それぞれタスクとして難易度の差があり,テキストソースの特徴や施したい処理の目的に応じて,必要なタスクと不要なタスクがあることに注意したい.
・ 文の分割
・ 単語への分割
・ ストップワード (stop word) の除去
・ ステミング
・ 見出し語化
・ 数字・句読点の除去
・ 小文字化
・ テキストの正規化 (text normalization)
・ 言語検出
・ コードミキシング
・ 翻字 (transliteration)
・ 品詞タグ付け
・ 構文解析
・ 共参照解決 (coreference resolution)
・ 関係抽出 (relation extraction)
・ 固有表現認識 (named entity recognition)
昨今は,多くの前処理タスクが,簡単なスクリプトにより,かなりの程度自動化できるようになってきているのでありがたい.ただし,既製の自動化スクリプトの利用はブラックボックスとなりがちなので,例えばコーパスの自作や編纂などをしようと思うのであれば,前処理の基本的な考え方は知っているほうがよいだろう.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
私の直接の専門からはほど遠いが,今をときめく言語に関する分野の1つに自然言語処理 (Natural Language Processing) がある.これ自体がとてつもなく広い領域を扱うし,来たるべきAI時代にあっては応用範囲も無限大だろう.コンピュータ・サイエンス,AI,機械学習,ディープ・ラーニングなどとも関連をもつ,この分野の本を読み出している.
私の専攻する英語史や歴史言語学の分野では,どのような話題が自然言語処理と関係してきただろうかと問うてみると,おおよそコーパス周りの技術だろう.正規化,レマ化,品詞タグ付け,コンコーダンスなど自然言語処理のタスクのなかでは最も基本的な部類に入るタスクだ.より直接的には,近代英語より前の時代のスペリングの正規化・標準化などの問題に関心がある.
入門書によれば,自然言語処理の基本タスクには様々なものがある.Vajjala 他の pp. 6--7 には,主要なものが列挙されている.
言語モデル
言語モデルは,単語の履歴に基づいて,次の単語を予測するタスクです.このタスクの目標は,ある言語における単語系列の出現確率を学習することです.言語モデルは,音声認識,光学式文字認識,手書き文字認識,機械翻訳,スペル修正など,幅広い問題のソリューションを構築するのに役立ちます.
テキスト分類
テキスト分類は,テキストをその内容に基づいて,事前に定義したカテゴリへ分類するタスクです.テキスト分類は NLP でもっとも一般的なタスクであり,電子メールのスパム識別からセンチメント分析まで,さまざまなツールで使われています.
情報抽出
情報抽出は,その名が示すように,テキストから関連情報を抽出するタスクです.たとえば,電子メールから予定を抽出したり,ソーシャルメディアの投稿で言及されている人名などの抽出に使えます.
情報検索
情報検索は,ユーザーのクエリに関連する文書を大規模な文書集合から検索するタスクです.よく知られたユースケースとして,Google 検索があります.
会話エージェント
会話エージェントは,自然言語での会話が可能な対話システムを構築するタスクです.よく知られたアプリケーションとして,Alexa や Siri があります.
テキスト要約
テキスト要約は,テキストの主な事柄と全体的な意味を維持しながら,元のテキストより短い要約を作成するタスクです.
質問応答
質問応答は,自然言語で尋ねられた質問に自動的に回答できるシステムを構築するタスクです.
機械翻訳
機械翻訳は,テキストをある言語から別の言語に変換するタスクです.よく知られたアプリケーションとして,Google 翻訳があります.
トピックモデル
トピックモデルは,大規模な文書集合のトピック構造を明らかにするタスクです.トピックモデルはテキストマイニングツールとしてよく使われており,文学からバイオインフォマティクスまで,幅広い分野で使われています.
自然言語処理は実用的なタスクをこなすための技術だが,そのベースには当然ながら言語学の知見が多く含まれている.そこから再出発して,自然言語処理の技術によって可能となった問題解決の手法が,いかにして英語史や歴史言語学の学術的問題に適用され得るのか.この辺りを考察していくことが,今後エキサイティングな課題となりそうだ.
・ Vajjala, Sowmya, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana (著),中山 光樹(訳) 『実践 自然言語処理 --- 実世界 NLP アプリケーション開発のベストプラクティス』 オライリー・ジャパン,2022年.
昨日の記事「#5052. none は単数扱いか複数扱いか?」 ([2023-02-25-1]) で,none に関する数の一致の歴史的な揺れを覗いた.その際に標題の諺 (proverb) None but the brave deserve(s) the fair. 「勇者以外は美人を得るに値せず」を挙げた.この諺の出所は,17世紀後半の英文学の巨匠 John Dryden (1631--1700) である.詩 Alexander's Feast (1697) に,この表現が現われており,the brave = 「アレクサンダー大王」,the fair = 「アテネの愛人タイース」という構図で用いられている.
Happy, happy, happy pair!
None but the brave
None but the brave
None but the brave deserves the fair!
つまり,「原典」では3単現の -s が見えることから none が単数として扱われていることがわかる.the brave と the fair の各々について指示対象が個人であることが関係しているように思われる.
一方,Dryden の表現を受け継いだ後世の例においては,Speake の諺辞典,CLMET3.0,COHA などでざっと確認した限り,複数扱いが多いようである.19世紀からの例を3点ほど挙げよう.
・ 1813 SOUTHEY Life of Horatio Lord Nelson It is your sex that makes us go forth, and seem to tell us, 'None but the brave deserve the fair';
・ 1829 P. EGAN Boxiana 2nd Ser. II. 354 The tender sex . . . feeling the good old notion that 'none but the brave deserve the fair', were sadly out of temper.
・ 1873 TROLLOPE Phineas Redux II. xiii. All the proverbs were on his side. 'None but the brave deserve the fair,' said his cousin.
諺として一般(論)化したことで,また「the + 形容詞」の慣用からも,the brave や the fair がそれぞれ集合名詞として捉えられるようになったということかもしれない.いずれにせよ none の扱いの揺れを示す,諺の興味深いヴァリエーションである.
・ Speake, Jennifer, ed. The Oxford Dictionary of Proverbs. 6th ed. Oxford: OUP, 2015.
昨日の記事「#5045. deafening silence 「耳をつんざくような沈黙」」 ([2023-02-18-1]) で取り上げた共起表現について,BNCweb により例文を引き出してみた.いくつか挙げてみよう.
・ All that remained on the barren expanse was a deafening silence.
・ But the countryside! Absolute deafening silence. Not a tractor in sight. No buzzing saw mills, no electric milking machines humming away. Just horses and ploughs and, for want of a better word, peasants.
・ now there is almost a deafening silence, broken only by the odd apologetic cough as the minutes tick towards 8.30.
・ In the deafening silence inside the gallery she could hear her heart thumping madly against her ribs.
・ It was a relief when a couple of minutes later, amidst the deafening silence that had descended on the room, Mrs Aitken poked her head round the door. 'Dinner will be served whenever you're ready.'
この撞着語法 (oxymoron) の共起表現に関心を焚きつけられて,silence という名詞はほかにどのような形容詞で修飾されることが多いのだろうかと問いが湧いてきた.これは共起 (collocation) に関する初歩的な類いの疑問で,コロケーション辞書や活用辞書を引けば済む話しだが,行きがかり上 BNCweb で調べてみることにする."_AJ* {silence/N}" と検索した上で Frequency breakdown の機能を用い,50位までの頻度ランキングを出してみた.
No. | Lexical items | No. of occurrences |
---|---|---|
1 | long silence | 145 |
2 | stunned silence | 53 |
3 | complete silence | 44 |
4 | total silence | 43 |
5 | tense silence | 37 |
6 | awkward silence | 31 |
7 | brief silence | 28 |
8 | short silence | 27 |
9 | sudden silence | 23 |
10 | absolute silence | 22 |
11 | deafening silence | 22 |
12 | embarrassed silence | 22 |
13 | uncomfortable silence | 22 |
14 | shocked silence | 16 |
15 | stony silence | 15 |
16 | dead silence | 14 |
17 | deep silence | 13 |
18 | Eerie silence | 13 |
19 | heavy silence | 13 |
20 | small silence | 12 |
21 | thoughtful silence | 12 |
22 | uneasy silence | 12 |
23 | utter silence | 12 |
24 | ensuing silence | 11 |
25 | sullen silence | 11 |
26 | momentary silence | 10 |
27 | fraught silence | 9 |
28 | ominous silence | 9 |
29 | terrible silence | 9 |
30 | brooding silence | 8 |
31 | companionable silence | 8 |
32 | sponsored silence | 8 |
33 | virtual silence | 8 |
34 | dignified silence | 7 |
35 | horrified silence | 7 |
36 | Hushed Silence | 7 |
37 | lengthy silence | 7 |
38 | long silences | 7 |
39 | longer silence | 7 |
40 | strained silence | 7 |
41 | uncanny silence | 7 |
42 | awful silence | 6 |
43 | cold silence | 6 |
44 | comparative silence | 6 |
45 | continuing silence | 6 |
46 | embarrassing silence | 6 |
47 | gloomy silence | 6 |
48 | great silence | 6 |
49 | strange silence | 6 |
50 | angry silence | 5 |
昨日の Voicy 「英語の語源が身につくラジオ (heldio)」にて,新著『文献学と英語史研究』(開拓社)の共著者である家入葉子先生(京都大学)との対談の第2弾をお届けしました.「#611. 家入葉子先生との対談の第2弾:新著『文献学と英語史研究』より英語史コーパスについて語ります」と題して,英語史コーパスの世代変化についての20分ほどの対談です.凝縮した英語史コーパス論となっております.ぜひお聴きください.
対談の後半では,現在の英語史研究ではコーパス利用が当たり前になってきているという点に話が及びました.コーパス言語学 (corpus linguistics) は発展的解消の段階にある,とみることができそうです.その一方で,コーパスが当たり前の道具になってきているからこそ,コーパスの落とし穴に気づきにくくなってきているようにも思えます.どんな道具もそうですが,道具は上手に使うことが大事です.
今回の対談を通じて英語(史)のコーパスに関心を持った方は,hellog より「#3676. 英語コーパスの使い方」 ([2019-05-21-1]) を始めとして corpus の各記事をお読みいただければと思います.
khelf(慶應英語史フォーラム)発行の『英語史新聞』の最新号(第4号)の1面コラム「英語コーパスをもっと気軽に」も英語コーパス超入門として一読ください.
新著『文献学と英語史研究』(開拓社)もどうぞよろしくお願いいたします!
「#3157. 華麗なる splendid の同根類義語」 ([2017-12-18-1]),「#4969. splendid の同根類義語のタイムライン」 ([2022-12-04-1]) で,初期近代英語期を中心とする時期に splendid の同根類義語が多数生み出された話題を取り上げた.
そのなかでもとりわけ短命に終わった,3つの酷似した語尾をもつ †splendidious, †splendidous, †splendious について,EEBO corpus で検索し,頻度を確認してみた.参考までに,現在もっとも普通の splendid の頻度も合わせて,半世紀ごとに数値をまとめてみた.
word | current by OED | C16b | C17a | C17b | total |
---|---|---|---|---|---|
†splendidious | ?a1475 (?a1425)--1653 | 2 | 14 | 1 | 17 |
†splendidous | 1607--1640 | 0 | 5 | 1 | 6 |
†splendious | 1609--1654 | 0 | 1 | 1 | 2 |
splendid | 1624-- | 15 | 116 | 2534 | 2665 |
・ 1609: Ilands besides of much hostillitie, which are as sun-shine, sometimes splendious, anon disposed to altering frailtie
・ 1656: imagin madam, what a delicious life i lead, in so noble company, so splendious entertainment, and so magnificent equipage
この splendious などは,事実上その場で即席にフランス単語らしく造語された使い捨ての臨時語 (nonce word) といってよく,「#478. 初期近代英語期に湯水のように借りられては捨てられたラテン語」 ([2010-08-18-1]) で解説した当時の時代精神をよく表わす事例ではないだろうか.「輝かしい」はずの形容詞だが,実際にはかりそめの存在だった.
昨日の記事「#4915. 英語史のデジタル資料 --- 大学院のデジタル・ヒューマニティーズ入門講義より」 ([2022-10-11-1]) で紹介しましたが,授業で用いたスライドを公開しています.当該授業では,その8枚目「コーパス研究の功罪」を受けて,広くデジタル資料を用いた研究の功罪について皆で意見を出し合いました.受講者は人文系が大半でしたが,社会系を専攻する学生も少数いました.専門分野によって「デジタル資料」の種類や規模も様々ですが,それぞれの観点から学術研究のDX化に伴う良い点,悪い点をブレストしてもらいました.
もちろんデジタル資料そのものに功罪があるわけではありません.それを人間である研究者がどのように使いこなすのか,使われてしまうのかという点に功罪があるのだと考えます.ただし,デジタル資料には,研究者を良い方向あるいは悪い方向に誘う麻薬的な力があるのも確かです.
以下,受講生から出された「功」と「罪」の箇条書きを示します.趣旨として重複するものも多いようです.細かくは整理していませんが,およそ多くの共感を得た意見から順に並んでいます.
功26件に対して罪41件となりました.ブレストの前半は功が多く出されていましたが,およそ出尽くすと焦点が罪に移り,件数も増えてきたという流れです.全体として「現物」に触れる機会が少なくなったことへの懸念や副作用への言及が目立ちました.とてもおもしろいブレストでした.
英語史研究における「デジタル資料」はコーパス,辞書,方言地図,データベースなど多岐にわたりますが,とりわけコーパス利用に関する功罪については,「#3967. コーパス利用の注意点 (3)」 ([2020-03-07-1]) とそこからリンクを張っている記事を参照してください.
今学期の大学院のオムニバス講座「人文学の方法論(デジタル・ヒューマニティーズ)」の1講義として,主に人文系の履修者を対象に「言語研究とデジタルコーパス・辞書・方言地図」を話す機会がありました.単発の授業ということで,準備した資料も今後活用されることもなさそうですので,差し障りのない形に加工した上でこちらに公開しました.基本的には,英語史を専門としない人文系大学院生向けの講義のために準備した参考資料です.スライド中からは hellog 記事への参照もたくさんあります.
1. 「言語研究とデジタルコーパス・辞書・方言地図」
2. まず,コーパスとは?
3. 1980年代以降の英語史研究
4. 英語コーパス発展の3軸
5. 主な歴史英語コーパス
6. 主な歴史英語辞書
7. 主な歴史英語方言地図
8. コーパス研究の功罪
9. 参考文献
私からは英語史研究におけるデジタル資料との付き合い方というような話しをしたわけですが,ほぼ皆が異なる分野を専攻する学生だったので,議論を通じて各々の分野での "DX" の進展について教えてもらう機会も得られ,たいへん勉強になりました.
昨日の記事「#4821. something of a(n) は「ちょっとした」なのか「かなりの」なのか?」 ([2022-07-09-1]) に続いて,この成句に関する話題.今回はその歴史に迫りたい.
OED によると,something, n. (and adj.) and adv. の語義2cにこの用法が挙げられている.初出は1711年で,比較的新しい.
c. something of a(n), to a certain extent or degree a (person or thing of the kind specified).
1711 J. Addison Spectator No. 106. ¶6 Sir Roger, amidst all his good Qualities, is something of an Humourist.
1780 Mirror No. 70 As he was something of a sportsman, my guardians often permitted me to accompany him to the field.
1801 M. Edgeworth Prussian Vase in Moral Tales III. 46 I am something of a judge of china myself.
1826 B. Disraeli Vivian Grey I. ii. xiv. 195 Dormer, who was..something of an epicure, looked rather annoyed.
1931 R. Campbell Georgiad iii. 55 Even the devil dwindles to a duiker, Who prides himself as something of a spiker.
1939 R. G. Collingwood Autobiogr. iv. 27 I had become something of a specialist in Aristotle.
1959 Listener 17 Dec. 1083/3 It had been, I admit, something of a party.
1978 Lancashire Life Sept. 51/1 During the last war he became something of a legend, working incredible hours and doing general and orthopaedic surgery, as well as obstetrics.
1711年の初出と分かった以上は,まさに1710--1920年の英語をカバーするコーパス CLMET3.0 の出番である.早速 CLMET で something of a(n) を検索し,こちらのコンコーダンスラインを得た.第1期 (1710--80) から24例,第2期 (1780-1850) から59例,第3期 (1850--1920) から80例と,時間とともに着実に用例が増加している.
コンコーダンスラインをざっと眺めて,something of a(n) の意味が何ともいえずよく伝わってくる第1期からの例を見つけたので,挙げておこう
When we hear the Epithets of a fine Gentleman, a pretty Gentleman, much of a Gentleman, Gentlemanlike, something of a Gentleman, nothing of a Gentleman, and so forth; all these different Appellations must intend a Peculiarity annexed to the Ideas of those who express them; though no two of them, as I said, may agree in the constituent Qualities of the Character they have formed in their own Mind.
ここでは,昨日の記事で論じたように,nothing of a(n) との対比を前提に something of a(n) が理解されていることがよく分かる.
4月27日(水)に公開された YouTube 番組「井上逸兵・堀田隆一英語学言語学チャンネル」では「受験生のみなさーん!関係代名詞の文法問題を間違えた時の対処法ですよー【井上逸兵・堀田隆一英語学言語学チャンネル # 18 】」と題して関係代名詞の話題を取り上げました.なかなか多く視聴されているようで,ありがたい限りですが,実際に2人でおもしろいことをしゃべっています(笑).ぜひご覧ください.
標準英語で関係代名詞といえば which, who, whom, that, そしてゼロ(いわゆる関係代名詞の省略)辺りが挙げられますが,このいずれが用いられるかという選択には,複数のパラメータが複雑に関わってきます.関係代名詞節の内部での役割が主格なのか目的格なのかということはもちろん,制限/非制限用法の違い,先行詞が有性か無性かなどの統語意味論的パラメータが複雑に関与してきます.さらに,あまり注目されませんが,実は使用域 (register) という語用論的パラメータこそが,関係代名詞の選択にとても重要や役割を果たしているのです.
Longman Grammar of Spoken and Written English (608--21) には,コーパスを用いた関係代名詞選択に関する調査結果が詳細に示されています.今回はそちらを参照しながら,全体として最も使用頻度の高いとされる which と that に焦点を当て,両者の分布を比べてみましょう.
which と that は多くの場合入れ替え可能ですが,学校文法で教わるとおり,原則として which は先行詞が無性の場合に限られ,また制限用法のみならず非制限用法としても使えるという特徴がみられます.一方,that は先行詞を選びませんが,制限用法に限定されます.
しかし,which と that の分布の違いについておもしろいのは,そのような統語意味論的な要因と同じくらい使用域という要因も効いているということです.which は保守的で学術的な含みがあり,学術散文での非制限用法に限定すれば,70%を占め,that を圧倒しています.一方,that は口語的でくだけた含みがあり,例えばフィクションでの非制限用法に限定すると,75%を占めます.
また,アメリカ英語かイギリス英語かという違いも,which vs that に絡んできます.ニュースでの非制限用法に注目すると,アメリカ英語のほうが明らかに that を好み,イギリス英語では which を好みます.会話で比べると,ますますアメリカ英語では that が好まれ,イギリス英語の2倍の頻度で用いられます.
全体として,LGSWE (616) は which vs that 対決について次のように総括しています.
The AmE preference for that over which reflects a willingness to use a form with colloquial associations more widely in written contexts than BrE.
関係代名詞の選択の陰には使用域というファクターがひそんでいたのです.
ちなみに,今晩18:00に公開される YouTube #19 は関係代名詞の話題の続編となります.お楽しみに!
・ Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and Edward Finegan, eds. Longman Grammar of Spoken and Written English. Harlow: Pearson Education, 1999.
英語新聞の歴史的なコーパスがいくつか公開されている.17世紀後半から18世紀にかけての新聞テキストを集めた Zurich English Newspaper Corpus (= ZEN) は,よく知られているものの1つである(その他の新聞コーパスについては CoRD などを参照).また,コーパスとして編まれていなくとも近現代の新聞は次々とアーカイヴ化されており,新聞を用いた英語史研究は今後増えていくことが予想される.
英米の主な新聞を創刊年順にまとめておこうと思い『英語便利辞典』 (pp. 194--96) を参照して一覧を作った.(発行)部数は,英国紙については2005年7月4日から31日までの平均「販売部数」,米国紙については2004年9月1日から2005年3月31日までの平均「販売部数」となっており,少し古い情報であることに注意.あくまで参考までに.
[ 英国の主な新聞 ]
創刊年 | 紙名 | 部数 | 特徴 |
1783- | The Herald | 73,963 | 日刊;創刊から途切れることなく刊行されている世界最古のスコットランド英字紙. |
1785- | The Times | 698,043 | 日刊;歴史が最も古い,影響力のある新聞の一つで,大判からタブロイドに変えてから人気が高い.中道右派が基調.London Times, The Times of London と呼ばれることもある. |
1791- | The Observer | 445,738 | 英国初の日曜紙;海外の報道に強い高級紙.左派が基調. |
1817- | The Scotsman | 66,053 | 日刊;スコットランドで大きな影響力をもち,responsible journalism (責任あるジャーナリズム)の模範例と見なされる. |
1821- | The Guardian | 358,345 | 日刊;インテリ向けの高級紙.同紙の愛読者を Guardian reader (中流階級で教育ある左寄りの人)と言うこともある. |
1822- | The Sunday Times | 1,338,616 | 英国を代表する高級日曜紙;The Times の姉妹紙.中道右派が基調. |
1843- | The News of the World | 3,701,099 | 日曜紙;有名人のゴシップや醜聞など低俗な記事が売りのタブロイド紙.名誉毀損で訴えられることも多い. |
1855- | The Daily Telegraph | 912,319 | 日刊;The Guardian, The Times とともに英国三大高級紙の一つと称される.右派(保守)・中流階級的報道がベース. |
1888- | The Financial Times | 410,306 | 日刊;英国の伝統ある経済専門誌.英国の経済政策に影響を与えると言われる. |
1896- | The Daily Mail | 2,420,601 | 日刊紙;社説は党派に左右されない大衆タブロイド紙.充実した海外報道で有名. |
1900- | The Daily Express | 835,937 | 日刊;ニュースの煽情的な扱いで知られる大衆紙. |
1903- | The Daily Mirror | 1,752,948 | 日刊;政治的には中道左派.読者の興味をそそる人の話題などを多く取り上げる大衆タブロイド紙. |
1964- | The Sun | 3,343,486 | 日刊;若い世代の読者にねらいを定めた大衆タブロイド紙で,スターのゴシップ記事でも有名. |
1986- | The Independent | 255,603 | 日刊;英国の日刊全国紙としては一番歴史が浅い高級タブロイド紙.中道左派が基調. |
創刊年 | 紙名 | 部数 | 特徴 |
1847- | The Chicago Tribune | 平日版 573,744,土曜版 515,253,日曜版 953,814 | 日刊;米国中西部を代表する保守系新聞. |
1851- | The New York Times | 平日版 1,136,433,土曜版 1,047,574,日曜版 1,680,582 | 日刊;Washington Post と並んで,米国で最も伝統を誇り,影響力の強い高級紙として定評がある.日曜版の高級書評紙 Book Review も有名. |
1877- | The Washington Post | 平日版 751,871,土曜版 686,327,日曜版 1,000,565 | 日刊;首都ワシントンを発行地とする高級紙として,国内政治関係の記事が詳しい.ピューリッツア賞受賞のウォーターゲート事件報道がよく知られている. |
1881- | The Los Angeles Times | 平日版&土曜版 907,997,日曜版 1,253,849 | 日刊;The New York Times に次ぐ米国二大新聞の一つで,米国西部を代表する.リベラルな論調で,カリフォルニア州民,ロサンゼルス市民の信頼の置ける情報源になっている. |
1889- | The Wall Street Journal | 平日版 2,070,498 | 日刊全国紙;世界的に評判の高い経済専門誌で,実業家・経済人の間で最も広く購読されている.アジア版,ヨーロッパ版などもある. |
1908- | The Christian Science Monitor | 平日版 59,179 | 日刊国際史;他紙と異なり,海外ニュースは通信社に頼らず,世界各国に駐在する自社記者の記事を主に掲載する.Eメール版,PDA版,PDF版も利用可. |
1919- | The New York Daily News | 平日版 735,536,土曜版 574,959,日曜版 835,121 | 日刊;別名 New York's Hometown Newspaper として知られるタブロイド紙.政治的には中道穏健派で,見出しや写真の扱いに定評がある. |
1982- | The Washington Times | 平日版 103,017,土曜版 80,377,日曜版 42,775 | 日刊;首都ワシントンで歴史がある Washington Post 紙に対抗して発行された.政治・政策の報道が詳しい. |
1982- | USA Today | 平日版(金曜を除く) 2,199,052,金曜版 2,612,946 | 日刊全国紙;大判の新聞 (broadsheet) に始めて全色彩を使ったパイオニアで,写真や図などが多く読みやすい.同紙が実施するさまざまな世論調査でも知られる.発行部数は全米第一位. |
複数のコーパスを用いたキーワード分析は,私も何度か行なったことがある (cf. keyword) .特定のコーパスに特徴的に現われるキーワードを,別の一般的なコーパスとの対比によって統計的に抜き出してくる手法で,うまくいくと言語文化的な観点からおもしろい結果が出る.
今回は,Polzenhagen and Wolf の論考を読んでいて,ICE (International Corpus of English) が提供するカメルーン英語のコーパスからキーワードを抜き出した調査が紹介されているのを見つけたので,それを紹介したい.対比のための参照コーパスとして,イギリス英語の FLOB とアメリカ英語の FROWN が用いられている.
さて,調査の結果だが,カメルーン英語のキーワードとして以下の単語群が上位に浮かび上がってきたという (161) .
・ community
・ communal
・ family
・ relative
・ kin / kinship / kinsman / kinspeople
・ brotherhood
・ marriage
・ marry
・ marital
・ husband
・ wife
・ parent / parental / parenting
・ maternity / maternal
・ Birth
・ child / childhood / childless
・ Offspring
意味の場として共通項をくくり出せば「親族」と「共同体」といったところだろうか.カメルーン社会の顕点が明らかになっているといってよいだろう.民族誌や認知人類学にも洞察を与えてくれる興味深い結果といえる.ただし,対比のための参照ポイントが英米変種(文化)であること,つまり結果が相対的なものであることは,常に意識しておく必要があるだろう.
・ Polzenhagen, Frank and Hans-Georg Wolf, "World Englishes and Cognitive Linguistics." Chapter 8 of The Oxford Handbook of World Englishes. Ed. by Markku Filppula, Juhani Klemola, and Devyani Sharma. New York: OUP, 2017. 147--72.
連日 World Englishes に関する話題を取り上げている.比較的新しい分野であるとはいえ,この分野でのコーパスを用いた研究には少なくとも数十年ほどの実績がある.その走りは,1960年代以降,世紀末にかけて徐々に蓄積されてきた,主として英米変種に焦点を当てた各100万語からなるコーパス群,いわゆる "The Brown family of corpora" だったといってよいだろう (cf. 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])) .
この "Brown family" は,次なる大型プロジェクトにもインスピレーションを与えた.「#517. ICE 提供の7種類の地域変種コーパス」 ([2010-09-26-1]) で紹介した International Corpus of English である.1990年に Sydney Greenbaum が計画を発表して以来,イギリス英語とアメリカ英語はもちろん,現在までにカナダ英語,東アフリカ英語,香港英語,インド英語,アイルランド英語,ジャマイカ英語,ニュージーランド英語,ナイジェリア英語,フィリピン英語,シンガポール英語,スリランカ英語など様々な英語変種の100万語規模のコーパスが編纂されてきた(一部のものはダウンロード可能).互いに比較可能な形でデザインされており,ICECUP という検索ソフトウェアも用意されている.本ブログの ice の記事も参照.
続いて,2013年にこの分野における近年の最大の成果である GloWbE (= Corpus of Global Web-Based English) がオンライン公開された.「#4169. GloWbE --- Corpus of Global Web-Based English」 ([2020-09-25-1]) で紹介した通り,20カ国からの英語変種を総合した19億語からなる巨大世界英語変種コーパスである.現在,このコーパスは世界英語に関する研究でよく利用されている.
このように World Englishes を巡るコーパスの編纂と使用が促進されてきたが,今後,この方面ではどのような展開が予想されるだろうか.Mair (118--19) は今後の展開(あるいは希望)として3点を挙げている.
(1) 諸変種の歴史の初期段階のコーパスの編纂が待たれる
(2) 諸変種の実態についてウェブ上のデータを利用することがますます有用となってくる
(3) 諸変種の多くについてマルチリンガルな状況で使用されているのが実態である以上,従来の英語のモノリンガル・コーパスという枠組みではなく,英語を含むマルチリンガル・コーパスというつもりで編纂されていくべきである
とりわけ (3) は,伝統的な「英語学」を学んできた私のような者にとっては,ショッキングな,目から鱗が落ちるような未来像でもある.World Englishes 研究は,すでに英語学の枠からはみ出し,"sociolinguistics of globalisation" (Mair 119) というべき目標へと踏み出していることを示唆する.そして「英語史」の研究も,世界英語を考慮に入れる以上,こうした動向と連動して,ますます開かれたものになっていくのだろう.
・ Mair, Christian. "World Englishes and Corpora." Chapter 6 of The Oxford Handbook of World Englishes. Ed. by Markku Filppula, Juhani Klemola, and Devyani Sharma. New York: OUP, 2017. 103--22.
8ヶ月ほども前の話しで恐縮だが,昨年9月20日(日)にオンラインで開催された2020年度駒場英語史研究会にて,特別企画「電子コーパスやオンライン・リソースを使った英語史研究 ― その実践と可能性」に発表者として参加させていただいた.私の専門とする英語史の時代が中英語期なので,その時代の方言地図とタグ付きコーパスを紹介する趣旨で「LAEME & LALME を用いた英語史研究入門」と題して話す機会をいただいた.タイトルにある LAEME と LALME というものは,中英語を代表する2つの姉妹方言地図につけられた名前である.研究会では,とりわけ妹分である初期中英語期の LAEME の紹介に焦点を当てた,
研究会の様子はすでに「#4166. 英語史の各時代のコーパスを比較すれば英語史がわかる(かも)」 ([2020-09-22-1]) で簡単に報告したが,私の発表で用いたスライド資料について,活用されないよりはされたほうがよいと思ったので,こちらにて公表しておきたい.以下はスライドの各ページへのリンク.
・ 1. 駒場英語史研究会特別企画「電子コーパスやオンライン・リソースを使った英語史研究 ― その実践と可能性」LAEME & LALME を用いた英語史研究入門
・ 2. 本スライド資料
・ 3. 中英語 =「方言の時代」
・ 4. LAEME & LALME =「方言の時代」に使える最強の研究ツール
・ 5. LALME (書籍版)の外観
・ 6. LAEME & LALME との私的なお付き合い
・ 7. LAEME & LALME が提供してくれるもの
・ 8. LAEME & LALME のすごい点(学史上の意義)
・ 9. LAEME & LALME の強みと弱み
・ 10. LAEME のデータ点とサイズ (cf. #856)
・ 11. LAEME コーパスの「代表性」 (#1263)
・ 12. LAEME のタグ体系
・ 13. The Owl and the Nightingale (MS Cotton) の冒頭2行
・ 14. 対応する LAEME の tag file
・ 15. LAEME で(やろうと思えば)できることの例
・ 16. LAEME でやりにくいことの例
・ 17. LAEME の機能紹介
・ 18. お題1 3単現語尾の通時・方言分布 (#2142)
・ 19. お題2 nighti(n)gale の n (#797)
・ 20. お題3 through の異綴字はどれだけあったか? (#53)
・ 21. お題4 between の異形態はどれだけあったか?
・ 22. お題5 third の音位転換はいつ,どこで起こったか?
・ 23. お題6 初期中英語の「キーワード」抽出
・ 24. LAEME & LALME を利用したその他のミニ研究
・ 25. 参考文献・サイト
高度に専門的なツールなので取っつきにくいのは承知ながらも,LAEME を用いるとこんなことができますよ,ということでブレストしてみた「15. LAEME で(やろうと思えば)できることの例」に目を通していただければと.
英語を学ぶ上で,類義語 (synonym) というのは厄介です.訳語としては同じなのに,実際にはニュアンスの違いがあるというのだから手間がかかります.一般に言語において完全な同義語はないとされますが,意味が微妙に異なる類義語というのは,思っている以上に多く存在します.
日本語で考えてみれば,類義語の多さにはすぐに気づくでしょう.「疲れる」の類義語を挙げてみましょう.「くたびれる」「くたばる」「へたばる」「へばる」「グロッキー」「バテる」「疲労する」「困憊する」「へとへとになる」「ふらふらになる」「疲れ切る」など,それぞれ独特のコノテーションがありますね.
英語で「疲れた」といえば,第一に tired が思い浮かびますが,他に exhausted, drained, weary, worn out, shattered, pooped, fatigued などもあります.学習するには厄介ですが,各々独自のコノテーションをもっており存在意義があるようです.昨日の「英語史導入企画2021」のためのコンテンツは,学部生による「「疲れた」って表現、多すぎない?」です.こちらもご覧ください.
このような類義語に関心をもったら,まず当たるべきは学習者用の英英辞典です.例えば Longman Dictionary of Contemporary English (= LDOCE) などでは,たいてい主要な見出し語(例えば tired)のもとに,THESAURUS という類義語コーナーが設けられており,各類義語の使い分けが簡潔に記されています.
thesaurus というのは,ずばり類義語辞典のこと.とすれば,類義語辞典そのものに当たるのが早いといえば早いですね.例えば,Oxford Learner's Thesaurus によれば,各類義語のニュアンス,用例,コロケーションが細かく解説されています.以下のように,どんどん記述が続いていきます.かゆいところに手が届く辞典ですね.
さらに詳しく調べたいのであれば,各類義語が用いられている「現場」からの事例を多数集めて分析することが必要になります.こうなるとコーパスの利用が有用です.まずは,イギリス英語とアメリカ英語の各々について,BNCweb と COCA というコーパスに当たってみるのがお薦めです.
「英語史導入企画2021」の開催中ということで,かなり高度な研究ツールながらも歴史的類義語辞典なるもの紹介しておきましょう.Historical Thesaurus of the Oxford English Dictionary (= HTOED) です.詳細は「#3159. HTOED」 ([2017-12-20-1]) をどうぞ.
この4月を通じて宣伝してきた「英語史導入企画2021」も,そろそろ折り返し地点にたどり着きます.大学院と学部の英語史ゼミのメンバーが日々「英語史コンテンツ」を提供するという,年度初め限定のキャンペーンを展開しています.
4月6日に公表された初回コンテンツは,「#4362. 「英語史導入企画2021」がオープンしました」 ([2021-04-06-1]) で紹介した「be surprised at―アッと驚くのはもう古い?(1)」でした.英語学習者の誰もが習う be surprised at ですが,最近では be surprised by も多くなっているという衝撃の事実(?)を指摘した大学院生によるコンテンツでした.
それを受けて昨日アップされたのは,同院生による第2弾「be surprised at―アッと驚くのはもう古い?(2)」です.前回は現代英語の諸変種に焦点を当てた「共時的」な内容でしたが,今回はいよいよ英語史的の醍醐味ともいえる「通時的」なアプローチでの分析です.おお,そうなのか!という驚きの事実が明らかになります.英語史導入企画としてナイスです,ぜひどうぞ.
私もその洞察に刺激を受け,18--19世紀辺りの分布はどうだったのだろうと,後期近代英語のコーパス CLMET3.0 でちらっと検索してみました.70年刻みの3期に分け,(be 動詞はあえて指定せず)surprised at と surprised by でヒット数を単純に比較してみました.
Period | surprised at | surprised by |
---|---|---|
1710--1780 | 158 | 40 |
1780--1850 | 189 | 55 |
1850--1920 | 157 | 30 |
この4月にゼミの学部生・院生で立ち上げた「英語史導入企画2021」より,昨日アップされたコンテンツとして「「社会的」な「距離」って結局何?」を紹介します.悲しいかな,今を時めく語となってしまった日本語「ソーシャル・ディスタンス」と英語の social distance/social distancing に関する話題です.英語のこの2つの表現について,OED を用いて丁寧に情報を整理してもらいました.
この話題は,およそ1年前から日本国内のみならず世界中で話題にされていましたね(あれから早1年ですが,まだ「渦中」ならぬ「禍中」というのが悲しい現実です).日本語では「ソーシャル・ディスタンス」が定着した感がありますが,英語では social distancing という表現のほうが一般的です.distance という純粋な名詞というよりも distancing という動詞由来の名詞を用いることで「距離を取る」という動詞本来の動作・行為が前面化していると考えられます.ただし,いったん日本語に取り込まれれば,もともとの英語における名詞と動詞名の区別などは吹き飛んでしまうわけなので,音節数の少ない「ソーシャル・ディスタンス」のほうが好まれたということではないかと,私は理解しています.
コロナ禍に見舞われたこの1年余,言語学者もただただ巣ごもりしていたわけではありません.「#4129. 「コロナ禍と英語」ならこれしかないでしょ! --- OED の記事より」 ([2020-08-16-1]),「#4339. American Dialect Society による2020年の "Word of the Year" --- Covid」 ([2021-03-14-1]) などから分かる通り,むしろ精力的といえる仕事がなされてきましたし,Coronavirus Corpus なるコーパスも出現しているのです.このコーパスは,2020年1月から現在までのコロナ関連のニュースを集めた9億7300万語からなるコーパスです.単純検索にすぎませんが,social distance は17,180件,social distancing は243,636件がヒットしました.つまり,後者のほうが15倍近く多く用いられていることが確認されたのです.
この1年間,人類がなすべきだったことは social distancing ではなく physical distancing ではなかったのかという表現の選択に関する問題点は,早い段階から WHO も指摘しており,私自身もずっと気になっていました.しかし,上記コンテンツでも述べられている通り,social distancing のように「一度定着してしまったものを違う語に置き換えることは容易ではないの」でしょう.
本来の「形容詞+名詞」からなる名詞句 social distance/social distancing は「社会的な距離(を取ること)」という予測可能な意味をもっていたはずです.しかし,この表現は実態としてはもっぱら「物理的な距離(を取ること)」(典型的には2メートルと言われていますね)を意味します.つまり,意味的な予測可能性が減じているのです.名詞句ではなく,複合名詞という単位に近づいていると言い換えてもよいでしょう.つまり,語彙(項目)化 (lexicalisation) の例なのです.
ちなみに,social distance/social distancing は,本ブログでも,現在の感染症とは無関係に社会言語学上の用語として用いてきた経緯がああります.「#1127. なぜ thou ではなく you が一般化したか?」 ([2012-05-28-1]) と「#1935. accommodation theory」 ([2014-08-14-1]) で用いていますので,そちらも参照.
「英語を呑み込む 'tsunami'」と題するコンテンツが,昨日「英語史導入企画2021」の第11作目としてゼミ大学院生よりアップされました.英単語としての tsunami の使用について歴史的に迫る好コンテンツです.調査とインスピレーションのために使われているリソースは,Twitter に始まり,COHA (Corpus of Historical American English), GloWbE (= Corpus of Global Web-Based English), OED (= Oxford English Dictionary), 地震データベース,映画と幅広いです.内容としては,自然科学と社会科学と人文科学を融合させた総合的英語史コンテンツというべき,非常に啓発的な出来映えとなっています.まさに「英語史導入企画2021」の趣旨にピッタリ! ぜひ皆さんに読んでもらいたいと思います.
同コンテンツ内でも触れられている通り,日本語「津波」が英語 tsunami として英語に借用され,初めて用いられたのは1897年のことです.明治期には数々の日本語の単語が英語に持ち込まれましたが,この単語もその1つです(cf. 「#3872. 英語に借用された主な日本語の借用年代」 ([2019-12-03-1])).しかし,英語に借用されたからといって,必ずしも当初から頻繁に用いられていたわけではありません.コンテンツ内でも触れられているように,tsunami が「津波」を意味する一般的な語として用いられるようになったのは,つい最近のことといってもよいのです.
それまでは「津波」を意味する英単語としては tidal wave を用いるのが普通でしたし,現在でもこの tidal wave は tsunami と共存しています.しかし,よく考えてみると tidal wave というのは誤解を招きやすい表現です.「潮の(大)波」と言われれば何となく納得しそうにもなりますが,「潮」は津波とは相容れない定期的な海洋現象で,これがなぜ「津波」を意味するようになったのか判然としません.実際,Durkin (397) などは tidal wave を "misleading" と評価しています(←この箇所を教えてくれた学生に感謝!).
A special case is shown by tsunami (1897), which, since it denotes a widespread natural phenomenon, can be used freely in English without any implicit associations with Japanese (or even generalized Eastern) culture, and is now preferred by most speakers to the misleading term tidal wave.
なぜ近年になって,tsunami が tidal wave に代わり急速に用いられるようになってきたのでしょうか.これは,まさに上記のコンテンツが英語史的なアプローチにより解決しようとしている問題です.
以下は私のブレスト結果にすぎませんが,この問題に関わってきそうな他の英語学的な観点をいくつか挙げてみたいと思います.いずれも tsunami という語のインパクト・ファクターに注目する視点です.
・ 意味論的にいえば,tsunami は tidal wave の denotation こそ基本的に受け継いでいるものの,津波の強力さや恐ろしさなどを想起させる種々の connotation が加わっており,独自の存在価値をもつ語として受容されるようになってきたのではないか.
・ 形態論(語形成論)的にいえば,tidal wave のような複合語ではなく,単体語であるということ(日本語としてみれば「津」+「波」の2形態素だが)は,上記の種々の connotation を(分析的ではなく)総合的に含み込んでいることとマッチする.
・ 音韻論的にいえば,「#3949. 津波が現代英語の音素体系に及ぼした影響」 ([2020-02-18-1])」で触れたとおり,onset における /ts/ の生起は英語史的にはかなり新しい現象であり,それだけで多少なりとも異質で目立つことになる.近年の借用語であることが語頭で一発で示されることにもなる.それと連動して,語頭の綴字 <ts> も英語らしくないので,やはり借用語であることが視覚的にも一目瞭然となる.これらが当該単語のインパクトに貢献している.
・ 韻律的にいえば,おもしろいことに同じ3音節でも tídal wàve (強弱強)と tsunámi (弱強弱)は正反対である.このように韻律上の差異があることも,相対的に後者の新鮮さを浮き彫りにしているのかもしれない.
・ 社会言語学的にいえば,地質学や海洋学などの特殊レジスターに属する単語という位置づけから,一般レジスターへ進出したとみることができる.
以上,当の海洋現象は望ましくないものの英単語としては広まってしまった tsunami について,英語史・英語学してみた次第です.tsunami については「#1432. もう1つの類義語ネットワーク「instaGrok」と連想語列挙ツール」 ([2013-03-29-1]) の記事でも軽く触れています.
なお,上記の Durkin の言及について教えてくれた学生から,あわせて「Tsunami or Tidal Wave? --- 舘林信義」というウェブ上の記事も教えてもらいました.たいへん貴重な情報.多謝.
・ Durkin, Philip. Borrowed Words: A History of Loanwords in English. Oxford: OUP, 2014.
仮定法現在の用法,いわゆる "mandative subjunctive" が現代アメリカ英語で安定的に用いられている事実について,本ブログでは通時的な観点から以下の記事で取り上げてきた.「#325. mandative subjunctive と should」 ([2010-03-18-1]),「#326. The subjunctive forms die hard.」 ([2010-03-19-1]),「#345. "mandative subjunctive" を取り得る語のリスト」 ([2010-04-07-1]),「#3042. 後期近代英語期に接続法の使用が増加した理由」 ([2017-08-25-1]),「#3351. アメリカ英語での "mandative subjunctive" の使用は "colonial lag" ではなく「復活」か?」 ([2018-06-30-1]) .
この問題について Hundt (595--97) が Brown 系コーパスを用いて行なった調査の概要を読む機会があった (cf. 「#428. The Brown family of corpora の利用上の注意」 ([2010-06-29-1])) .1930年代から1991年までの英米両変種(書き言葉)の通時比較調査である.should 使用と比べての mandative subjunctive 使用の割合は,アメリカ英語ではすでに1930年代より8割に近づく高い値を示しており,1991年にはほぼ9割に達している.一方,イギリス英語では,1930年代で2割を超える程度の値であり,その後は増加したとはいえ1991年の時点で4割弱にとどまっている.mandative subjunctive の使用については,共時的にも通時的にもアメリカ英語のほうが著しいといってよい.
Övergaard の先行研究によると,アメリカ英語での mandative subjunctive の増加は1900年から1920年にかけて起こっており,その背景としてドイツ語,フランス語,スペイン語,イタリア語など仮定法を保持している言語を母語とする中西部の移民たちの存在が指摘されている (Hundt 597) .
おもしろいのは,上記の「仮定法現在」のみならず,If I were you のような「仮定法過去」の were の残存についても,英米変種間で似たような傾向がみられることだ.イギリス英語では,1930年代には were 使用が8割ほどあったが,1990年代には5割強へと大きく減らしている.一方,アメリカ英語でも1930年代の83.4%から1990年代の74%へ落ちているとはいえ,減り幅は小さい.
いずれの事例からも,20世紀のアメリカ英語(書き言葉)が "a relatively 'subjunctive-friendly' variety" (Hundt 597) であることがわかる.
・ Hundt, Marianne. "Change in Grammar." Chapter 27 of The Oxford Handbook of English Grammar. Ed. Bas Aarts, Jill Bowie and Gergana Popova. Oxford: OUP, 2020. 581--603.
・ Övergaard, Gerd. The Mandative Subjunctive in American and British English in the 20th Century. Uppsala: Almqvist and Wiksell, 1995.
本棚を整理していたら,Early Modern English Medical Texts: Corpus Description and Studies Including a CD-Rom . . . . なる本が出てきた.ハードカバーで厚さを測ってみたら3.4cm.購入してからほとんど開いたこともなかった本だが(実際いつ買ったのだろう?),コーパスの CD-ROM がついているというので開いてみた.確かに初期近代英語期の医学テキストコーパスがついている.本のほうは,そのコーパスについての解説とコーパスを用いたケース・スタディからなっている.
今回は,まだ使ってもいないこのコーパスについて,本書の冒頭よりざっと概要を紹介する.
The Corpus of Early English Medical Texts (CEEM) is a three-part series of historical corpora of medical writing 1375--1800. The corpus was initiated about fifteen years ago at the University of Helsinki for the ongoing research project of Scientific Thought-styles: The Evolution of English Medical Writing by Irma Taavitsainen and Päivi Pahta. This project aims to gain new knowledge of the development of the language of science and medicine in a long diachronic perspective, and for this end an extensive electronic database was needed. The work has progressed in phases. The first corpus, Middle English Medical Texts (MEMT, 1375--1500), was published on CD-ROM in 2005 by John Benjamins. Early Modern English Medical Texts (EMEMT) is the second component of CEEM. The third, Late Modern English Medical Texts (LMEMT, 1700--1800), has already been initiated and will be released in due course. (Taavitsainen and Pahta, vii)
なるほど,今回注目している EMEMT は,3つからなるシリーズの第2弾で初期近代英語期 (1500--1700) の医学テキストをカバーするジャンル限定のコーパスということのようだ.450ほどのテキスト,総語数200万語からなる堂々たる歴史コーパスである.一見狭いジャンルであるかのように「医学テキスト」のコーパスと謳ってはいるが,当時の科学思考を代表するジャンルとしてみれば,その応用範囲は案外広いかもしれない.シリーズのほかの2つのコーパスとそのプロジェクトについて,CoRD (Corpus Resource Database) に解説があるということで,そちらへのリンクも張っておく.
・ Corpus of Early English Medical Writing (CEEM)
・ Middle English Medical Texts (MEMT)
・ Early Modern English Medical Texts (EMEMT)
・ Late Modern English Medical Texts (LMEMT)
目下使い途はないのだが,むりやり使い途を考えてみるというのもコーパス隆盛時代の頭の体操.考えてみたい.
・ Taavitsainen, Irma and Päivi Pahta, eds. Early Modern English Medical Texts: Corpus Description and Studies Including a CD-Rom Containing Early Modern English Medical Texts (EMEMT) Corpus Compiled by Irma Taavitsainen, Päivi Pahta, Turo Hiltunen, Martti Mäkinen, Ville Marttila, Maura Ratia, Carla Suhr and Jukka Tyrkkö.'' Amsterdam: Philadelphia: John Benjamins, 2010.
Powered by WinChalow1.0rc4 based on chalow