hellog〜英語史ブログ     ChangeLog 最新    

oanc - hellog〜英語史ブログ

最終更新時間: 2024-11-12 07:24

2010-09-30 Thu

#521. 意外と使われている octopi [plural][coca][oanc][dictionary]

 [2009-08-26-1]の記事で,octopus の複数形としては規則的な octopuses が普通であり,octopioctopodes などの「古典語に基づく不規則複数形は,現在では衒学的・専門的な響きが強すぎて普通には用いられないと考えてよい.このことは,多くの学習者英英辞典で octopuses のみが挙げられていることからもわかる.」と述べた.この説明は octopodes については正しいが,octopi については修正を要するようだ.
 ウェブ上で「タコの飼い方」に関する記事を見つけた.その記事の題名は Owning Octopi である.複数形 octopi に惹かれて読んでみたら,内容もおもしろかったのだが,それ以上に341語ほどの記事のなかにもう1度 octopi が現われているので嬉しくなった.一方,規則形の octopuses はさすがに多く,5回ほど使われていた.octopi は確かにマイナー形態ではあるが,題名に採用されているというところが意義深い.COD11 ( The Concise Oxford English Dictionary 11th ed. ) によると octopi は誤用とされているのだが,誤用という感覚,マイナー形態であること,読者を惹きつける題名に求められる新規さとは互いに何らかの関係があるのかもしれない.記事内に1度だけ octopi が現われている箇所について,なぜそこだけが octopi なのかはよくわからないが,同段落内で前後に octopuses が使用されていることから,単調さを嫌っての文体的な動機づけがあるのかもしれない.

Sealing the tank is crucial because octopuses are deft at escaping from even the smallest opening. Because octopi have no skeletal structure, they can fit through practically any gap and can even lift many lids. Sealing a tank is crucial to keeping your octopus safe. Octopuses escape in order to feed their desire to hunt. These aggressive hunters are best served by being fed live crustaceans to quell their hunger and desire to hunt.


 また,多くの学習者英々辞書に octopuses しか挙げられていないという件についても修正が必要だ.Oxford, Collins COBUILD, Macmillan の辞書には確かに octopi は記載されていないが,Longman, Cambridge, Merriam-Webster の辞書には octopi は代替複数形として記載されている.大英和辞書系でも octopi は記載されている.
 次にコーパスで調べてみた.BNC でのヒット数については[2009-08-26-1]で紹介した通りだが,Corpus of Contemporary American English (BYU-COCA) では octopuses が128回,octopi が36回現われた.OANC (Open American National Corpus) では octopuses が4回,octopi が2回である.ただし OANC の各形態の1例ずつは octopi の誤用の指摘という文脈で現われている.特に COCA でみる限り,最近はそれなりに使われているようだ.
 関連する拙著論文で,20世紀前半からの文法書や辞書を比較してラテン語由来の不規則複数が通時的に規則化してゆく傾向を調べたことがあるが,20世紀前半には octopi は皆無ではないがあまり目立たない存在だった.文法書でいえば Jespersen に言及があったくらいである.もしかすると20世紀後半なりの最近の時期に octopi の使用が少しずつ増えてきたということも考えられる.-s への規則化が進む一方で,不規則複数が minor trend として復活する流れが生じているのかもしれない.

 ・ Hotta, Ryuichi. "Thesauri or Thesauruses? A Diachronic Distribution of Plural Forms for Latin-Derived Nouns Ending in -us." Journal of the Faculty of Letters: Language, Literature and Culture 106 (2010): 117--36.
 ・ Jespersen, Otto. A Modern English Grammar on Historical Principles. Part 2. Vol. 1. 2nd ed. Heidelberg: C. Winter's Universitätsbuchhandlung, 1922.

Referrer (Inside): [2011-01-11-1]

[ 固定リンク | 印刷用ページ ]

2010-09-18 Sat

#509. Dracula に現れる whilst (2) [corpus][lob][brown][bnc][oanc][coca][lmode][conjunction]

 昨日の記事[2010-09-17-1]の続編.Dracula に現れる同時性・対立を表す接続詞の3異形態 while, whilst, whiles の頻度を,20世紀後半以降の英米変種における頻度と比べることによって,この60?110年くらいの間に起こった言語変化の一端を垣間見たい.用いたコーパスは以下の通り.

 (1) Dracula ( Gutenberg 版テキスト ): 1897年,イギリス英語.
 (2) LOB Corpus ( see also [2010-06-29-1] ): 1961年,イギリス英語.
 (3) BNC ( The British National Corpus ): late twentieth century,イギリス英語.
 (4) Brown Corpus ( see also [2010-06-29-1] ): 1961年,アメリカ英語.
 (5) OANC (Open American National Corpus): 1990年以降,アメリカ英語.
 (6) Corpus of Contemporary American English (BYU-COCA): 1990--2010年,アメリカ英語.

 各コーパスにおける接続詞としての while, whilst, whiles の度数と3者間の相対比率は以下の通り.

 whilewhilstwhiles
(1) Dracula14 (12.61%)95 (85.59%)2 (1.80%)
(2) LOB517 (88.68%)66 (11.32%)0 (0.00%)
(3) BNC48,761 (89.41%)5,773 (10.59%)0 (0.00%)
(4) Brown592 (100.00%)0 (0.00%)0 (0.00%)
(5) OANC7,893 (100.00%)0 (0.00%)0 (0.00%)
(6) COCA246,207 (99.82%)447 (0.18%)0 (0.00%)


 Draculawhilst の比率が異常に高い.はたして同時代のイギリス英語の文語の特徴なのだろうか.この表だけ眺めると,20世紀前半にイギリス英語で whilst が激減し,同世紀後半以降は10%程度で安定したと読める.アメリカ英語では20世紀後半では whilst はほぼ無に等しく,問題にならない.whiles に至っては,関心の発端であった Dracula での2例のみ(他に副詞としては1例あった)で,あとはどこを探しても見つからなかった.しかも,その Dracula の2例というのはいずれも訛りの強い英語を話すオランダ人医師 Van Helsing の口から発せられているもので,同時代イギリス英語でどの程度 spontaneous form であったかは分からない.
 今回の調査はもとより体系的な調査ではない.ジャンルの区別や作家の文体を意識していないし,比較する時代の間隔はたまたま入手可能なコーパスに依存したにすぎない.英米変種での比較というのも思いつきである.しかし,興味深い問いが新たに生まれたので,今後は追跡調査をしてみたい.

 ・ Dracula と同時代の他のイギリス文語では各異形の頻度はどうなのか
 ・ 20世紀前半に whilst が激減したように見えるのは本当なのか,本当だとしたらその背景に何があるのか
 ・ アメリカ英語のより古い段階では whilst はもっと頻度が高かったと考えてよいのか
 ・ whiles はいつ頃まで普通に見られたのか,あるいはそもそも普通に見られる形態ではなかったのか
 ・ the whilethe whilst などの複合形については頻度はどうだったのか

[ 固定リンク | 印刷用ページ ]

2010-08-02 Mon

#462. BNC から取り出した発音されない語頭の <h> [corpus][bnc][oanc][ame][bre][h][spelling_pronunciation]

 昨日の記事[2010-08-01-1]の OANC からの結果に飽き足りずに,語頭を <h> と綴るが /h/ で発音されない単語をより多く探すべく,BNC でも同じことをやってみた.そちらのほうがおもしろい結果が出たので,結果報告する( OANC の面目丸つぶれ?).
 216種類の語が得られたが,固有名詞や頭字語が多く,一覧してもあまりおもしろくない(見たい方はHTMLソースを参照).また,品詞のタグ付けに誤りがある例もあったので,今回はあくまで概要を知るための初期調査として理解されたい.一般名詞や形容詞に絞った117例をアルファベット順に示す.

habitual, habituated, habitué, haemoglobin, half, half-hour, hallucination, hallucinatory, hallucinogenic, handful, haphazardly, happy, haute-couture, hazard, heap, heartening, hedonistic, heir, heir-apparent, heiress, heirloom, hell, heparin, hepatic, heraldic, herbaceous, herbalist, hereditary, heretical, hermaphrodite, heroic, heterogenous, heterologous, heuristic, hexadecimal, hexagonal, hi, hiatus, hibiscus, hide, hierarchical, hierarchically, hierarchy, high, higher, hilarious, historian, historic, historically, historically-created, historically-evolved, historicist, historiographical, history, histrionic, hitherto, hockey, hole, holiday, holistic, holoenzyme, holy, home-grown, homogeneous, homologous, hon., honest, honest-to-god, honest-to-goodness, honestly, honesty, honorable, honorarium, honorary, honour, honour-able, honourable, honourably, honoured, honouring, hopeful, horchata, horizon, horizontal, horrendous, horrific, horror, hors-d'oeuvre, horse, hospital, host/target, hotel, hotel-keeper, hour's-worth, hour-an-a-half, hour-and-a-half, hour-glass, hour-long, hourglass, hourglass-shaped, hourly, hours, howitzer, human, humanities, humble, hundred, hydraulic, hydraulically, hydroxyapatite, hydroxyl, hypnotic, hypostasised, hypothesis, hypothetical, hysterical, hysterically


 history, honest, honour, hour の関連語はやはり多い.おもしろいところを取りあげると,habitual, hallucination, hepatic, hereditary, heretical, heroic, hierarchical, hilarious, homogeneous, horizon, horrendous, horrific, hypothetical, hysterical あたりだろうか.いずれも第1音節に主強勢がおかれないので語頭の /h/ が特に弱まりやすい.ただ,第1音節に主強勢が落ちる例も少なくないことは確かである.
 昨日の OANC での結果として出た herbhomage が BNC では出なかった.いずれの語も /h/ のない発音はアメリカ英語発音のみであるという辞書の記述と一致しているようだ.
 それにしても,BNC と OANC の収録語数に差があるとはいえ,イギリス英語からの例の種類の豊富さは際立っている.確かにイギリス英語には h-dropping で名高い Cockney などの方言もあるし,/h/ の不安定さは著しいのではないかと予想はしていた.また,アメリカ英語では綴り字発音 ( spelling-pronunciation ) の傾向が強いことも一般論としては分かっていた.今回の BNC と OANC での初期調査の結果は予想と一致するものだったが,より詳しく調べていくと結構おもしろいテーマに発展してゆくかもしれない.

[ 固定リンク | 印刷用ページ ]

2010-08-01 Sun

#461. OANC から取り出した発音されない語頭の <h> [corpus][oanc][ame][h][article]

 昨日の記事[2010-07-31-1]OANC (Open American National Corpus) を導入したことを報告したので,今日はそれを実際にいじってみた報告をしよう.
 お題は一昨日の記事[2010-07-30-1]で語頭の h を話題にしたので,それに引っかけて,語頭に <h> の綴字をもつが直前の不定冠詞に an を取る語を取り出してみた.[2009-11-27-1]でも触れたように,heir, honest, honour, hour のような語が /h/ をもたないことでよく知られているが,他にどのような語があるだろうか.今回はフラットな単純検索で,話し言葉と書き言葉を区別するとか,その他の細かい処理は行なっていない.以下に結果を頻度とともに一覧.

wordfreq.
heir1
Henri1
herb2
hereditary3
Hermes1
historian1
historic6
historical1
HMO10
homage4
hommage5
honest24
honor5
honorable14
honorarium1
honorary13
honored1
honorific3
hour135
hourglass1
hourlong3
hourly1
hours-long1


 history, honor, hour の派生語や複合語は理解できる.また,Henri, Hermes, hommage はフランス語として,HMO (Health Maintenance Organization) はアルファベット読みとして納得.だが,herbhomage は発見だった.いずれの単語も,/h/ のない発音はアメリカ英語特有だという.
 OANC でなくともよいといえばよい例題だったが,結果らしいことは一応出た.

[ 固定リンク | 印刷用ページ ]

2010-07-31 Sat

#460. OANC ( Open American National Corpus ) [corpus][oanc][ame]

 BNC ( The British National Corpus ) のアメリカ英語版で ANC ( American National Corpus ) の作成プロジェクトが進行中である.1990年以降のアメリカ英語の multi-genre corpus で,完成時には BNC に匹敵する1億語以上のコーパスとなる予定とのこと.現時点では2200万語規模のものが Second Release として有料にて入手可能
 一方で,フリーで利用できる約1500万語のサブコーパス OANC (Open ANC) も公開されており,話し言葉が300万語強,書き言葉が1100万語強という構成だ.こちらは316MBほどでダウンロード可能.展開するとデータだけでも5GBほどある.データ変換ツールとして Java で動くプログラムが ANC Software からダウンロードできる.
 ANC のエンコード方式はこちらに説明があるとおり,XCES Markup for Standoff Annotation という方式に従っており,テキスト本体と各種 annotation が別々のファイルに収められているのが特徴である.XCESをサポートしていないコンコーダンサーで OANC を扱うには,例えば Xaira 形式や WordSmith 形式などへデータを変換しなければならない.前者にはこちらの解説のとおりに Xaira 付属のインデクサーを用いる.後者は ANCTool のディレクトリで "java -jar ANCTool-xxxx.jar" と走らせれば,あとはGUIウィザードになっているので指示に従えばよい.データの量がものすごいので,時間がかかった.
 現代アメリカ英語の他のコーパスとしては,Mark Davies 提供のウェブ上で利用できる Corpus of Contemporary American English (COCA) などがある.こちらは1990--2009年の4億語強のコーパスだ.Mark Davies によるその他のオンライン・コーパスも要参照.

Referrer (Inside): [2010-08-01-1]

[ 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow