先日,大学の授業でコーパスセミナーを開催した.BNCweb, COCA, COHA, EEBO corpus などの代表的な共時的・通時的英語コーパスに初めて触れる学部生に,使用経験者である大学院生が講師としてコーパス利用のいろはを指南するという Zoom によるオンライン企画である.
一見,コーパス利用というのは初心者にはハードルが高いと思われがちが,適切な導入があれば,複雑な検索や応用的な利用法は別にしても,十分にその日から便利に使いこなすことができる.
しかし,意外と落とし穴となり得るのは,コーパス周りの用語 (terminology) かもしれない.例えば「love を動詞で POS 指定して lemma 検索をし,その concordance line を KWIC で表示させ,前後数語のフレームで collocation を取ってから log-likelihood を出しておいてね.必要に応じて noise をマニュアルで除去しておいてよ.」などという指示を,初心者の誰が理解できようか! ということで,コーパス周りの術語(というよりもジャーゴン)を少しずつ解説してきたい.
今回は lemma (レンマ,レマ)について.平たくいえば,辞書を念頭においた上でその「見出し語」だと思えばよい.動詞 love を例に取れば,実際の英文のなかでは,不定詞・現在形・命令形など love という裸の形態で生起することもあれば,3単現の loves として出現することもあるし,過去(分詞)形の loved や現在分詞・動名詞形の loving で現われることもあるだろう(「崩れた」lovin' 等として起こるかもしれない).love のこれらの諸形態は,確かに互いに少しずつ異なっているが,各々が異なる単語というわけではない.あくまで代表的・抽象的な love という動詞の,具体的な変化形にすぎないのである.このような代表的・抽象的な存在を lemma と呼んでいる.I love you. のように love という形態で出てきたとしても,これは love という lemma の,直説法1人称単数現在形の具体的な現われとしての love である.両者はたまたま形態的に一致しているけれども,あくまで前者は抽象的な love,後者は具体的な love として概念上は区別する必要がある.
別の角度からみれば,私たちが英単語学習の際に習得する主たるものは,個々の見出し形ともいえる lemma と,その具体的な諸変化形ということになる.これらのワンセットが内部で適切にヒモづけられ,頭の中で整理されていれば,その単語に関して習得が完了していることになる.このワンセットとそれにつけられた名前こそが lemma なのである.
「コーパスでlove を動詞で lemma 検索してね」というのは「動詞として用いられている love, loves, loved, loving などの例をすべて拾ってきてね」と言い換えられる.例えば BNCweb の場合には,検索式を "{love/V}" のように指定することで上記の lemma 検索が可能である.
Powered by WinChalow1.0rc4 based on chalow