hellog〜英語史ブログ

#316. 拙著で自分マイニング(文体統計と単語リスト編)[text_tool]

2010-03-09

 自分で書いた文章をいろいろと分析することを自分マイニングというが,今回は僭越ながら拙著 The Development of the Nominal Plural Forms in Early Middle English の英文を材料にして,自分の英作文の傾向(と対策)を調べてみたい.今回使用したツールは,コーパス研究用に開発された WordSmith Version 3 である.
 まず準備として,手元にある拙稿を収めた LaTeX ファイルから図表部や Bibliography 部などをそぎ落とし,おおかた本文だけが含まれるような平テキストを得る.それを WordSmith にかけて,文体に関わる統計値を出してみた.

Tokens58,535
Types4,805
Type/Token Ratio8.21
Standardised Type/Token37.81
Ave. Word Length4.88
Sentences1,745
Sent.length22.49
sd. Sent. Length12.36
Paragraphs865
Para. length67.67
sd. Para. length48.26
1-letter words3,239
2-letter words9,619
3-letter words10,771
4-letter words7,996
5-letter words5,657
6-letter words4,938
7-letter words5,220
8-letter words3,747
9-letter words2,594
10-letter words2,043
11-letter words1,224
12-letter words857
13-letter words304
14(+)-letter words203


 本文は6万語弱 ( tokens ) からなり,使用している単語の種類 ( types ) は lemmatise されていない状態で 5千語弱.平均的な一文の長さは22語ほど.一段落は68語ほど.当然ながら,お手本となる英文の基準統計値がないと,いずれの数値もどう判断してよいかはわからない.いずれ尊敬する研究者や好きな作家の文体と比べてみたい.
 次に,WordList を作成.頻度順に並び替えれば拙著の主題が見えてくるはずである.上位50語を小文字化された状態で以下に掲載.

the, of, in, to, and, a, is, plural, as, english, that, s, for, old, was, n, it, be, from, i, this, are, with, by, on, middle, language, but, or, nouns, not, early, dialect, norse, west, midland, were, forms, text, south, texts, more, have, we, system, than, which, an, may, v


 大部分は機能語だが,内容語としては plural, english, middle, nouns, early, forms がちゃんと出てきてくれた.ちゃんとというのは,タイトルを構成する単語が上位に出てきてくれないとタイトルの付けかたが悪かったということになりかねないからだ.development は56位,nominal は189位だったが・・・.

Referrer (Inside): [2010-03-10-1]

[ | 固定リンク | 印刷用ページ ]

Powered by WinChalow1.0rc4 based on chalow