昨日の記事「#4915. 英語史のデジタル資料 --- 大学院のデジタル・ヒューマニティーズ入門講義より」 ([2022-10-11-1]) で紹介しましたが,授業で用いたスライドを公開しています.当該授業では,その8枚目「コーパス研究の功罪」を受けて,広くデジタル資料を用いた研究の功罪について皆で意見を出し合いました.受講者は人文系が大半でしたが,社会系を専攻する学生も少数いました.専門分野によって「デジタル資料」の種類や規模も様々ですが,それぞれの観点から学術研究のDX化に伴う良い点,悪い点をブレストしてもらいました.
もちろんデジタル資料そのものに功罪があるわけではありません.それを人間である研究者がどのように使いこなすのか,使われてしまうのかという点に功罪があるのだと考えます.ただし,デジタル資料には,研究者を良い方向あるいは悪い方向に誘う麻薬的な力があるのも確かです.
以下,受講生から出された「功」と「罪」の箇条書きを示します.趣旨として重複するものも多いようです.細かくは整理していませんが,およそ多くの共感を得た意見から順に並んでいます.
功:現地の図書館に赴かずとも,カラー写真によって写本を確認することが出来るようになった
罪:データが入手しづらいものは,研究対象に選ばれにくくなる
罪:紙質や細かな色味などの情報が抜け落ちている
功:研究の場所や時間に関する拘束が少なくなった
罪:実寸の大きさを掴みづらくなった
罪:本のデジタル化は資料保存のために行われていることが多いので,デジタル画像にはアクセスできても現物へのアクセスがしにくくなってしまった.
罪:データ化するものとしないものを選別する際,選択する側の価値判断が入る
罪:出てくるデータ量が大きすぎて事後処理に時間がかかるようになってしまった
功:国外の版本を簡単に閲覧できるようになった
罪:データで資料を確認できることによって実物への関心が薄れる
罪:ある一定の需要がない限り,データ化されない
罪:量的データや咀嚼しやすい情報だけが残っていく(かもしれない)
罪:変数を変える事で論文を量産できてしまうので,個々の論文をじっくり精査している時間がなくなった
罪:コーパスでの検索では主に生起数を調べることができるが,その一方で生起数以外の側面に注目しづらくなってしまっている.
罪:理由があって研究にデジタル資料を使わない場合でも,使わないというだけで悪目立ちするケースがある(「え,使わないんですか?」みたいな)
罪:(というべきでは無いかもしれませんが),デジタル環境によって多くの情報を知り得る現代の研究では,それらを知っていることが求められる.(知らなかった際の言い訳が効きづらい)
罪:リファレンスが独仏の大陸系のものよりも,どうしても英米分析系のものに偏る.
功:統計処理などの手法と相性が良く,比較的容易に客観的な分析を行うことができる.
罪:かつての研究者が行っていた膨大な資料から例文を抽出作業が簡略化されたことは,研究のために必要な言語感覚の育成に悪影響を及ぼしていることもあるように思う
罪:デジタル化されたものばかり頼ると,研究結果が偏る可能性がある.
罪:検索した単語を,前後,もしくは書物全体の文脈から切り離して,理解することが増えた
罪:OCRでの文字化が可能になったが,AIが必ずしも正しく文字を認識してくれるとは限らないため,最終的には目視による判断が必要となる.
功:1人の手作業では絶対にできなかった研究が容易にできるようになった
功:膨大な資料の閲覧のために海外等へ行くことなく,時には自宅から簡単にアクセスできる
罪:便利な分,貴重さや価値の重みが希薄になった.
功:異体字や通用字などを考慮した検索システムが充実してきており,検索の漏れが減り,調査が圧倒的に効率的になった
罪:さまざまな情報源があっても標準化されていないと統合的に探せない,処理できない
罪:デジタル資料は原資料の背が撮影されていない事が多く,装丁や外装の研究には不向き
罪:資料を所蔵する施設の中に特定の資料のデジタル化を拒否しているところがあり,研究の進行を妨げている
罪:情報が増えすぎたことによって取捨選択の難易度が上がった
功:学術世界の人々でなくとも,多くのデータにアクセスできるようになった
罪:データベースに頼りがちになり,原文を読む力がつきにくい
罪:画廊の絵がもつような,特定の位置空間に身を置くように要求する存在者の「促し」に,知覚主体は反応しづらくなる.
罪:(時間が解決するとは思うが)数理的な理解が不十分な文系研究者によって,おざなりなデータ処理が行われる可能性があり注意を要する
功:専門家でなくても議論に参加できる
罪:結局デジタル化の方法はその裏側に走っているアルゴリズム(人)に依存するので,その人の意識や意図によって結論の妥当性が変わる
功:元のデータがデジタルになることで,デジタル解析にかけやすくなった
功:家にいながら多くのことが詳しく研究できるようになった
功:さまざまな機関での資料所蔵情報がAPIで公開されるなどして大量に入手しやすくなった
功:主観評価項目の解釈をある程度一般化できる
功:写本がデジタル化されることにより,情報が簡単に手に入るようになった.
功:一次文献利用可能なオンライン辞典によって,専門外の分野についても或る程度信頼できる情報を獲得しやすくなった
罪:量・数を示すだけで研究した気になってしまうけれど,研究の本番はそこからなのですよね
罪:デジタル写真では確認し辛い,写本のテクスチャーや厚みといった要素に気を掛けづらくなる
功:リファレンス数などから影響力がわかるので,読むべき論文やジャーナルが可視化され,それらにアクセスしやすくなった.
功:OCR化された資料を用いて,自分で簡単なコーパスを作成することが可能になった
罪:本を手に取る機会が少なくなった.音声でも聴ける.読む行為ではないものの,便利だと感じている.
功:写本を画面上で見ることができるようになったこと.物語の内容とその周辺のイラストとの関係性を共に考察することで,作品単体ではなく写字生の意図も含めた形で物語作品を解釈することができるようになった.
功:どこにいても一次資料を確認することができる
功:質的なデータの傾向を量的に観察・分析することが容易になった.
功:著者が多用する表現や言葉が可視化された
罪:オンライン辞典の記事も査読アリとはいえ,参考文献一覧などを見るとだいぶ解釈に偏りがあって気を付けないといけないことも……
功:メディア資料の場合,ニュースサイトやSNSから特定のデータを大量に抽出することができる.
功:貴重書や貴重品を一般の人も見ることができるようになった
功:データで資料を確認することで実物により関心を持つ
罪:データで確認できるようになり,現地で実物を探さずに済むが,研究者としての何かがなくなる
罪:様々な資料にアクセスしやすくなった分,最近は図書館などをブラブラして面白そうな本を見つけるといったことをしなくなった気がします.視野が狭まってきているかもなあと
罪:簡単に情報を手に入れられるため求められる知識量が増える
罪:データが巨大化しているので,検索結果が(巨大IT企業のサービスと同様に)プログラマーによるアルゴリズムに依存することになる
罪:新規研究分野が意図する言語の解釈と既存のコーパスから参照した言語の解釈に齟齬が発生する
罪:古い資料をデジタル化するのは結局人の手であるため,「どの作品を優先的にデジタル化するか」といった資料の選別が為されてしまう
罪:研究対象そのものに焦点をあてて大量にデータを入手できてしまうため,それだけで満足していると研究対象の周縁の分野との連関を見落としてしまう.
罪:デジタル化された資料の閲覧にはコストがかかる.研究機関に所属していない研究者にはこれが負担である.
罪(?):デジタル化の恩恵を受けられる(積極的に受け入れている)研究領域とそうでない研究領域の風土差がわりと如実
功:データが全世界で共有されることにより議論が活発化する
功:(資料だけでなく)研究書もインターネット上で少しずつ閲覧できるようになったり,購入前に一部でも見られるようになったことはどの研究分野にとっても有益である
罪:結局デジタル化の方法はその裏側に走っているアルゴリズム(人)に依存するので,その人の意識や意図によって結論の妥当性が変わる
功26件に対して罪41件となりました.ブレストの前半は功が多く出されていましたが,およそ出尽くすと焦点が罪に移り,件数も増えてきたという流れです.全体として「現物」に触れる機会が少なくなったことへの懸念や副作用への言及が目立ちました.とてもおもしろいブレストでした.
英語史研究における「デジタル資料」はコーパス,辞書,方言地図,データベースなど多岐にわたりますが,とりわけコーパス利用に関する功罪については,「#3967. コーパス利用の注意点 (3)」 ([2020-03-07-1]) とそこからリンクを張っている記事を参照してください.
[
固定リンク
|
印刷用ページ
]