Open naoki-kokaze opened 4 years ago
デジタル化された情報源の利用可能性が増大していることから、情報源の効率的な評価が可能になっている。たとえば、OCRを使用したテキストによる用語のクエリ(データベースに対する命令文)、メタデータに基づくソースのインデックス作成とカタログ作成、デジタルソースからの情報やデータの使用などが可能になる。本節では、文脈や言語の変化を理解する手段として、軽量テキスト分析を用いた歴史学の可能性について述べる。関係現象を調べるためのネットワーク解析も行う。
計量テキスト分析
今日、何百万もの本・新聞・手紙は数回クリックするだけでたどり着ける。歴史テキスト分析の中心にあるのは、言語パターンの特定である。つまり、キーワードの頻度から時間の経過とともに変化する現象が示唆される。多くの歴史家にとって、最初にNgramの頻度を紹介したのはGoogleブックスのNgramビューアだった。2011年に発表されたこのツールは、文化を見る革命的な新しい方法として発表された。それ以来、単語の頻度の迅速な概要を提供するその能力は、歴史現象を研究する上で不可欠になった。
◎言語の使用頻度をNgramで見るのが良い。Ngramは元々あったが、グーグルブックスで使えるようになったのが画期的
ただし、頻度ベースのツールと方法には問題がないわけではない。当初から、多くの学者がGoogleのNgramビューアの落とし穴を指摘していた。彼らの批判は他の頻度ベースの方法に適用され、3つのカテゴリに分類される。まず、これまでに印刷されたすべての本の5%を網羅しているとされるグーグルブックスコーパスでさえ、「言語」や「文化」そのものを代表する(象徴する)ものではなかった。多くのコーパスと同様に、その代表性には制限がある。コーパスの代表性を測るには、構造化されたメタデータによる注意深いコンテキスト化が必要である。周波数の変化を説明できるようにするためには、誰が何を、いつ、どのコンテキストで作成したかを知ることが不可欠である。
◎グーグルブックスは本全体の5%も占めているが、それですら、言語や文化を代表していない。メタデータ(裏の属性)を通して文脈を探らないといけない。誰が何を、いつ、どの文脈で作成したかを知ることが不可欠。
さらに、単語の頻度が時間とともに変化する理由はいくつかある。スペルの規則の変更、イディオムの出現またはデータの特徴はすべて、単語の頻度に決定を与える。したがって、突然の変化に基づいて結論にジャンプすることは、危険な仕事である。また、過去に同じ意味であったことを保証するものは何も無い。同じ単語が過去に別の意味を持っていた場合、単語の変化頻度のマッピングは問題になる。ここでは、単語のより広い「意味領域」の変化の検出、および特定の時点でのデータの構成に関する情報によって、突然の使用頻度の断絶を説明できる。
◎単語は時間と共に言葉は変化するので頻度も変わる。短絡的に結論を出すと危険。同じ言葉であっても時代と共に変化することもある。単語の意味の変化や言葉の誕生などを説明することによって、突然の使用頻度の断絶を説明できる。
キーワードの頻度に関する潜在的な問題に対応して、最近のアプローチは個々の単語のレベルを超えている。研究の目的は、個々の単語からより広い「意味論的分野」へと移行している。たとえば、「外国」の頻度だけを見る代わりに、「外国銀行」や「外国貿易」など、「外国」で始まるすべてのバイグラム(2gram)の「行動」を追跡することもできる(図3)。 単語の意味の歴史化における2番目の傾向は、デジタルヒストリーにおける言語モデリングの適用である。単語のコンテキストに基づいて機械学習技術は質を上げることができる。たとえば、「王」という単語は、「女王」と意味的に類似している、なぜならこの二つの言葉の「隣人」が同じだから。(「宮殿」、「王子」と「王」「女王」はセットで出てくるから)。この前提を適用することにより、コンピューターは特定の時間的コンテキストで特定のキーワードに類似した単語を識別できるようになった。
◎関連単語も検索・検討。アルゴリズムをAIに入れると近い意味の言葉をコンピューターが集めやすくなった。
(図3)1815年から1914年の間のオランダの新聞に「binnenlandsche」(「国内」)という形容詞を含むさまざまなバイグラムの(絶対)数。
歴史的なテキストデータの将来の研究では、構造化されたメタデータを介したより良いコンテキスト化がおそらく含まれるだろう。全文だけでは十分ではない。それらを歴史的データとして使用するには、研究者は(歴史的史料の)作成と普及に関する追加情報を必要とする。また、将来の研究は単語のレベルを超越するだろう。コンピューターによる分析は、文・修辞的な比喩および言説をモデル化することがますます可能になり、歴史的な言語の変化をより包括的に把握することができる。適切なメタデータと組み合わせることで、これらの「超語彙的」分析単位の研究はキーワードへの焦点(検索)を補完し、歴史的変化へのより良い見方を与えるだろう。異なる言語レベルでの意味のモデリングに加えて、人々などの特定の「名づけられたもの」の検出は歴史的テキストのより良い見方を得る手助けになるだろう。
◎単語レベルを超えて言説レベルで分析できる。メタデータを入れていくことが大切
◎樋口耕一『社会調査のための計量テキスト分析【第二版】』(ナカニシヤ出版、2020年)第七章「計量テキスト分析の現在」
1、単純なコーディングであればKH Coderによって容易に実行可能
2、複雑な事柄・概念は機械学習で分類
3、これも難しければできる限り自動処理を活用しつつ最後の一線は人間の判断
注:大規模データの場合はランダム・サンプリングを行う。データ中への語彙に依存しない指標を算出できれば理論仮説を測定可能(前段落と関わる)
【参考:東洋学におけるNgramを活用した研究史と展望】
①漢字文献情報処理研究会編『漢字文献情報処理研究』第二号(2001年)
「特集:N-gramが開く世界 確率・統計的手法による新しいテキスト分析」
→N-gramは、ある特定パターンの文字列が頻出するテキストの分析が得意であり、テキストの版本系統を調べるような作業には威力を発揮、と指摘する。
②漢字文献情報処理研究会編『漢字文献情報処理研究』第十号(2009年)
師茂樹「Nグラム特集、その後」…2000年に期待されていたこと
→通常は気づきにくい用例の発見。形態素解析においては分断され、人間の読みにおいても読み飛ばされてしまうところにあるテキストの特徴を見出すための隙間産業的な方法。通常は見過ごされてしまうが、実は個体を特定することができる形態的なパターンを見つけ出すことが、計量的な分析に期待されている。
③漢字文献情報処理研究会編『漢字文献情報処理研究』第五号(2004 年)
「特集:N-gram による漢字文献の分析」
齊藤正高「趙岐『孟子章句』の特徴:「注釈」と本文の語彙頻度比較を通した問題発見」
山田崇仁「中国戦国期の語彙量について:N-gramとユールのK特性値を利用した分析」
→複数のコーパスのNgramの結果をクラスター分析によって分析する試み。テキストマイニング。
④漢字文献情報処理研究会編『漢字文献情報処理研究』第六号(2005年)
「特集:人文科学研究と自然言語処理」
→自然言語処理の代表的な技術に形態素解析があるが、現代中国語については(社会的なニーズもあってか)研究が進んでいるものの、漢文についてはほとんど蓄積がない、と指摘。
⑤山田崇仁「N-gram方式を利用した漢字文献の分析」(『立命館白川靜記念東洋文字文化研究所紀要』1、2007年)
・漢字は「表語文字」であり、形態素の多くが1文字で構成される特徴があるため、他の言語なら余り意味のない1gram単位の共起頻度(=単漢字頻度)でも有効な結果が得られる。4gram以上のNgram単位で同様な作業を行った場合、ノイズデータが格段に増加する。
・筆者は経験的に質・量の両面で最も有効なデータが得られる2gramをデータ分析の基本とする。
◎漢字文献をデジタル化する事で欠落する情報はNgram方式では収集困難
例)「異体字」の「異字同義」を同一の共起とする・「同字異義」を別の共起とすることはできない
→メタデータを入れていくことで対応??
◎0頻度(データ・スパースネス)問題
Ngram統計をとった結果として共起が存在しない?orそれ以外の文献にもその共起が存在しないのか?
⑥石井公成「三経義疏の語法」(『印度学仏教学研究』57(1)、2008年)…聖徳太子の三経義疏は、辞書に載っているようなわかりやすい用例ではなく、文章の接続や箇条書きなどのための語法、特異な語法を共有しているうえ、倭習と似た誤用・奇用が多く見出されると指摘し、三経義疏の中国撰述説をはじめとする従来の有力な学説の再考を促す。
⑦漢字文献情報処理研究会編『漢字文献情報処理研究』第十八号(2018年)
師茂樹「韓国における仏教学とデジタル・ヒューマニティーズ」
Park, Boram “Authorship Attribution in Huayan Texts by Machine Learning using N-gram and SVM”
International Journal of Buddhist Thought&Culture Vol.28 No.2
2018, pp. 69-86 (18 pages)
朴普藍「Nグラムとサポートベクターマシンを用いた機械学習による華厳文献の著者推定」
【考察】東洋学の中でも特に中国古代史においてNgramをはじめとするデジタル・ヒューマニティーズを活用した研究が進んでいない理由について考察すると、近現代史と比べ圧倒的に史料が少ないためそもそもデータ量が少なく、かつ、その史料も偏りがある(氷山の一角である)可能性もあり、0頻度問題も出てくるためだと考えられる。そして最大の理由はNgramを使って網羅的に検討しても、その結果が結局のところ従来の学説を補強する程度に留まるからであろう。加えて、学会自体の閉塞的状況も背景にあると考えられる(新しい技術を使った研究を色物扱いし、伝統的な文献研究をよしとする風潮。コンピューターには文献が読めないと決めつける姿勢)。しかし、今後は単語レベルを超えて言説レベルで分析できる可能性もあり、革新的な発見ができるものと考える。
序論
デジタル・ヒストリーの歴史 1960年代、計量歴史学の分析にコンピュータを用いたことから、歴史学におけるコンピュータの利用が開始されるが、1980年代には、歴史学的手法にあまりそぐわないために下火になる。一方、1980年代から1990年代を通して、定性的分析を行う「歴史とコンピューティングhistory and computing」と呼ばれる活動が活発になった。「デジタル・ヒストリー」は、これら歴史史料に対する定量的・定性的両アプローチから生まれた。
歴史学におけるデジタルターン 歴史学では、計量歴史学や「歴史とコンピューティング」のような手法はまだ一般的ではないが、史料の検索・保管・出版物の準備などはコンピュータを使って行われるし、1990年代以降図書館・アーカイブ史料の大規模なデジタル化も進んでいる。デジタル化された史料は通常の史料よりもアクセシビリティが高く、これらのコレクションは充実したビッグ・データと見なされるべきである。
デジタル・ヒストリーの定義と目的 デジタル・ヒストリーは、明確なひとつのディシプリンや分野としてではなく、分野横断的に様々なツール、概念、方法論を用いて歴史研究を行う研究者たちの、実践的コミュニティとして理解されるべきものである。より幅広い枠組みであるデジタル・ヒューマニティーズの中で、人文学的な問いを追求するために、歴史学研究への情報技術を取り入れてきた。
本稿の目的 本稿は、デジタル・ヒストリーにおいて主流となりつつあるいくつかのアプローチ、技術、手法について解説しつつ、デジタル・ヒストリーがどのように発展してきたのか、また歴史学研究にどのような発展をもたらしてきたのかについて検討する。これにより歴史学研究者が自らの研究にデジタル技術をどのように取り入れるべきかについて理解するための出発点を示す。※ただし、議論は英語による研究成果を基にしている。 具体的には、第1章では、OCR/HTP、ボーンデジタル史料、コンピュータビジョン、Digital Scholary Editions、Linked Open Dataなど、データの作成・保護・検索に関する技術解説を行う。第2章では、計量テキスト解析とネットワーク分析によって、いかにしてデータがよりアクセス可能なものになるかについて検証する。第3章では、デジタル・ヒストリーにおけるHermeneuticsとData-awarenessの重要性について検討する。
結論
デジタル技術やデジタル・ヒストリーが歴史学に与える影響 今後、歴史学においてデジタル・ヒストリー自体が主流となるよりも、本稿で述べたようないくつかの技術や方法論が主流となる可能性が高く、より一般的なものになっていくだろう。これらの技術に加え、デジタル・ヒストリーが内包している多くの議論が、将来的に歴史学に影響を与える可能性がある。 例えば、デジタル・ヒストリーのプロジェクトは、歴史学研究者と情報学研究者の協働による分野横断型研究であるが、他分野研究者との協働の中で、適切な質問をし、利用可能なデータセットを作成し、研究課題について議論するためのデータ処理を行うには、専門知識が必要となる。また、研究成果の発表においても、共著論文の形で、デジタルフォーマットで、アクセス可能なデータを提示するようになったり、成果がいかに評価されるかなどにも影響を及ぼすだろう。
歴史学研究者と情報学研究者の協働上の課題 デジタル・ヒストリーの共同研究では、歴史学研究者はデジタル技術の使用についてよく知らず、情報学研究者は歴史史料データセットの処理に情報学的手法がどのように有効であるかをよく知らないという状況があり、結果として、歴史学研究者が自身の研究データの取得方法を十分理解していないという問題が起こる。これを解決するためには、歴史研究者自身が情報技技術や知識を身につける必要があるという議論や、ツールの方が歴史研究者に理解しやすいものになるべきであるという議論がある。
デジタル・ヒストリーの教育 この議論に関連して、いかにして学生をデジタル・ヒストリーの実践者として、また情報社会に生きる市民として教育するかについての議論もある。急速な技術発展とすでに情報技術が教育と不可分になっている現状に鑑みると、歴史学のカリキュラムにデジタル・ヒストリーを組み込むことに関する議論は決して些末なものではない。
データなどの持続可能性 図書館やアーカイブズはデジタル化された史料を保存するための標準規格を開発してきたが、多くのボーンデジタル史料については未だそのような規格がない。また、歴史研究者が作成するアウトプットや利用するデジタル技術も、現状、持続可能なものではないので、いかにして研究成果を持続可能なものにするかということは、歴史研究者、GLAMの専門家、情報研究者の間でも活発に議論されている課題である。
まとめ 本稿では、デジタル・ヒストリーの現状を概観してきた。今後もデータの収集・処理・分析のための新しい情報技術や手法が実装されていくだろうが、歴史学研究者はアルゴリズムが研究成果に与える影響について無批判でいてはならない。また、本稿で紹介したOCRや検索エンジンなどの技術は間接的に歴史学に影響を与えてきたが、その他の技術はまだ歴史学に普及していない。これらが今後の歴史学にどのような影響を与えるかについて議論するには時期尚早であるが、情報技術の将来的な研究課題は多くの方向性を持っていること、また今後歴史研究者がますます情報技術を利用して史料や手法をより幅広い人々に向けて公開することを考えれば、確実にデジタル・ヒストリーは今後も大きく変化していくだろう。
歴史学研究において、用いられるデータの出典・典拠、そしてその信憑性を確保することは重要な問題であり、デジタル時代の歴史学においては、ここに新たな視点が求められる。 従来のアナログな手法においては、クリティカル・アパラトゥスがこの役目を担っていたが、デジタルな手法においては、データがどのような基準で選択され作成されたのか、デジタル化の過程でどのような変容を蒙っているのか、その分析においてどのようなアルゴリズムが用いられたのか、といった点に注意を向ける必要がある。
ギリシア語のἑρμηνεύω(翻訳する・解釈する)あるいはἑρμηνεύς(翻訳者・解釈者)という語に由来し、19世紀ドイツの歴史家ドロイゼンによって、歴史的知識を構築する際の解釈の重要性を強調する語として用いられた。「デジタル解釈学Digital Hermeneutics」は、そのような知識構築にコンピューター(デジタル技術)が与える影響を考慮に入れて再定義される概念。
日常的な研究ツールとしてウェブ・インターネットを駆使し、そこで入手したデジタル・コンテンツを利用するようになっている歴史家の営みは、デジタル解釈学の原理とデジタル・コンテンツの評価・批評を適切に結びつける必要に迫られている。そしてこれは、デジタルな手法を用いる歴史家のみならず、歴史研究に携わる者すべてにとって妥当する。なぜならば、歴史家の営みはいまや、デジタル図書館やデータベース、商業的な動機に基づく収集・索引の論理から大きな影響を受けており、これらがどのように機能しているのかを知ることは、従来の文献学・歴史学において文書批判を行うことと同義になりつつあるからである。
資史料の起源と信憑性を問い、いつ、誰によって、どのような目的のもとに、どのように作成されたのかを探求するという歴史家が常に行ってきた営みが今後も続けていくことは間違いない。しかし、デジタル時代においてこのような営みは、デジタルに関わる事象の技術的、数理的な理解によって補完されなければならない。すなわち、なぜ特定の資史料が選択されデジタル化されるのかを問うことはもちろん、デジタル化の過程で起こる変容や文脈の喪失を考慮する必要がある。 このようなデータ構築における取捨選択・変容の他に、データを検索する段階におけるサーチエンジンといったデータ収集・分析におけるアルゴリズムのバイアスも精査される必要がある。アルゴリズムによる処理は、それ自体が複雑な現実の還元としての性格を有しているがゆえに、そうした還元がどのような手順で行われたのか、それを実行するコード自体が批判の対象にならなければならない。そして、そのコードを実行することによって作成されたあらゆるもの、データ・データ処理ツール・可視化インターフェースなどもまた、すべて批判の対象である。 どのような言語(プログラミング・マークアップ)やデータベース、ツールを用いるかによって、そこから導出される結果はすでにある程度方向づけられていると言えるが、デジタル解釈学の原理を導入することによって歴史家は、デジタル技術を用いた研究に付き纏うバイアスや限界に関して意識的になり、その過程をよりよく理解することが可能になる。
今のところ、デジタル資史料の在り方やその分析プロセスの認識論的側面に関心を持つ少数の歴史家のみが、デジタル解釈学という分野に深い関心を抱いているに過ぎない。大多数の歴史家におけるデジタル・ヒストリーとの関わりは、今後もアナログな手法とデジタルな手法の混成という次元に留まるだろう。
Alberto Romele, Marta Severo and Paolo Furia, ‘Digital Hermeneutics: from interpreting with machines to interpretational machines’, AI & SOCIETY, 30, 2018 (https://doi.org/10.1007/s00146-018-0856-2)において、デジタル解釈学実践と称してtwitterのツィートデータを用いた事例分析が為されていたので、以下で概要を紹介しておく。
この論考では、前半部でデジタル解釈学の理論面の検討として、ハイデガーからガダマー、リクールへと至る解釈学の系譜を辿っている。著者は最終的にリクールによるテクスト解釈の「ミメーシス論」を拡張し、これをデジタル解釈学に適用している。
・先形象化prefiguration →データの作成・収集、「痕跡tracesからデータへ」 ・統合形象化configuration →データの整理、手法の適用「データから手法へmethods」 ・再形象化reconfiguration →結果の解釈・意味付け「手法から情報indormationへ」
このように定義された諸段階に沿う形で。Twitterに基づく世論調査研究プロセスの分析を行っている。その際、研究の目的に応じて「選好性分析」「感情分析」「相互作用分析」という3つのケースを想定し、それぞれにおいて上の三段階をしている。
選好性分析 (profig)各ツィートを一つの単位とみなし、内容に依らずに、特定のキーワードやハッシュタグが出現するツィートを収集 ⇓ (config)採用できる手法は、時間・空間的な統計分析、あるいは語の頻出度から明らかになる範囲での感情分析(得票率とツィート数の相関分析などは可能) ⇓ (reconfig)選好性の集積としての「大衆世論mass opinion」について解釈可能
感情分析 (profig)感情を分析するため、数量のみでなく内容抽出が必要。ツィートのテクストを抽出するとともに、場合によってはURL、画像、映像などのデータも収集 ⇓ (config)内容に基づき、教師なし・教師あり双方の機械学習を用いた感情分析(選挙との関連の他、政策に対する感情なども分析可能) ⇓ (reconfig)大衆世論の下に隠れた「潜在的世論latent opinion」についての解釈が可能。また、特定のトピック、あるいは特定の個人・集団における感情や意見についての個別的な解釈可能性
相互作用分析 (profig)ツィート同士の関係性抽出を目指すため、個々のツィートの単位ではなく、リツィートや引用、さらにユーザーのフォロー関係などのデータを収集 ⇓ (config)ネットワーク分析、あるいはネットワークと内容を組み合わせた分析が可能 ⇓ (reconfig)世論形成のプロセスや主要アクター、情報伝達経路等についての解釈可能性
上に分析をみてもわかるように、最終的な解釈の可能性は、どのようなデータを作成・収集し、どのような分析を、どのようなツールを用いて行うかによって大きく左右される。また、そもそも世論をどのようなものとして捉えているかという先入観、あるいは諸々の事情によって生じる(時に強制的な)技術的選択によっても、結果は大きく左右される。
担当章のコメントや発表内容を、マークダウンファイルで投稿してください。 Romein, C. Annemieke, Max Kemman, Julie M. Birkholz, James Baker, Michel De Gruijter, Albert Meroño‐Peñuela, Thorsten Ries, Ruben Ros, and Stefania Scagliola. ‘State of the Field: Digital History’. History 105, no. 365 (n.d.): 291–312. https://doi.org/10.1111/1468-229X.12969