Open naoki-kokaze opened 4 years ago
おそらく著者は東日本大震災時に津波にあった歴史史料救済プロジェクトに参加した人物。 非常に日本史業界では注目されたプロジェクトであった。 その経験から例えば東日本大震災時の”文書史料”救済時の情報管理の在り方は知りたかった。 またそもそ災害以外に文化財を総合して把握する意味は大きいはずで、 そのことと災害の事例の位置づけが不明瞭。
”ゆるやかに連結”(103頁)とは具体的にどう処理することを想定しているのか? IDやメタデータの付与のあり方まで具体化して議論する必要がある。 基本的には番号を振る以外に総合的把握が可能になるとは思えず、 IDの規格を議論する必要があるのではないか。
「資料を危機的な状況から回避するだけでなく、資料が生成・伝来した地域の中に存在し、 対象となる地域と関わりを持ち続けることをひとつの理想としていることです。」(98頁) の「理想」の意味とは何か? ここでいう「地域」とは何か? 関わりを持ち続けるとは何か? その利点とは何か? それを災害や散逸リスク・収集管理コストなどと比較考量する必要がある議論であるが、 そのことの意味をどうとらえるかが重要ではないか。
一般に歴史情報学の代表的課題の一つである歴史的GISがコラムという扱いでいいのかという疑問。 著者自身もどちらかというと暦の専門家である。 歴史地理学や古地図の研究はGISが存在しない時期から盛んで、そういった時期との研究の差異を 説明して欲しかった。 逆にそれ以前の研究はどこまで歴史情報学の事例と言えるのか?
写真データという実用性の高い課題で、よいテーマに思われる。 「写真撮影」は歴史学者が多用するが、実際の技術習得が困難な課題。 一方で人文情報学では扱われにくい。
「展示」に拘る日本の博物館の特徴。
「ない袖は振れない」(116頁)という当然の視覚。 オープンデータ化論における謎の欠如。
Chapter 8「歴史データのさまざまな応用-TEIの現在(永崎研宣)」のまとめと補足
1.デジタルテクストの特徴を活かすには?
・紙媒体のテクスト…暗黙のルール ・デジタルテクスト…キーフレーズの定義を記述し共有する必要性がある
2.TEI登場のコンテクスト
皆が共通で使える記述手法を定める必要性 →1987年、ポキプシー原則 TEI協会を設置 → XMLの策定に影響 →TEIガイドライン自体もXMLをベース
3.TEIガイドラインとは
厳密に定められた術語体系を強要するのではなく、十分に議論した結果をガイドラインとして提示し 実際の用法は利用者・利用者コミュニティに委ねる
第一章 TEIガイドラインが提示する仕組みの全体像 第二章 ヘッダーについての解説「このデータがどういうものであるか」 第三章 すべてのTEI準拠文書で使えるエレメント 第四章 基本的なテクストの構造のいくつかのパターンを提示 第五章 書字体系や外字など
・新しい文字の追加はISO/IECの規格へ登録、カリフォルニア大学バークレー校を拠点とするScript Encoding Initiativeという団体がこの動きをサポート ・漢字の登録はIRGという漢字検討の専門グループがいったん検討した上でISOのワーキンググループに提案
第六章以降 資料の性質にあわせた詳細な記述の仕方を提示(特に手稿の記述の仕方) 第十三章 固有表現に関する記述の仕方 第十七章 言語コーパスを作成するための単語やフレーズ、文章等の様々な単位に対して付与すべきタグ・属性 第二十章 本来階層構造をとるべきXMLのデータをTEIの形式でうまく表現するための様々な工夫 第二十一章 文書内の様々な要素がどれくらいあてになるのか、誰に責任があるのかを明示するためのXMLタグ・属性等の記述の仕方
4.アップデートされるTEIガイドライン
人文学全体をフォローできているわけではない→メンバーの要求に応じて分科会が設置 2016年 東アジア/日本語分科会
5.TEIガイドラインの活用事例
欧米の資料に関しては膨大に存在 TEIガイドライン向けに作成された表示用プログラムも様々に開発
5.1.固有表現のマークアップ
人物IDの付与 例)『走れメロス』
5.2.パラレルコーパスのマークアップ
ID同士をリンクさせた対応づけ情報を作成
5.3. 校訂テクスト:学術編集版のマークアップ
写本などのテクストの通時的・共時的な研究が可能
◎TEIガイドラインに則ると、国際的なデジタル・ヒューマニティーズの大きな流れに力を借りることができる・フィードバックも可能
5.4. 貨幣のマークアップ
TEIや他の記述ルール(スキーマ)を組み合わせて構成することが可能
5.5. 書誌情報のマークアップ
古典籍の書誌情報 既存の紙の本をデジタルテクスト化した際に関わった人物
5.6. 画像アノテーション:IIIFとの関係
TEIが持っていた画像とテクストをリンクさせる仕組み→IIIFに変換可能
6.マークアップの深さをどう考えるか
TEILib 図書館でTEI準拠のテクストデータを作成するためのガイドライン
7.テクストデータやツール・ノウハウを共有するには
ツール TEI協会の公式Web + Google検索 + Github + ノウハウの共有 … アーカイブ検索 テクストデータの共有 … TAPAS
8. どうやってマークアップするか
XMLのタグをつける
8.1. タグ付けルール/構造の設計
テクストデータの目的に沿ったタグを選択して絞り込んでおく必要
文書の構造の設定 汎用XMLエディタ・Oxygen XML Editor
8.2.どうやってマークアップするか:実際の作業
Oxygen XML Editor は優秀だが高い!
フリーソフトウェア VScode(マイクロソフト製のフリーの高機能テキストエディタ) https://digitalnagasaki.hatenablog.com/entry/2020/02/14/031218
8.3.自動化作業をフォローするためのTEI
TEI準拠のデータにしておく→手作業でデータを修正・整備
9.おわりに
TEI … デジタル・ヒューマニティーズ(≒人文情報学)における「方法論の共有地(Methodological Commons)」
補足:漢字の問題について
・Unicode 13.0では95,380文字の漢字が使える ・IVS(Ideographic Variation Sequence(異体字シーケンス)の略称。異体字の関係にある文字に「異体字セレクタ」(VS / Variation Selector)というコード(枝番号)を振ることで、より確実な文字情報の交換を可能にする技術)を使うとさらに8千字の異体字を使える ・通常の文字入力(IME、手書きも含む)ではすべての漢字は入力できない ・今昔文字鏡 2009年、漢字を16万字に拡張した『今昔文字鏡 単漢字16万字版』 諸橋轍次『大漢和辞典』(親字約5万字)の番号をベースに、倍以上の文字を収録 *対応するフォントを持っていなければ文字化けする *2000年代に許諾条件が改定され自由に利用できなくなる ・Unicodeへの登録申請 or GlyphWiki(グリフウィキ・約78万字)に登録 *Unicode登録まで約5年、議論への参加や調査も必要 *グリフウィキは明朝体フォント ●日本における中国古代史研究者の多くは論文掲載時に漢字が表示・印刷できれば良いと考えており、Unicodeに登録するメリット(検索・データベース構築・データ共有が可能)については考えが及んでいない問題点がある。 ●Unicode登録のハードルが高いが、台湾教育部異体字字典の組織が一括申請などできないだろうか? https://dict.variants.moe.edu.tw/variants/rbt/home.do ●甲骨文字・金文・石刻史料の文字は刻まれた(鋳込まれた)文字であり三次元情報を持つが、このような文字の再現性は可能か?可能になれば偽物の問題解決にも繋がるのでは。
参考: 上地宏一「2015年版文字コード・Unicode再入門」(『漢字文献情報処理研究』第16号、2015年) 永﨑研宣『日本の文化をデジタル世界に伝える』(樹村房、2019年) 下田正弘・永﨑研宣編『デジタル学術空間の作り方』(文学通信、2019年)
の機に『歴史情報学の教科書』を全体的にレビューしてみたいと思います。全文PDFはこちらからご覧いただけるので、ご参照ください。http://repository.bungaku-report.com/htdocs/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=30&item_no=1&page_id=3&block_id=8#_8
レビューにあたっては、さしあたって次のような問いを意識しながら本全体を読み進めてみてください。 *自分の関心に近い章はどれか。それらの章について、自分が執筆するとしたら補足できる点はあるか。 *記述に問題がある箇所は見られたか。あるとすれば、どのように改善できるか。 *国際的なDHの状況と比較して、この分野の日本の学界状況が進んでいる点はあるか。 *この分野の日本の学界状況として、改善の余地はあるか。あるとすれば、どのように改善され得るか。
その他、気づいた点があればご自由にコメントを残してください。各自、このページにコメントをマークダウンで記述してください。