Sunwood-ai-labs / Yukihiko

Fusion of Python and GIMP
MIT License
5 stars 4 forks source link

HAL出版リポジトリからのテキストおよび構造化データの収集 #63

Open yukihiko-fuyuki opened 1 month ago

yukihiko-fuyuki commented 1 month ago

タイトル: HAL出版リポジトリからのテキストおよび構造化データの収集

リンク: https://arxiv.org/abs/2407.20595

概要:

HAL(Hyper Articles en Ligne)は、フランスの国立出版リポジトリであり、ほとんどの高等教育機関や研究機関がオープンサイエンスポリシーに基づき利用しています。デジタル図書館であるHALは、学術文書の豊富なリポジトリですが、高度な研究のための潜在能力は十分に活用されていませんでした。そこで私たちは、引用ネットワークとHALに投稿された論文の全文とのギャップを埋める独自のデータセットであるHALvestを開発しました。HALvestは、学術出版物を対象にHALをフィルタリングすることで作成され、約70万件の文書で構成されています。これらの文書は、13の分野にわたる34の言語で書かれており、言語モデルのトレーニングに適しており、約165億トークン(最も多いフランス語で80億トークン、英語で70億トークン)が得られます。また、各論文のメタデータを引用ネットワークに変換し、有向異種グラフを生成しました。このグラフには、HAL上で一意に識別された著者、公開されているすべての論文、およびその引用が含まれています。このデータセットを用いた著者名の帰属に関するベースラインを提供し、リンク予測のためのグラフ表現学習における最先端のモデルを実装し、生成された知識グラフ構造の有用性について議論します。

yukihiko-fuyuki commented 1 month ago

論文要約

論文要約: HAL出版リポジトリからのテキストおよび構造化データの収集

フランスの学術論文リポジトリ「HAL」から、研究に活用しやすい形で論文データセットを作成し、その有用性を示しました。

作成したデータセット「HALvest」の特徴

HALvestの利点

結論

HALvestは、学術研究に貢献できる新たなデータセットです。言語モデルの学習やリンク予測など、様々な応用が期待されます。

yukihiko-fuyuki commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: