GlotCC：少数言語向け大規模CommonCrawlコーパスとパイプライン

fulfulggg commented 3 weeks ago

タイトル: GlotCC：少数言語向け大規模CommonCrawlコーパスとパイプライン

リンク: https://arxiv.org/abs/2410.23825

概要:

大規模テキストコーパスの必要性は、事前学習済み言語モデルの登場、特にこれらのモデルにおけるスケーリング則の発見に伴い増加しています。既存のコーパスのほとんどは、支配的な大規模コミュニティを持つ言語に対してのみ十分なデータを提供しています。しかし、(i) 幅広い少数言語を網羅し、(ii) オープンソースの再現可能なパイプラインで生成され、(iii) ノイズが厳密に除去され、信頼性の高い利用が可能なコーパスは存在していません。私たちは、CommonCrawlから派生した、1000以上の言語を網羅するクリーンなドキュメントレベルの2TB規模の汎用コーパス、GlotCCを紹介します。GlotCCとそれを生成するために使用したシステム（パイプライン、言語識別モデル、フィルターを含む）を研究コミュニティに公開します。コーパス v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1、パイプライン v. 3.0 https://github.com/cisnlp/GlotCC

fulfulggg commented 3 weeks ago

論文要約

GlotCCとは？: 1000以上の言語をカバーする、2TB規模の巨大なテキストデータセット。少数派言語の研究に役立つ。
データ元: Web上の膨大なデータを集めたCommonCrawlから作成。
特徴:
- 幅広い言語: 多くの少数派言語を含む。
- 再現可能な作成手順: データ作成に使われたプログラムが公開されているため、誰でも同じデータを作成できる。
- 高品質: ノイズ（不要な情報）が丁寧に除去されているため、信頼性が高い。
公開: データセットと作成プログラムは誰でも利用可能。
- データセット: Hugging Face Datasets (https://huggingface.co/datasets/cis-lmu/GlotCC-v1)
- 作成プログラム: GitHub (https://github.com/cisnlp/GlotCC)

簡単に言うと、GlotCCは、様々な言語の研究、特にデータが少ない言語の研究を大きく前進させるための、高品質で使いやすい巨大なテキストデータセットです。

fulfulggg commented 3 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

dataset
llm
few-shot-learning

fulfulggg / Information-gathering