大規模テキストコーパスの必要性は、事前学習済み言語モデルの登場、特にこれらのモデルにおけるスケーリング則の発見に伴い増加しています。既存のコーパスのほとんどは、支配的な大規模コミュニティを持つ言語に対してのみ十分なデータを提供しています。しかし、(i) 幅広い少数言語を網羅し、(ii) オープンソースの再現可能なパイプラインで生成され、(iii) ノイズが厳密に除去され、信頼性の高い利用が可能なコーパスは存在していません。私たちは、CommonCrawlから派生した、1000以上の言語を網羅するクリーンなドキュメントレベルの2TB規模の汎用コーパス、GlotCCを紹介します。GlotCCとそれを生成するために使用したシステム(パイプライン、言語識別モデル、フィルターを含む)を研究コミュニティに公開します。コーパス v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1、パイプライン v. 3.0 https://github.com/cisnlp/GlotCC
タイトル: GlotCC:少数言語向け大規模CommonCrawlコーパスとパイプライン
リンク: https://arxiv.org/abs/2410.23825
概要:
大規模テキストコーパスの必要性は、事前学習済み言語モデルの登場、特にこれらのモデルにおけるスケーリング則の発見に伴い増加しています。既存のコーパスのほとんどは、支配的な大規模コミュニティを持つ言語に対してのみ十分なデータを提供しています。しかし、(i) 幅広い少数言語を網羅し、(ii) オープンソースの再現可能なパイプラインで生成され、(iii) ノイズが厳密に除去され、信頼性の高い利用が可能なコーパスは存在していません。私たちは、CommonCrawlから派生した、1000以上の言語を網羅するクリーンなドキュメントレベルの2TB規模の汎用コーパス、GlotCCを紹介します。GlotCCとそれを生成するために使用したシステム(パイプライン、言語識別モデル、フィルターを含む)を研究コミュニティに公開します。コーパス v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1、パイプライン v. 3.0 https://github.com/cisnlp/GlotCC