fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

GlotCC:少数言語向け大規模CommonCrawlコーパスとパイプライン #619

Open fulfulggg opened 3 weeks ago

fulfulggg commented 3 weeks ago

タイトル: GlotCC:少数言語向け大規模CommonCrawlコーパスとパイプライン

リンク: https://arxiv.org/abs/2410.23825

概要:

大規模テキストコーパスの必要性は、事前学習済み言語モデルの登場、特にこれらのモデルにおけるスケーリング則の発見に伴い増加しています。既存のコーパスのほとんどは、支配的な大規模コミュニティを持つ言語に対してのみ十分なデータを提供しています。しかし、(i) 幅広い少数言語を網羅し、(ii) オープンソースの再現可能なパイプラインで生成され、(iii) ノイズが厳密に除去され、信頼性の高い利用が可能なコーパスは存在していません。私たちは、CommonCrawlから派生した、1000以上の言語を網羅するクリーンなドキュメントレベルの2TB規模の汎用コーパス、GlotCCを紹介します。GlotCCとそれを生成するために使用したシステム(パイプライン、言語識別モデル、フィルターを含む)を研究コミュニティに公開します。コーパス v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1、パイプライン v. 3.0 https://github.com/cisnlp/GlotCC

fulfulggg commented 3 weeks ago

論文要約

簡単に言うと、GlotCCは、様々な言語の研究、特にデータが少ない言語の研究を大きく前進させるための、高品質で使いやすい巨大なテキストデータセットです。

fulfulggg commented 3 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: