fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

UnifiedCrawl:低リソース言語向けLLMの低コスト適応のための統合コモンクロール #776

Open fulfulggg opened 5 days ago

fulfulggg commented 5 days ago

タイトル: UnifiedCrawl:低リソース言語向けLLMの低コスト適応のための統合コモンクロール

リンク: https://arxiv.org/abs/2411.14343

概要:

大規模言語モデル(LLM)は、訓練データの不足により、低リソース言語において性能が低い。本研究では、Common Crawlコーパス全体から低リソース言語のテキストデータを効率的に収集する手法を提案する。UnifiedCrawlと名付けたこの手法は、最小限の計算リソースでCommon Crawlをフィルタリングおよび抽出することで、従来のソースよりもはるかに大きな単言語データセットを作成する。このデータを用いて、効率的なアダプター手法(QLoRA)を介して多言語LLMをファインチューニングすることで、VRAM使用量を最小限に抑えながら、低リソース言語の性能が大幅に向上することを実証する。実験では、言語モデルのperplexityの大幅な改善と、少数ショットプロンプティングスコアの向上が確認された。本研究と公開されたソースコードは、コンシューマー向けハードウェアを使用して低リソース言語向けLLMを改善するための低コストなアプローチを提供する。ソースコードはhttps://github.com/bethelmelesse/unifiedcrawlで入手可能。

fulfulggg commented 5 days ago

論文要約

論文要約: UnifiedCrawl:低リソース言語向けLLMの低コスト適応

fulfulggg commented 5 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: