Open fulfulggg opened 5 days ago
大規模言語モデル(LLM)は、訓練データの不足により、低リソース言語において性能が低い。本研究では、Common Crawlコーパス全体から低リソース言語のテキストデータを効率的に収集する手法を提案する。UnifiedCrawlと名付けたこの手法は、最小限の計算リソースでCommon Crawlをフィルタリングおよび抽出することで、従来のソースよりもはるかに大きな単言語データセットを作成する。このデータを用いて、効率的なアダプター手法(QLoRA)を介して多言語LLMをファインチューニングすることで、VRAM使用量を最小限に抑えながら、低リソース言語の性能が大幅に向上することを実証する。実験では、言語モデルのperplexityの大幅な改善と、少数ショットプロンプティングスコアの向上が確認された。本研究と公開されたソースコードは、コンシューマー向けハードウェアを使用して低リソース言語向けLLMを改善するための低コストなアプローチを提供する。ソースコードはhttps://github.com/bethelmelesse/unifiedcrawlで入手可能。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
タイトル: UnifiedCrawl:低リソース言語向けLLMの低コスト適応のための統合コモンクロール
リンク: https://arxiv.org/abs/2411.14343
概要:
大規模言語モデル(LLM)は、訓練データの不足により、低リソース言語において性能が低い。本研究では、Common Crawlコーパス全体から低リソース言語のテキストデータを効率的に収集する手法を提案する。UnifiedCrawlと名付けたこの手法は、最小限の計算リソースでCommon Crawlをフィルタリングおよび抽出することで、従来のソースよりもはるかに大きな単言語データセットを作成する。このデータを用いて、効率的なアダプター手法(QLoRA)を介して多言語LLMをファインチューニングすることで、VRAM使用量を最小限に抑えながら、低リソース言語の性能が大幅に向上することを実証する。実験では、言語モデルのperplexityの大幅な改善と、少数ショットプロンプティングスコアの向上が確認された。本研究と公開されたソースコードは、コンシューマー向けハードウェアを使用して低リソース言語向けLLMを改善するための低コストなアプローチを提供する。ソースコードはhttps://github.com/bethelmelesse/unifiedcrawlで入手可能。