UnifiedCrawl：低リソース言語向けLLMの低コスト適応のための統合コモンクロール

fulfulggg commented 5 days ago

タイトル: UnifiedCrawl：低リソース言語向けLLMの低コスト適応のための統合コモンクロール

リンク: https://arxiv.org/abs/2411.14343

概要:

大規模言語モデル（LLM）は、訓練データの不足により、低リソース言語において性能が低い。本研究では、Common Crawlコーパス全体から低リソース言語のテキストデータを効率的に収集する手法を提案する。UnifiedCrawlと名付けたこの手法は、最小限の計算リソースでCommon Crawlをフィルタリングおよび抽出することで、従来のソースよりもはるかに大きな単言語データセットを作成する。このデータを用いて、効率的なアダプター手法（QLoRA）を介して多言語LLMをファインチューニングすることで、VRAM使用量を最小限に抑えながら、低リソース言語の性能が大幅に向上することを実証する。実験では、言語モデルのperplexityの大幅な改善と、少数ショットプロンプティングスコアの向上が確認された。本研究と公開されたソースコードは、コンシューマー向けハードウェアを使用して低リソース言語向けLLMを改善するための低コストなアプローチを提供する。ソースコードはhttps://github.com/bethelmelesse/unifiedcrawlで入手可能。

fulfulggg commented 5 days ago

論文要約

論文要約: UnifiedCrawl：低リソース言語向けLLMの低コスト適応

課題: 多くの言語では訓練データが不足しており、大規模言語モデル(LLM)の性能が低い。
提案手法 (UnifiedCrawl): インターネット上の膨大なデータ(Common Crawl)から、低リソース言語のテキストを効率的に抽出する新しい手法を開発。少ない計算資源で動作するのが特徴。
効果: 従来の手法よりも遥かに大きな単一言語データセットを構築可能。
LLMの改良方法: 抽出したデータを用いて、少ないメモリ(VRAM)で動作する効率的な追加学習手法(QLoRA)でLLMを微調整。
結果: 低リソース言語におけるLLMの性能が大幅に向上。具体的には、言語モデルのperplexity(予測性能の指標)が大幅に改善し、少数ショットプロンプティング(少ない例示でタスクを学習させる方法)のスコアも向上。
意義: 一般的なパソコンでも低リソース言語向けLLMの性能向上を可能にする、低コストなアプローチを提供。ソースコードも公開済み(https://github.com/bethelmelesse/unifiedcrawl)。

fulfulggg commented 5 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

llm
few-shot-learning
low-resource-languages

以下の新しいラベルが作成され、適用されました：

low-resource-languages

fulfulggg / Information-gathering