Closed takachino closed 3 months ago
@offloading が以下のラベルを提案し、適用しました:
本研究では、機械翻訳のための最適な例の選択方法について取り上げました。従来のコンテキスト内学習を使用することで、文章埋め込みの類似性が機械翻訳の性能向上につながることが示されました。特に、資源が限られた言語方向において、選択プールの多様性と質のバランスが重要であると述べられています。さらに、この研究では、LLMベースの機械翻訳システムの評価方法についても提案が行われています。
タイトル: 類似検索による文脈に沿った例の選択は、資源が限られた機械翻訳を向上させます。
リンク: https://arxiv.org/abs/2408.00397
概要:
Generative large language models(LLM)の能力がコンテキスト内学習を可能にしたことから、様々な自然言語処理タスクでモデルへの最適なプロンプト方法に関する研究が盛んに行われています。本論文では、機械翻訳(MT)に焦点を当て、コンテキスト内翻訳例の恩恵が示されているタスクです。しかし、最良の例の選択方法に関する体系的な研究が公表されていない上、類似性に基づく選択とランダム選択の有用性に関して異なる結果が報告されています。私たちは、複数のLLMと複数のコンテキスト内例の取得戦略を比較する研究を提供し、多言語の文章埋め込みを比較します。いくつかの言語方向(英語からフランス語、ドイツ語、スワヒリ語、ウォロフ語)を取り上げ、異なる言語資源度を表現しています。以前に公表された結果とは異なり、文章埋め込みの類似性がMTを改善できることが分かりました。特に資源の少ない言語方向において、選択プールの多様性と質のバランスについて議論します。また、LLMベースのMTの評価に関する潜在的な問題点を取り上げ、LLMの評価にCOMETメトリックを適応させたより適切な評価プロトコルを提案しています。コードと出力はhttps://github.com/ArmelRandy/ICL-MTで無料で提供されています。