Open kennishida17 opened 1 year ago
https://aclanthology.org/2022.findings-acl.3/
Yiming Zhang/Zhejiang University
2022
ABSAは、アノテーションされたデータ不足しているため、ABSAタスクの開発は非常に制限されている。本論文では、初めて疑似ラベルメソッドを利用して、2つの均質なタスクを統合することに成功した。
ABSAは文中に出現する特定のアスペクトに関する感情極性を認識するタスク。 従来は、文単位の感情分析(SA)で、粗い制度で文全体を評価していた。(下の図の下段) 一方、ABSAは文中の特定のアスペクトに対して感情スコアがつけられる。(下の図の上段)
ABSAのベンチマークであるSemEval 2014Task4は、5000件未満のサンプルしか持っていない。 しかし、SAにはAmazonレビューデータセット3に400万の文章がある。SAタスクとABSAタスクの類似性から、SAデータセットをABSAタスクの補助データセットとして使用することが自然であるため、以前の研究では、事前学習やマルチタスク学習方法に焦点を当ててきた。
ABSAではアノテーションが大変でサンプルが少ないため、SAのデータを利用してABSAの課題を解決したい。
本論文では、SAデータセットを利用してABSAタスクが直面する課題を解決するために、まずPeseudo Label方法を採用。 PL法とは、ラベル付きのサンプルの数が限られている場合に、教師ネットワークを通じて未ラベルのサンプルを実行して生成された偽のラベルを「信頼」すること。生成されたラベル付きサンプルは、元の監視されたデータセットと組み合わせて、最終モデルのトレーニングに供給される。
この図は、PL法におけるデータセット生成のパイプラインを示している。xは入力データで、SAデータセットの文章であり、yは文章が持つ感情を表している。tiは文の中のアスペクト項目の位置を示しており、yiはそのアスペクト項目のラベルを表す。ti'とyi'は、ABSAモデルによって生成された疑似ラベル。
Dual-granularity Pseudo Labeling framework (DPL)と呼ばれる枠組みの提案。この枠組みは、元のPseudo Labeling frameworkに対して拡張され、両方の粒度から抽出されたラベルを利用できる、つまり、すべての文章がより細かい粒度のラベルとより粗い粒度のラベルの両方でタグづけすることができる。
Towards Unifying the Label Space for Aspect-and Sentence-based
アスペクトと文に基づくラベル空間の統一に向けて
リンク
https://aclanthology.org/2022.findings-acl.3/
著者/所属機関
Yiming Zhang/Zhejiang University
投稿年
2022
概要:
ABSAは、アノテーションされたデータ不足しているため、ABSAタスクの開発は非常に制限されている。本論文では、初めて疑似ラベルメソッドを利用して、2つの均質なタスクを統合することに成功した。
ABSAについて
ABSAは文中に出現する特定のアスペクトに関する感情極性を認識するタスク。 従来は、文単位の感情分析(SA)で、粗い制度で文全体を評価していた。(下の図の下段) 一方、ABSAは文中の特定のアスペクトに対して感情スコアがつけられる。(下の図の上段)
ABSAのベンチマークであるSemEval 2014Task4は、5000件未満のサンプルしか持っていない。 しかし、SAにはAmazonレビューデータセット3に400万の文章がある。SAタスクとABSAタスクの類似性から、SAデータセットをABSAタスクの補助データセットとして使用することが自然であるため、以前の研究では、事前学習やマルチタスク学習方法に焦点を当ててきた。
【研究背景】
ABSAではアノテーションが大変でサンプルが少ないため、SAのデータを利用してABSAの課題を解決したい。
【提案手法】
本論文では、SAデータセットを利用してABSAタスクが直面する課題を解決するために、まずPeseudo Label方法を採用。 PL法とは、ラベル付きのサンプルの数が限られている場合に、教師ネットワークを通じて未ラベルのサンプルを実行して生成された偽のラベルを「信頼」すること。生成されたラベル付きサンプルは、元の監視されたデータセットと組み合わせて、最終モデルのトレーニングに供給される。
この図は、PL法におけるデータセット生成のパイプラインを示している。xは入力データで、SAデータセットの文章であり、yは文章が持つ感情を表している。tiは文の中のアスペクト項目の位置を示しており、yiはそのアスペクト項目のラベルを表す。ti'とyi'は、ABSAモデルによって生成された疑似ラベル。
DPL
Dual-granularity Pseudo Labeling framework (DPL)と呼ばれる枠組みの提案。この枠組みは、元のPseudo Labeling frameworkに対して拡張され、両方の粒度から抽出されたラベルを利用できる、つまり、すべての文章がより細かい粒度のラベルとより粗い粒度のラベルの両方でタグづけすることができる。
【用語メモ】
実験
感想
参考