Open yukihiko-fuyuki opened 1 month ago
テキストにおける著者の身元を隠蔽することを目的として、文章スタイル、語彙、構文、その他の特徴的な言語表現を改変する手法を、著者難読化と呼びます。この改変には、プライバシー保護と実用性のバランスが求められます。強力な難読化技術は著者の身元を効果的に隠蔽できる一方で、本来の目的のためのテキストの品質や有用性を損なうことが多々あります。逆に、高い実用性を維持しようとすると、プライバシー保護が不十分になり、攻撃者が著者の匿名性を解除しやすくなる傾向があります。したがって、これら相反する2つの目的の間で最適なトレードオフを実現することが重要になります。本稿では、ダウンストリームの有用性を考慮してテキスト全体を再生成することにより、プライバシーと実用性のトレードオフを最適化することを目標とした、新しい教師なし学習による著者難読化手法であるTAROT: Task-Oriented Authorship Obfuscation Using Policy Optimizationを提案します。私たちのアプローチは、著者の身元とダウンストリームタスクの有用性を維持しながらテキストを書き直すために、小規模言語モデルに対する微調整パラダイムとして、方策最適化を活用しています。私たちのアプローチは、実用性を維持しながら、攻撃者の精度を大幅に低下させることを示します。コードとモデルは公開しています。
一言でまとめると: 本論文は、AIを用いてテキストの著作者を分からなくする技術において、プライバシー保護とテキストの使いやすさの両立を実現する新しい手法を提案し、その有効性を示した。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
タイトル: タロット:方策最適化手法を用いたタスク指向型 authorship obfuscation
リンク: https://arxiv.org/abs/2407.21630
概要:
テキストにおける著者の身元を隠蔽することを目的として、文章スタイル、語彙、構文、その他の特徴的な言語表現を改変する手法を、著者難読化と呼びます。この改変には、プライバシー保護と実用性のバランスが求められます。強力な難読化技術は著者の身元を効果的に隠蔽できる一方で、本来の目的のためのテキストの品質や有用性を損なうことが多々あります。逆に、高い実用性を維持しようとすると、プライバシー保護が不十分になり、攻撃者が著者の匿名性を解除しやすくなる傾向があります。したがって、これら相反する2つの目的の間で最適なトレードオフを実現することが重要になります。本稿では、ダウンストリームの有用性を考慮してテキスト全体を再生成することにより、プライバシーと実用性のトレードオフを最適化することを目標とした、新しい教師なし学習による著者難読化手法であるTAROT: Task-Oriented Authorship Obfuscation Using Policy Optimizationを提案します。私たちのアプローチは、著者の身元とダウンストリームタスクの有用性を維持しながらテキストを書き直すために、小規模言語モデルに対する微調整パラダイムとして、方策最適化を活用しています。私たちのアプローチは、実用性を維持しながら、攻撃者の精度を大幅に低下させることを示します。コードとモデルは公開しています。