style transfer 문제에 있어서 가장 많이 사용되는 방법은 style attribute 에 해당되는 특정 latent representation 을 배우는 것입니다.
이 방법이 항상 모든 상황에서 실용적이지 않다는 것을 주장합니다. 예를 들어 disentangled representation 을 학습하고자 domain adversarial training 하는 것도 잘못된 접근이라 생각하고 있습니다.
본 논문에서는 텍스트 데이터을 구성하는 여러 factor 들을 제어할 수 있는 방법을 제안합니다. 단 disentanglement 방식으로 학습하는 것이 아닌, back-translation 방식을 이용해 이 문제를 풀어 나갑니다.
이 방식을 이용해서 gender, sentiment, product type 와 같은 세부적인 요소들을 control 할 수 있습니다. 또한 latent space 에서 뽑은 style representation 에 대한 변화와 content preservation 간의 tradeoff에 훨신 더 유연함을 주장합니다.
실험을 통해서 이렇게 완전히 얽혀 있는 representation을 바탕으로 한 generation 이 보다 좋은 성능을 보여주었고, 더 어려운 challenging (여러 문장, 여러 attribute) 한 테스크에서도 우수한 성능을 보여 주었습니다.
Abstract (요약) 🕵🏻♂️
The dominant approach to unsupervised "style transfer'' in text is based on the idea of learning a latent representation, which is independent of the attributes specifying its "style''. In this paper, we show that this condition is not necessary and is not always met in practice, even with domain adversarial training that explicitly aims at learning such disentangled representations. We thus propose a new model that controls several factors of variation in textual data where this condition on disentanglement is replaced with a simpler mechanism based on back-translation. Our method allows control over multiple attributes, like gender, sentiment, product type, etc., and a more fine-grained control on the trade-off between content preservation and change of style with a pooling operator in the latent space. Our experiments demonstrate that the fully entangled model produces better generations, even when tested on new and more challenging benchmarks comprising reviews with multiple sentences and multiple attributes.
이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔
Style Transfer 분야에서 ICLR Accept 될 정도 논문이면 굉장히 훌륭한 논문입니다. 꼭 한번 읽어보면 여러가지로 인사이트를 많이 얻을 수 있을 것 같다고 생각합니다.
기존의 distangled 문제를 풀고자 하는 많은 논문들이 있지만, 이를 반대로 반박하는 논문입니다. 때문에 논문을 읽음으로서 기존의 방법에 대해 충분히 이해할 수 있고, 어떤 문제점들이 있었는지 알 수 있을 것 같습니다.
여러 문장과 attribute 를 사용할 수 있다는 점에 있어서, 기존 논문들과 크게 성능 차이가 나는 것 같습니다. 어떻게 이런 결과를 만들어 낼 수 있었는지 확인해야 합니다.
기존에 distanglement 를 기반으로 학습하던 unsupervised style transfer 방식에 대해 의문을 제기합니다.
multi-attribute style transfer 문제를 풀고자 합니다.
Method
LSTM 기반의 Encoder, Decoder 를 만들어서 Denoising Auto Encoder 구조를 사용합니다.
Denoising 하는 대상은, input text 에서 해당 style 과 관련된 단어들을 Masking 하여 사용합니다.
Decoding 시에는 latent variable 와 attribute embedding 의 평균값을 넣어 주서 style 이 반영된 text 를 decoding 하도록 지시합니다.
Experiment
Adversarial Loss 의 학습 비율을 늘렸을 때, 전체적인 성능이 떨어진다는 사실을 보여 주었습니다. 이를 통해서 일반적인 entangle 상태의 latent space 에서 학습을 진행한 성능이 더 좋다는 것을 간접적으로 보여 주었습니다.
결과를 보았을 때 기존의 방법들 보다 우수한 성능을 보여 주었습니다.
Contribution
기존에 distanglement 를 기반으로 학습하던 unsupervised style transfer에 대해 의문을 제기하고, 이에 대한 emperical 한 실험을 통해서 증명한 점이 인상적인 부분입니다. 다만 이 emperical 한 실험이 분명하고, 명확한 지에 대한 확신은 서지 않습니다. 특히 #15 에서 본 논문보다 높은 성능을 보여주는데, 이러한 관점에서 이 contribution 은 유효하지 않을 수 있습니다 (2018년도 리뷰 당시에는 유효했을 수 있습니다)
multi-attribute style transfer 를 굉장히 간단한 구조의 모델로 만들었다는 점이 인상적입니다.
Yelp 데이터셋을 multi-attribute 가능하도록 변형한 점 역시 여러 테스크들에게 도움이 되는 부분입니다.
다만, 모델적으로 보았을 때는 새로운 접근은 아닙니다. 때문에 이에 대한 novelty 는 부족하다고 생각합니다.
어떤 내용의 논문인가요? 👋
Abstract (요약) 🕵🏻♂️
The dominant approach to unsupervised "style transfer'' in text is based on the idea of learning a latent representation, which is independent of the attributes specifying its "style''. In this paper, we show that this condition is not necessary and is not always met in practice, even with domain adversarial training that explicitly aims at learning such disentangled representations. We thus propose a new model that controls several factors of variation in textual data where this condition on disentanglement is replaced with a simpler mechanism based on back-translation. Our method allows control over multiple attributes, like gender, sentiment, product type, etc., and a more fine-grained control on the trade-off between content preservation and change of style with a pooling operator in the latent space. Our experiments demonstrate that the fully entangled model produces better generations, even when tested on new and more challenging benchmarks comprising reviews with multiple sentences and multiple attributes.
이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔
레퍼런스의 URL을 알려주세요! 🔗
https://openreview.net/forum?id=H1g2NhC5KQ