Open wangqiangneu opened 4 years ago
做domain adaptation,主要的动机是以往的domain adaptation往往都是one-pass的,比如在out-domain上训练,然后在in-domain上finetune。这种one-pass的方式transformer knowledge不够充分,文章的做法基本思想就是要iterative的进行双向distillation。这里强调的是,除了in-domain从out-domain学之外,out-domain的模型也要从in-domain中学习。所以是一种双向学习的过程。
proxy distance
简介
做domain adaptation,主要的动机是以往的domain adaptation往往都是one-pass的,比如在out-domain上训练,然后在in-domain上finetune。这种one-pass的方式transformer knowledge不够充分,文章的做法基本思想就是要iterative的进行双向distillation。这里强调的是,除了in-domain从out-domain学之外,out-domain的模型也要从in-domain中学习。所以是一种双向学习的过程。
proxy distance
,即linear bag-of-word的SVM分类器的泛化误差)。transfer的时候,先让与in-domain最不相似的out-domain学习,最后才是与in-domain最相似的out-domain学习。也就是说这里有一个transfer order的问题。动机是,越早transfer,模型越容易忘掉这些Knowledge。可以理解成“把最想吃的东西留到最后吃才香”,哈哈论文信息
总结