源域学习 - Githubissues

tianguaner commented 2 years ago

请问源域学习到的表征如何迁移到目标域上来

zhanghaok commented 2 years ago

请问源域学习到的表征如何迁移到目标域上来

我也有这个疑问，请问你解决了吗？

TianWuYuJiangHenShou commented 2 years ago

paper里面写了，训练推理的Pipelines基本是：现在source dataset pretrain,然后再以pretrain的模型作为base model，去finetune target dataset。finetune的过程应该就是source dataset 的表征迁移到target dataset的过程。

两个域的标签语义越接近，迁移效果越好。可以参考代码中finetune部分的说明

@zhanghaok @tianguaner

QiusongYang commented 2 years ago

@TianWuYuJiangHenShou "现在source dataset pretrain,然后再以pretrain的模型作为base model"这句话意思先在数据集做MLM预训练吗？“source dataset” 和 “traget dataset”一般分别代表什么数据？以NER数据为例

BCWang93 commented 2 years ago

paper里面写了，训练推理的Pipelines基本是：现在source dataset pretrain,然后再以pretrain的模型作为base model，去finetune target dataset。finetune的过程应该就是source dataset 的表征迁移到target dataset的过程。

两个域的标签语义越接近，迁移效果越好。可以参考代码中finetune部分的说明

@zhanghaok @tianguaner

@TianWuYuJiangHenShou ,你好咨询你个数据集划分的问题。就是在划分训练、开发和测试集的时候，你是按照什么划分的呀。如果按照正常的划分策略，会不会出现数据泄漏的情况？比如出现在训练集中的实体，在开发集或者测试集也出现过，由于这种方法是针对token和label计算相似度，会不会出现这种数据泄漏的情况。那划分数据集的时候是不是需要根据实体名字进行划分？

TianWuYuJiangHenShou / LabelSemantics

源域学习 #2