AtmaHou / FewShotTagging

Code for ACL2020 paper: Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network
153 stars 29 forks source link

关于数据格式 #8

Closed BillKiller closed 4 years ago

BillKiller commented 4 years ago

我想问一下,数据集格式是怎么安排的, 为什么每一个batch都有support set而且还是同一个domain的。不是每一个train_set 才对应一个support set吗?

AtmaHou commented 4 years ago

关于数据格式: (1)这样设置的原因是我们采用了Meta Learning的few-shot学习范式(关于为什么&怎么做,您看一下CVPR 2020 Few-shot Toturial 中 Meta Learning Paradigm一节就清楚了:链接) (2)我们这里每一个batch对应上面链接slides中的一个learning episode,每个episode是一个独立的任务,有自己独立的support set和query set,而Meta Training 过程包括多个这样的episode。 (3)训练集怎么构造其实关系不大,您做性能比较的时候只要保证测试集相同即可~~

BillKiller commented 4 years ago

我想问一下如果support set的数量和query set 数量不对称怎么办,这样有一些episode可能就没有support set 或者 query set了

AtmaHou commented 4 years ago

我想问一下如果support set的数量和query set 数量不对称怎么办,这样有一些episode可能就没有support set 或者 query set了

谢谢你的提问~~~

简单的回答是:不会出现这种情况

原因是这样:用meta episode 风格划分数据的思想是让model在大量的few-shot task上学习,从而避免过拟合到某一个具体的task上。。

训练数据中,每一个episode对应一个task。每一个task同常见的ML任务一样,包含训练集(support set)和测试集(query set)。一个完整的任务必须有support set和query set,所以他们必须是成对构造的~