关于数据格式 - Githubissues

AtmaHou / FewShotTagging

Code for ACL2020 paper: Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network

153 stars 29 forks source link

关于数据格式 #8

Closed BillKiller closed 4 years ago

BillKiller commented 4 years ago

我想问一下，数据集格式是怎么安排的，为什么每一个batch都有support set而且还是同一个domain的。不是每一个train_set 才对应一个support set吗？

AtmaHou commented 4 years ago

关于数据格式：（1）这样设置的原因是我们采用了Meta Learning的few-shot学习范式（关于为什么&怎么做，您看一下CVPR 2020 Few-shot Toturial 中 Meta Learning Paradigm一节就清楚了：链接）（2）我们这里每一个batch对应上面链接slides中的一个learning episode，每个episode是一个独立的任务，有自己独立的support set和query set，而Meta Training 过程包括多个这样的episode。（3）训练集怎么构造其实关系不大，您做性能比较的时候只要保证测试集相同即可~~

BillKiller commented 4 years ago

我想问一下如果support set的数量和query set 数量不对称怎么办，这样有一些episode可能就没有support set 或者 query set了

AtmaHou commented 4 years ago

我想问一下如果support set的数量和query set 数量不对称怎么办，这样有一些episode可能就没有support set 或者 query set了

谢谢你的提问~~~

简单的回答是：不会出现这种情况

原因是这样：用meta episode 风格划分数据的思想是让model在大量的few-shot task上学习，从而避免过拟合到某一个具体的task上。。

训练数据中，每一个episode对应一个task。每一个task同常见的ML任务一样，包含训练集（support set）和测试集（query set）。一个完整的任务必须有support set和query set，所以他们必须是成对构造的~