Open LGW2YT777 opened 1 week ago
(1) l1 = - torch.mean(torch.sum(q1 * F.log_softmax(zc2 / self.tau, dim=1), dim=1)) l2 = - torch.mean(torch.sum(q2 * F.log_softmax(zc1 / self.tau, dim=1), dim=1)) ,请问:按照论文中的意思难道不是只算l2就行了吗? 为什么代码中还算了l1(生成的表征质量更高,用其聚类结果作为标签,指导原始表征的学习)
(2)请问:pooler类中的实现方法是否与论文中有区别,感觉不太一样
(2)请问:pooler类中的实现方法是否与论文中有区别,感觉不太一样