Open a396198172 opened 4 years ago
请问目前为止,fusion_rep的实现方式[rep_CLS, rep_a, rep_b, rep_a-rep_b, rep_b-rep_a]和[rep_CLS, dense([rep_a, rep_b)],还是第一个的效果最好吗?还是说尝试出了更好的实现方式,所以改成第二种了?
从理论分析看,第二种会好一些,因为dense所能表达的信息量比简单的fusion trick 要好 从指标看,提升细微,反而dense引入额外的参数量对inference 速度有所牺牲,所以综合考虑,在上线时依然用的第一种
请问目前为止,fusion_rep的实现方式[rep_CLS, rep_a, rep_b, rep_a-rep_b, rep_b-rep_a]和[rep_CLS, dense([rep_a, rep_b)],还是第一个的效果最好吗?还是说尝试出了更好的实现方式,所以改成第二种了?