一点疑问 - Githubissues

Shark-NLP / CoNT

[NeurIPS'22 Spotlight] Data and code for our paper CoNT: Contrastive Neural Text Generation

https://arxiv.org/pdf/2205.14690.pdf

150 stars 15 forks source link

Closed MeWannaSleep closed 1 year ago

MeWannaSleep commented 1 year ago

我看到代码里有

def form_ngram(self, input_tensor, n=2)  
def torch_bleu(self, ref_tensor, sys_tensor, pad_id, n_gram=2):

这俩个函数来计算bleu score.请问为什么不使用nltk这种可以计算bleu的三方库而选择自己实现呢?请问下主要的考量是什么?

ChenxinAn-fdu commented 1 year ago

你好，如果你训练的时候batch size很小可以用nltk 来实现但对一些MT数据集 batch > 100 如果不用GPU算相似度而使用类似于NLTK的库将会显著增加训练时间，我们的代码实现是利用torch算的可以充分利用batch维度并行，速度很快。

MeWannaSleep commented 1 year ago

好的,感谢回复