linwhitehat / ET-BERT

The repository of ET-BERT, a network traffic classification model on encrypted traffic. The work has been accepted as The Web Conference (WWW) 2022 accepted paper.
MIT License
384 stars 81 forks source link

关于预训练和微调部分数据集来源一致的问题 #57

Closed MiloGame closed 10 months ago

MiloGame commented 1 year ago

作者大大您好,我根据您写的数据预处理部分的Readme来看,好像预处理和微调的数据都是从同一组原始pcap文件产生的,那么既然微调的验证集部分已经在预处理部分就已经输入过模型了,这种操作会不会类似于在验证集上调参的操作呢?请作者大大麻烦解答一下,非常感谢!

linwhitehat commented 1 year ago

作者大大您好,我根据您写的数据预处理部分的Readme来看,好像预处理和微调的数据都是从同一组原始pcap文件产生的,那么既然微调的验证集部分已经在预处理部分就已经输入过模型了,这种操作会不会类似于在验证集上调参的操作呢?请作者大大麻烦解答一下,非常感谢!

微调可以理解为监督学习过程,而你提到的预处理也是用于微调训练使用的数据,而预训练训练的数据则不需要保持一致。