The repository of ET-BERT, a network traffic classification model on encrypted traffic. The work has been accepted as The Web Conference (WWW) 2022 accepted paper.
您好,我遵循您项目中./data_process/main.py,使用该文件将pcap转换成tsv文件时,得到的dataset.json文件中,有一些类别的sample并不能在您公开的tsv文件中找到,而另一些类别的sample则可以在公开的tsv文件中找到。由于我机器的内存限制,我在data_generation.generation时,修改了get_feature_packet中的for packet in packets,使其只访问前十个packet就返回,请问这可能会导致这一问题吗?
此外,我尝试用做了以上修改得到的tsv文件进行训练,但得到的sample只有大约四万个,远赶不上您公开的tsv文件中的约四十万个,同时这样训练出的模型准确率也极低,请问您对这一奇怪的问题有什么可能的解决思路吗,谢谢
您好,我遵循您项目中./data_process/main.py,使用该文件将pcap转换成tsv文件时,得到的dataset.json文件中,有一些类别的sample并不能在您公开的tsv文件中找到,而另一些类别的sample则可以在公开的tsv文件中找到。由于我机器的内存限制,我在data_generation.generation时,修改了get_feature_packet中的for packet in packets,使其只访问前十个packet就返回,请问这可能会导致这一问题吗? 此外,我尝试用做了以上修改得到的tsv文件进行训练,但得到的sample只有大约四万个,远赶不上您公开的tsv文件中的约四十万个,同时这样训练出的模型准确率也极低,请问您对这一奇怪的问题有什么可能的解决思路吗,谢谢