linwhitehat / ET-BERT

The repository of ET-BERT, a network traffic classification model on encrypted traffic. The work has been accepted as The Web Conference (WWW) 2022 accepted paper.
MIT License
385 stars 81 forks source link

有关从pcap生成tsv文件遇到的问题 #75

Open plfnico opened 9 months ago

plfnico commented 9 months ago

您好,我遵循您项目中./data_process/main.py,使用该文件将pcap转换成tsv文件时,得到的dataset.json文件中,有一些类别的sample并不能在您公开的tsv文件中找到,而另一些类别的sample则可以在公开的tsv文件中找到。由于我机器的内存限制,我在data_generation.generation时,修改了get_feature_packet中的for packet in packets,使其只访问前十个packet就返回,请问这可能会导致这一问题吗? 此外,我尝试用做了以上修改得到的tsv文件进行训练,但得到的sample只有大约四万个,远赶不上您公开的tsv文件中的约四十万个,同时这样训练出的模型准确率也极低,请问您对这一奇怪的问题有什么可能的解决思路吗,谢谢

plfnico commented 9 months ago

比如说我这里的label 26squarespace.com,在您的tsv中就能找到,label为92,但是25号的ampproject.org和0号的yy.com等生成的数据就在您的tsv中找不到

linwhitehat commented 2 months ago

你好,你指的是微调中的哪一个tsv文件,正常采样是会对所有类别进行采样的,建议可以减少类别的情况下调试是否仍存在类似问题。

cbryant0 commented 1 month ago

I:/SplitCap.exe在哪里获取这个exe程序?