linwhitehat / ET-BERT

The repository of ET-BERT, a network traffic classification model on encrypted traffic. The work has been accepted as The Web Conference (WWW) 2022 accepted paper.
MIT License
384 stars 81 forks source link

有关数据清洗和数据预处理的问题 #56

Closed MiloGame closed 1 year ago

MiloGame commented 1 year ago

image 作者大大您好,我正在试图从零开始复现您的工作,采用的数据集是您论文中提到的ISCX-Tor-2016的数据集,pacp总大小为21G,按照您写的md里的操作说明,我只对存放的相关路径进行了修改,并且运行了datase_generation.py进行pcap的分割和获取burst信息,如上图所示,该程序目前已经连续运行9小时,目前一直在get_burst_feature(),请问这样的处理速度是正常的吗?谢谢 image b补充说明,我看卡住的文件大小为2.26G,用wireshark打开确实均为两个ip之间的通讯,卡住的部分是作者大大调用的flowcontainer里的extract()函数,extract()函数调用的reader部分,请问作者大大是如何处理这种情况的呢?在您论文里的这个数据集预处理是否和我的结果一致呢?恳请作者大大指点迷津,非常感谢

linwhitehat commented 1 year ago

image 作者大大您好,我正在试图从零开始复现您的工作,采用的数据集是您论文中提到的ISCX-Tor-2016的数据集,pacp总大小为21G,按照您写的md里的操作说明,我只对存放的相关路径进行了修改,并且运行了datase_generation.py进行pcap的分割和获取burst信息,如上图所示,该程序目前已经连续运行9小时,目前一直在get_burst_feature(),请问这样的处理速度是正常的吗?谢谢 image b补充说明,我看卡住的文件大小为2.26G,用wireshark打开确实均为两个ip之间的通讯,卡住的部分是作者大大调用的flowcontainer里的extract()函数,extract()函数调用的reader部分,请问作者大大是如何处理这种情况的呢?在您论文里的这个数据集预处理是否和我的结果一致呢?恳请作者大大指点迷津,非常感谢

这个可能是flowcontainer版本变化原因,可以降低版本尝试,或者到工具(https://github.com/jmhIcoding/flowcontainer)官方地址询问

MiloGame commented 1 year ago

好的非常感谢

mob2125 commented 1 month ago

Hi, can you please help us here, we are still facing the same problem of high wait time in the get_burst_feature, the problem that you mentioned

你好,你能帮我们吗?我们仍然面临着 get_burst_feature 中等待时间过长的问题,也就是你提到的问题