linwhitehat / ET-BERT

The repository of ET-BERT, a network traffic classification model on encrypted traffic. The work has been accepted as The Web Conference (WWW) 2022 accepted paper.
MIT License
384 stars 81 forks source link

关于实际Flow level和packet Level方法的比较问题 #51

Closed WBSLZF closed 1 year ago

WBSLZF commented 1 year ago

作者大大你好,我有一个问题,比如对于Deep Packet等等基于Packet Level的方法,在实际模型效果对比的时候,对于数据集进行Flow Level和Packet Level的切分,如果不进行统一标准(比如以恶意检测来说对于packet Level和Flow level一起的评估,如果一个Flow里面所所有的packet都是良性的才分成良性流量,而flow中只要有一个packet为恶意,这个flow才分成恶意),是不是有点不太公平呢(因为对于同一个数据集按照flow level和packet level切割,各个类别的数目比例可能差距很大,可能flow level比例是1:1,而packet level就是5:3这种)

linwhitehat commented 1 year ago

作者大大你好,我有一个问题,比如对于Deep Packet等等基于Packet Level的方法,在实际模型效果对比的时候,对于数据集进行Flow Level和Packet Level的切分,如果不进行统一标准(比如以恶意检测来说对于packet Level和Flow level一起的评估,如果一个Flow里面所所有的packet都是良性的才分成良性流量,而flow中只要有一个packet为恶意,这个flow才分成恶意),是不是有点不太公平呢(因为对于同一个数据集按照flow level和packet level切割,各个类别的数目比例可能差距很大,可能flow level比例是1:1,而packet level就是5:3这种)

我觉得你提的问题是可以去优化评价标准的,可以讨论。一方面flow和packet天然是存在规模差异的,根据需要选择数据模式,其次,这种公平性指标的目的是为了突出某一类的实际效果还是为了保障二者的结果是可同等比较的。