Open mylamour opened 7 years ago
temp.mark
怎么生成webshell by ml 看似正常的webshell
变迁:
ssdeep/tlsh的hash方式,无法对较小的文件产生有意义的值,也就意味着无法检测一句话木马,以及一些图片马。yara的依赖于规则,规则的质量好坏决定了检测效果的好坏。无法检测未知,有限的检测一些变种。
ssdeep/tlsh 只占用一个cpu, yara会占用所有cpu,内存暴涨。可通过外部措施限制
yara的输出,对命中结果是多条输出,解析终端输出合并得到一个文件的检测结果时,如果此时恰好不是顺序连续输出的,则解析结果不全。
yarac编译后的Yar规则文件本身也可能被Widows认为是病毒文件
yara本身针对有些文件会出现无法读取的问题
应该覆盖样本全面,单独采用某种cms作为训练样本,会导致测试有偏差。单独采用wordpress训练的结果对discuzx,phpmyadmin的检测结果并不友好。
build vocab的时候,可能多次的结果并不一样
fasttext 依赖于更多的数据,才能构建出一个很好的词向量
采用一句话木马进行训练的时候,实验效果很好,实际测试很差,原因因为,有效词太少。应当把所有数据一同训练生成较大的sequence, 并以此进行训练
图像识别处理的结果,应当在最后无法判断,时渲染webshell再进行检测得到结果
训练好后的模型往往很大,不适宜带到客户端。只带weights倒可以,但是客户端还要安装相应环境,不方便。
好的参数具有很好的效果,算法让人很头秃
准确度较高,未知威胁感知具有较好的准确率,对变种的检测较好, 可以检测ssdeep无法检测的一句话,yara没有的规则
[ ] 可以通过yara对已知webshell进行检测,并根据输出标签制作训练数据集
[ ] 准备尝试seq2seq ,lstm,sru等分类方式对webshell进行预测 ,
[x] 聚类对已知webshell分类。
整理下webshell的种类划分,主要来自骑着蜗牛逛世界的博客,整理了一下,并绘成了脑图。
最初是cdxy在兜哥的安全和机器学习群开始发他做的那个检测webshell的东西,再之后在会上的PPT。今日偶然在电脑里,发现,上传于此。 从数据视角探索安全威胁_cdxy.pdf
综述
实体
方法
Webshell 检测篇
Malware 检测篇
APT 检测篇 与 通用检测框架
聚合waf数据,web日志,交换机日志,IDS日志等等,以及一些设备信息应该是可以发现APT攻击的,APT攻击不易发现甚至不能发现,不意味着我们什么都不能做,攻击手段也不一定是高的什么都做不了。如果能够布置大规模的蜜罐网络,进行伪装,并有效的收集设备信息,聚合起来通过不同手段进行检测。或许也未可知。但是由于本身我没有这方面资源,就不扯淡了。