[TOC]
钓鱼网站的检测问题可以看做是一个二分类的问题,因此可以基于机器学习的流程和方法来做分类
基于数据的大量统计以及综合已有的方法提取29维特征,之后使用SVM模型来训练和测试
基于url的特征设计的轻量级的分类模型,同样是基于SVM分类模型
实验采用的方法是结合两个分类模型的结果综合决策最终页面的所属类别
由于爬取得到的html文件较大不易上传就不提供数据了 ,url的数据可以在我的malicious_web_page_detection_based_on_url里面找到,数据是可以通用的,在malicious_web_page_detection_based_on_url里面着重是使用sklearn中的机器学习模型来测试,而这个工作主要是集中在特征工程方面,这样合在一起就是一个完整的机器学习实践的流程了。