WeChatOA_Aggregation
微信公众号聚合平台,获取多个公众号的博文进行筛选、过滤,使用户更方便的读取公众号上的所有文章
关于token和cookie
进入微信公众平台,扫码登录后在网页地址栏最后面就可以看到token=xxxxxxxxx
,
此时按F12点Network监控网络请求,选中Fetch/XHR,刷新一下网页,随便点击一个请求就可以找到Cookie字段
目前支持token或cookie自动过期时,会自动打开浏览器,弹出公众号页面,用户扫码登录后自动获取token和cookie
TODO
- [x] 根据标题筛选可能相似博文,再获取具体内容计算重复率去重,去除大量转载文章
- [ ] 使用向量编码模型对文章编码,去除重复文章,防止出现标题不同文章相同的问题
- [x] 使用minhash+LSH算法对文章编码,去除重复文章
- 0.9阈值找到的528篇文章,检测准确率100%,召回率待测
- [x] 定期爬取,每天早上8:00爬。爬取当前早上6:00到昨天早上6:00的
- 需要架设服务器,当前支持终端运行
daily_update.sh
文件获取最新文章,我直接上传到hexo博客上,可根据自己需求更改sh文件
- [x] cookie和token过期自动模拟登陆获取
- [x] 已读取的文章定期检测是否博文已删除
- [x] 爬取次数限制,记录最新爬取时间,若一天内爬取过跳过,反复执行直到爬取完成
- [x] github pages搭建个人博客,将公众号聚合平台部署上去(简易版):https://zejuncao.github.io/
- [ ] 增加搜索功能,关键词粗召回,再向量重排
- [ ] 去除广告等无用博文
- [ ] 请求频率限制时,切换代理ip
- [ ] 优化hexo网页显示或自己搭建一个博客
minHash实验记录
- 在 4005 条博文的测试集下做的实验记录
- 其中 minhash_0.9 代表 MinHashLSH 的阈值设置为 0.9
方法 |
检测重复个数 |
错误个数 |
minhash_0.9 |
528 |
0 |
minhash_0.8 |
699 |
24 |
minhash_0.8+规则0.7 |
665 |
1 (文字很少,主体为图片) |
类似项目参考