howie6879 / liuli

一站式构建多源、干净、个性化的阅读环境(Build a multi-source, clean and personalized reading environment in one stop.)
https://liuli.io
Apache License 2.0
889 stars 108 forks source link

[Help Wanted!]更多的广告样本 #4

Open howie6879 opened 3 years ago

howie6879 commented 3 years ago

为了提升模型的识别准确率,我希望大家能尽力贡献一些广告样本,请看样本文件:.files/datasets/ads.csv,我设定格式如下:

title url is_process
广告文章标题 广告文章连接 0

字段说明:

来个实例:

2c_ads_csv_demo

一般广告会重复在多个公众号投放,填写的时候麻烦查一下是否存在此条记录,真的真的希望大家能一起合力贡献,亲,来个PR贡献你的力量吧!

howie6879 commented 3 years ago

基于wechat-feeds项目,我对将近5500个公众号进行最近更新的文章进行爬取,差不多获取10万条样本数据。

接下来要做的就是从其中挑选广告文作为反面样本。

jasongwq commented 3 years ago

可以考虑在推送到微信或者钉钉的消息中加入广告反馈按钮,方便反馈广告样本

howie6879 commented 3 years ago

广告反馈按钮

这个不好实现啊,有回调开发给开发者么,你有什么思路?

jasongwq commented 3 years ago

钉钉推送markdown类型可以带link(不清楚微信是否支持),反馈广告 2c在推送消失时url和title已知,因此可以生成带该link的markdown类型消息 需要在互联网上部署服务接收该链接请求,去重后保存记录 当然建议在Readme中申明相关隐私政策,并允许用户通过config关闭该反馈按钮

jasongwq commented 3 years ago

[反馈广告](https://server/count?url=xxx&title=xxx)

howie6879 commented 3 years ago

反馈广告

钉钉这么说确实可行,可以考虑有没有公有的收集服务,比如问卷调查或者可开放的评论接口,如果能利用github最好,自己部署服务感觉不大好,还有个问题就是钉钉实际上并不一定是大部分人的首选,其他终端不一定这么开放。

jasongwq commented 3 years ago

这种方式都是GET请求,很少有服务开放GET的能力,但如果在github上放个静态页面,让用户点击链接后跳转到一个静态页面,再在静态页面上点击反馈,那可做的事情就很多了,甚至可以实现套娃,通过点击按钮向另一个公共的钉钉机器人推送数据,评论接口,搜集服务,都能实现,就是稍复杂了些。

其他终端不够开放的话还有一种就是推两次,一次推送信息,此次推送信息反馈链接,就是侵入性太强,对用户干扰太大,可以默认关闭,能接受的用户自己手动开启。

howie6879 commented 3 years ago

@jasongwq 总之这个建议是不错的,我们可以先实现钉钉的反馈,其他的再考虑,因为钉钉的配置难度很低,大不了钉钉主要用于广告反馈。