Open be-a-human opened 8 years ago
非常棒的工作!
我们需要讨论一下,然后给你答复。
好的。评分标准可以忽略,这个是不同使用者可以自己去定。主要是数据采集方面,如果大家可以共用一份数据的话,那数据维护起来就更容易了。
@be-a-human 我已经把你的数据,与我们的现有数据合并在一个sqlite里面了,但是具体如何展现,还在考虑。
大家应用场景不同展现方式不同。
我的问题简单来说就两个:
1、后期数据收集更新是否包括收集医院网站(看之前的信息是以名称和新闻报道为主)。 2、如收集医院网站是否收集备案信息,以及网站主体的不良记录(如失信被执行人信息)。
@be-a-human
我想做什么?
我是 Chromium 系浏览器扩展开发者之一,前段时间发现有这么一个莆田系医院信息的项目,这是一个很棒的项目。因为我有接触过百度推广(接触的是一个一年在百度推广充值900多万的医院的SEO团队,和一个一个月就能充值30万的卖风水饰物的“风水大师”),知道里面的水很深,对百度给钱就能上的婊子行为深恶痛绝,但是我从来没有想过还可以这样做,所以我发现了你们的这个项目之后非常希望可以使用这个项目的数据来帮助提升用户体验。
我遇到的问题
但是我下载了数据文件后发现医院数量过少,医院信息过于简陋,我需要用的网站信息更少,不能满足浏览器扩展自动化作业。而且我发现你们关于医院网站的认证流程有很大的改进空间。
我的解决方案
因为我要做的是在用户访问医院网站时提示用户可能存在的风险,所以我要做的大概是这么几步:
第一步:获取医院列表
我总结的快速收集医院的方法有以下几种:
第二步:获取医院基本信息
这一步主要就是获取医院真正的名称和医院的机构类型(我主要用来判断是公立的还是民营,有需要的可以收集负责人等信息):
第三步:获取医院网站
第四步:建立评分
我的评分标准
由于我要做的功能是在用户访问时就就医风险进行提示而不是莆田系医院风险提示,而医院网站数万个,而且莆田系的网站每天都在增长(连医院数量都在快速增长),而我这个功能不是主营项目,我也没有调查团队去确认网上的医院的负面新闻到底是真实事件还是医闹,再或者是竞争对手的软文,所以我采用如下评分标准。
总分为5分,警戒线为3分,严重警告为2分,黑名单是0分。处于警戒线时弹窗提示并显示原因(不主动展示负面记录),存在严重警告或黑名单时拦截访问并显示原因及负面记录。
初始分5分满分,以下是加减分标准:
注:当网站无备案服务器无记录时判断一个网站是不是医院网站是依据首页标题及网页内容。
我的第一份数据
以下是我第一次操作的步骤以及采集到的部分数据,分享给大家。这份数据只收集了百度信誉认证信息和网站信息,没有收集详细的工商信息(因为目前只找到收费API),需要企业工商信息的需要自行查询。
有信誉档案的数据
数据分两部分,一部分是有信誉档案,这部分数据共有3699个医院或企业主体和13973个网站。其中可能有参杂了少数美容公司,要判断的可以自行加个判断。
以下是数据格式:
无信誉档案有官网认证的数据
这部分共有271个网站。
数据下载
不知道为什么上传不到 github ,所以我上传到七牛云存储了。 点击下载
建议和反馈
以上就是我的需求以及我的解决思路和第一次操作。
如果这个项目可以采用我的思路的话那就真是极好的,这样我以后就可以用你们的数据。如果说这和你们要做的东西不一样,那我会自己建一个项目。
希望能帮到大家,如果大家有什么好的建议也欢迎回复。
代码如诗
最后我想说的是,我用的 PHP 几乎不存在异步的概念,如果有其他语言的猿们能助我一臂之力写一个多线程的后台查询流程那就真是极好的了!(能提供负责异步处理的服务器更好,我也不介意和你分享数据)