sibbay-ai / public

【小白健康】众和社区
85 stars 16 forks source link

医学症状爬虫处理 #6

Closed georgeliuyu closed 6 years ago

georgeliuyu commented 6 years ago

1、数据源

结构 image 数据文件: sym_about.xlsx

2、处理过程

2.1、查找snomed id

用文件中的title文字,查询http://browser.ihtsdotools.org/?perspective=full&conceptId1=404684003&edition=en-edition&release=v20170731&server=http://browser.ihtsdotools.org/api/v1/snomed&langRefset=900000000000509007 这是:Eye pain查询例子 image

2.1.1、确保查询结果的与title的文字完全一样(大小写无关) 2.1.2、必须是finding 2.1.3、这种查询结果一定是唯一值 2.1.4、将SCTID的值填入到excel的sctid字段 2.1.5、将后面的文字保存到fns 查不到就不填

2.2、翻译

将title和about翻译成中文并分别填入ctitle和cabout 使用:https://translate.google.cn

本需求采用icp的方式进行,有兴趣参与的请在下面提交工作量(1D=8小时) 和 截止时间。

cyssxt commented 6 years ago

刘总,你好,我预计要3D,11月25日提交excel数据。

wb14123 commented 6 years ago

我预计需要 2D,11月24号提交结果

georgeliuyu commented 6 years ago

需求描述根据 @cyssxt 的分析进行了修改。@cyssxt 请将复数的问题描述添加到这里。

georgeliuyu commented 6 years ago

@wb14123 现在社区空了吗?

wb14123 commented 6 years ago

@georgeliuyu 等着前端联调反馈问题

georgeliuyu commented 6 years ago

@wb14123 @cyssxt 首先谢谢二位对小白的支持,但如何做icp的贡献者确定没有规则,我建一个issue https://github.com/sibbay-ai/public/issues/7 希望你们能发表一下意见。 不管如何明天12点前会给出结论。

georgeliuyu commented 6 years ago

出于让更多新同学加入到小白社区的原因,决定将这个需求交给 @cyssxt 进行实施。 @wb14123 因为你的积极参与使得小白社区能更快速的成长,谢谢!

georgeliuyu commented 6 years ago

具体开发工作量,你做完后做一次review。@cyssxt @ben7th 你看看如何管理?如何建milestone?,这个可以用公开的项目。

cyssxt commented 6 years ago

@georgeliuyu 针对复数的问题,需要先全词匹配下,如果没有匹配的记录可以尝试去掉末尾的s或者es进行再次查询。

georgeliuyu commented 6 years ago

@cyssxt 可以

ben7th commented 6 years ago

@georgeliuyu @cyssxt 指定一个项目名,创建公开项目,在这个项目里面建 milestone 就可以。其他没什么区别。

cyssxt commented 6 years ago

@ben7th Ok

cyssxt commented 6 years ago

@georgeliuyu @ben7th 貌似没有权限取创建milestone和项目

georgeliuyu commented 6 years ago

@ben7th 对于public的项目如何操作,@cyssxt 我先建个repo

georgeliuyu commented 6 years ago

@cyssxt https://github.com/sibbay-ai/data-sym-scrapy 你先按照标准的开源方式fork clone pr

cyssxt commented 6 years ago

@georgeliuyu ok 编码工作都已经完成了,并且翻译的工作excel也生成好了,但是现在存在的问题就是http://browser.ihtsdotools.org/?perspective=full&conceptId1=404684003&edition=en-edition&release=v20170731&server=http://browser.ihtsdotools.org/api/v1/snomed&langRefset=900000000000509007这个网址爬取次数过多后会ip会被封,封过之后隔天能继续访问。我先提交代码

cyssxt commented 6 years ago

@georgeliuyu 没有权限去提交代码

fushang318 commented 6 years ago

@cyssxt 抱歉,才注意到空版本库没办法fork ,我已经给版本库增加了一个 README ,这样就可以fork 了 https://github.com/sibbay-ai/data-sym-scrapy

georgeliuyu commented 6 years ago

@cyssxt 你是否应该有一个使用ip代理的框架。原来我们做的都有这个功能 @fushang318 谢谢,是我没有注意到

cyssxt commented 6 years ago

@georgeliuyu ip代理这个需要稳定的代理池,我用过快代理,但是明显性价比不高!这个问题我也已经解决了,就是每次执行50次请求,批量请求完睡眠50s,每次请求间隔1s就能,就能防止ip被封

cyssxt commented 6 years ago

实际工作量2d

fushang318 commented 6 years ago

@georgeliuyu 麻烦你验收一下呗

georgeliuyu commented 6 years ago

@fushang318 我现在不方便。如果可能,你可以帮我验收一下。

georgeliuyu commented 6 years ago

@cyssxt 没有收到你的pr,另外请pr的时候请指定解决的issue

georgeliuyu commented 6 years ago

@cyssxt 微信沟通实际工作量是2.5D,就按2.5计。

georgeliuyu commented 6 years ago

@cyssxt 你的pr要引用这个issue

sinchb commented 6 years ago

@cyssxt PR引用这个issue,并assign给 @sinchb 和 @fushang318

fushang318 commented 6 years ago

@cyssxt 我看到你提交的 PR 了 https://github.com/sibbay-ai/data-sym-scrapy/pull/2 按照规则,需要你在 PR 中 引用这个 ISSUE 的链接,并 assign给 @georgeliuyu @sinchb @fushang318

cyssxt commented 6 years ago

现在不能assign

fushang318 commented 6 years ago

@cyssxt ,额,明白了,这个权限问题还真不清楚,我来assign吧

ben7th commented 6 years ago

@sinchb 这个是否可以关闭了

sinchb commented 6 years ago

pr未通过,此issue可以关闭 @ben7th