GanjinZero / awesome_Chinese_medical_NLP

中文医学NLP公开资源整理:术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/模型/论文/etc
2.15k stars 361 forks source link

有没有中文医疗的预训练模型,bert, xlnet etc.? #1

Closed crazyofapple closed 4 years ago

crazyofapple commented 4 years ago

企业开源的或者github开源的?英文有biobert

GanjinZero commented 4 years ago

目前没有公开的,我其实正在训练这个

crazyofapple commented 4 years ago

之前有万方或者一些书籍的语料,但是因为计算资源等原因,未能训练。希望您训练出来共享一下,最好开源。。。

GanjinZero commented 4 years ago

https://github.com/GanjinZero/ChineseEHRBert

crazyofapple commented 4 years ago

嗯嗯,不错。有开源模型的打算吗?

GanjinZero commented 4 years ago

目前没有,以后看数据提供方的意愿(毕竟涉及病例数据)

knowleton commented 4 years ago

能和您请教下这方面的数据在哪里获取吗 @GanjinZero

GanjinZero commented 4 years ago

能和您请教下这方面的数据在哪里获取吗 @GanjinZero

数据是和医院合作的,非公开数据

foreverwith commented 4 years ago

想请教一下您的ChineseEHRBert模型数据量大概是多少呢,以及数据来源(粗略的那种,病例数据多少,文献数据多少这种)方便告知吗,非常感谢 @GanjinZero

GanjinZero commented 4 years ago

想请教一下您的ChineseEHRBert模型数据量大概是多少呢,以及数据来源(粗略的那种,病例数据多少,文献数据多少这种)方便告知吗,非常感谢 @GanjinZero

100G+ 全部来自病例