kyzhouhzau / BERT-NER

Use Google's BERT for named entity recognition (CoNLL-2003 as the dataset).
MIT License
1.24k stars 335 forks source link

生物专业领域的实体提取 #72

Closed zwd13122889 closed 4 years ago

zwd13122889 commented 4 years ago

您好,能不能用在生物领域的命名实体提取?

zwd13122889 commented 4 years ago

还有一个问题,就是说,我能不能不像它这么标注。我只标注我感兴趣的内容。比如: T2 sample_type 0 31 Crude-oil-contaminated seawater T3 Enrichment_culture_temperature 192 197 30 uC T4 Enrichment_culture_duration 202 208 a week T5 Nomenclature_type 217 224 CL-SS4T T6 Procedure_origin 229 262 isolated by streaking on fresh MA 其中,我只关注实体类型和实体名称,并附加出现的位置。 如上所示,第一列没啥意义(序号),第二列是实体类型, 第三列的数字是起始位置和终止位置,最后一列是实体。 像我这样的格式可以使用这个模型吗?

Nicozwy commented 4 years ago

理论上是可以的,你有相关的标注数据吗?

zwd13122889 commented 4 years ago

我有70类的标注类型,这个模型好跑吗

Nicozwy commented 4 years ago

@zwd13122889 需要对数据进行预处理,这里第三列的起始位置和终止位置是指某个特定实体的起止吗

zwd13122889 commented 4 years ago

对的,这个问题我搞定了。我想问下这个BERT_NER.py中,使用到的模型是什么