thunlp / OpenHowNet

Core Data of HowNet and OpenHowNet Python API
https://openhownet.thunlp.org/
MIT License
608 stars 89 forks source link

有大量数据重复 #15

Closed liuhuanyong closed 2 years ago

liuhuanyong commented 3 years ago

需要对数据进行清洗,输出数据重复了四次。

hownet_dict.visualize_sememe_trees("爱情", K=10) Find 4 result(s) Display #0 sememe tree [sense]爱情 └── [None]emotion|情感 └── [CoEvent]BeInLove|恋爱 Display #1 sememe tree [sense]爱情 └── [None]emotion|情感 └── [CoEvent]BeInLove|恋爱 Display #2 sememe tree [sense]爱情 └── [None]emotion|情感 └── [CoEvent]BeInLove|恋爱 Display #3 sememe tree [sense]爱情 └── [None]emotion|情感 └── [CoEvent]BeInLove|恋爱

Fanchao-Qi commented 3 years ago

你好,谢谢指出。这是由于原始HowNet词典数据中存在中文词语相同、义原标注相同但英文词语不同的多个词条所致。因此在通过中文查询时可能会出现多个义原标注相同的结果。 我们后续会解决此问题。

lvcc2018 commented 2 years ago

您好,新版OpenHowNet已经发布,在更新的API中将Sememe、Sense等进行了封装,同时使用中英文以及id等进行Sense实例的描述,防止中文或者英文单独出现时导致的重复、表达不清的问题。