thunlp / OpenHowNet

Core Data of HowNet and OpenHowNet Python API
https://openhownet.thunlp.org/
MIT License
608 stars 89 forks source link

使用OpenHowNet对动词进行分类 #14

Closed jiaziberry closed 4 years ago

jiaziberry commented 4 years ago

各位老师好!

我的研究课题是汉语及中介语里介词“对”和“向”及其搭配的动词的使用情况。目前,我已经将动词从语料库中提取出来了,每个语料库提取出有效动词的数量大概有在3、4千左右。接下来,我希望可以做到的是把动词按照语义和功能分类。

虽然这些动词的数量并不多,我本可以人工进行分类,可是我想让自己的研究少一些人为的主观干涉,并建立在更科学的研究方法上。因此,我想使用OpenHowNet动词数据集来对动词按照语义来分类。

从目前我在Python里运行的情况来看,我只学会了怎么将两个词进行对比。我想请教的是如何把我的几个动词在OpenHowNet里一次性分类呢?

我对NLP的基础基本是零,如果我问了一个非常愚蠢的问题还请不要笑话我。

十分感谢!

此外,好像现在知网(HowNet)核心数据的下载链接是无效的。

Fanchao-Qi commented 4 years ago

你好,动词的分类是一个复杂的语言学问题,就HowNet义原词典而言,仅仅是为所有的词(包括动词)标注了义原,但是本身没有对动词进行一个系统地分类。当然,一种可行的办法是利用HowNet对动词的第一个义原(所谓类别义原或者主义原)来进行分类,即具有相同类别义原的动词属于一类——可以假设这些动词具有大致相同的语义。但是这种分类办法可能不一定有语言学的理论所支持。

请问你指的核心数据下载链接无效是哪个链接呢?核心数据就上传在当前repo里,即./HowNet_Dict.zip这个文件。

jiaziberry commented 4 years ago

岂老师, 非常感谢您的帮助。我会根据您的建议试一下。

关于下载问题,我之前是通过 https://openhownet.thunlp.org/download 知网(HowNet)核心数据申请下载的,没有成功。现在在Pycharm里通过pip安装下载成功了。

再次感谢,祝研安!