BrambleXu / knowledge-graph-learning

A curated list of awesome knowledge graph tutorials, projects and communities.
MIT License
735 stars 120 forks source link

ANLP-2017-単語分かち書き辞書 mecab-ipadic-NEologd の実装と情報検索における効果的な使用方法の検討 #294

Open BrambleXu opened 4 years ago

BrambleXu commented 4 years ago

Summary:

这篇文章主要介绍实现mecab-ipadic-NEologd过程中学到的经验

Resource:

Paper information:

Notes:

2 mecab-ipadic-NEologd の実装

2.1 システムによるWeb上からの語彙収集

从web上收集语料,并以自动或半自动的方式添加4个要素:

image

2.2 単語分かち書き用辞書の生成

mecab-ipadic-NEologd的目的是尽量以较长的匹配结果为优。在实际使用的过程中,出现了下面4个课题。

2.2.1 コーパスを使わない単語生成コストの調整

XU:这部分用不到

在生成mecab-ipadic-NEologd的时候,考虑到有效性,开发速度,维护难度,对于没有标注的corpus的 単語生成コスト进行了调整。具体的代码在第3页。调整4组list中单词生成cost的函数是 GET-TUNED-CSV-FILE,4-11行的部分,根据POS的不同,单词生成cost也不一样。cost是否正确由GET-BOUNDARY-NUM来判断。

2.2.2 採録すべき言葉のタイプと更新頻度

XU:这部分可以参考,我的内容属于定期更新。比如更新组织名的更新频率是一个月一次,这个是最简单的。而差分数据包含了每一天的内容,这部分内容能更详细记录公司的变动情况,只不过这对于生成公司名来说没有什么必要,所以暂时并不考虑收集差分数据。(但是如果要建KG的话,就需要考虑这些变动的部分了).

有些type的词语是优先考虑的

image

image

image

2.2.3 基礎語彙辞書が原因であるエラーの解消

XU:不用参考

2.2.4 自動獲得した新語からの人名の検出

XU:不用参考

3 情報検索における有効性の考察

mecab-ipadic-NEologd当前的词语量有550万。有効性已经在之前的论文 #293 里进行了验证。 与UniDic的对比也主要集中在抽取出的文子串是否比较长。这里涉及到了N-Best解

Model Graph:

Result:

Thoughts:

Next Reading: