ANLP-2017-単語分かち書き辞書 mecab-ipadic-NEologd の実装と情報検索における効果的な使用方法の検討

Summary:

这篇文章主要介绍实现mecab-ipadic-NEologd过程中学到的经验

Resource:

pdf
[code](
[paper-with-code](

Paper information:

Author:
Dataset:
keywords:

Notes:

2 mecab-ipadic-NEologd の実装

2.1 システムによるWeb上からの語彙収集

从web上收集语料，并以自动或半自动的方式添加4个要素：

2.2 単語分かち書き用辞書の生成

mecab-ipadic-NEologd的目的是尽量以较长的匹配结果为优。在实际使用的过程中，出现了下面4个课题。

2.2.1 コーパスを使わない単語生成コストの調整

XU：这部分用不到

在生成mecab-ipadic-NEologd的时候，考虑到有效性，开发速度，维护难度，对于没有标注的corpus的単語生成コスト进行了调整。具体的代码在第3页。调整4组list中单词生成cost的函数是 GET-TUNED-CSV-FILE，4-11行的部分，根据POS的不同，单词生成cost也不一样。cost是否正确由GET-BOUNDARY-NUM来判断。

2.2.2 採録すべき言葉のタイプと更新頻度

XU：这部分可以参考，我的内容属于定期更新。比如更新组织名的更新频率是一个月一次，这个是最简单的。而差分数据包含了每一天的内容，这部分内容能更详细记录公司的变动情况，只不过这对于生成公司名来说没有什么必要，所以暂时并不考虑收集差分数据。（但是如果要建KG的话，就需要考虑这些变动的部分了）.

有些type的词语是优先考虑的

2.2.3 基礎語彙辞書が原因であるエラーの解消

XU：不用参考

2.2.4 自動獲得した新語からの人名の検出

XU：不用参考

3 情報検索における有効性の考察

mecab-ipadic-NEologd当前的词语量有550万。有効性已经在之前的论文 #293 里进行了验证。与UniDic的对比也主要集中在抽取出的文子串是否比较长。这里涉及到了N-Best解。

Model Graph:

Result:：

Thoughts:

Next Reading:

BrambleXu / knowledge-graph-learning

ANLP-2017-単語分かち書き辞書 mecab-ipadic-NEologd の実装と情報検索における効果的な使用方法の検討 #294