Open BrambleXu opened 4 years ago
Summary:
这篇文章主要介绍实现mecab-ipadic-NEologd过程中学到的经验
Resource:
Paper information:
Notes:
2 mecab-ipadic-NEologd の実装
2.1 システムによるWeb上からの語彙収集
从web上收集语料,并以自动或半自动的方式添加4个要素:
2.2 単語分かち書き用辞書の生成
mecab-ipadic-NEologd的目的是尽量以较长的匹配结果为优。在实际使用的过程中,出现了下面4个课题。
2.2.1 コーパスを使わない単語生成コストの調整
XU:这部分用不到
在生成mecab-ipadic-NEologd的时候,考虑到有效性,开发速度,维护难度,对于没有标注的corpus的 単語生成コスト进行了调整。具体的代码在第3页。调整4组list中单词生成cost的函数是 GET-TUNED-CSV-FILE,4-11行的部分,根据POS的不同,单词生成cost也不一样。cost是否正确由GET-BOUNDARY-NUM来判断。
2.2.2 採録すべき言葉のタイプと更新頻度
XU:这部分可以参考,我的内容属于定期更新。比如更新组织名的更新频率是一个月一次,这个是最简单的。而差分数据包含了每一天的内容,这部分内容能更详细记录公司的变动情况,只不过这对于生成公司名来说没有什么必要,所以暂时并不考虑收集差分数据。(但是如果要建KG的话,就需要考虑这些变动的部分了).
有些type的词语是优先考虑的
2.2.3 基礎語彙辞書が原因であるエラーの解消
XU:不用参考
2.2.4 自動獲得した新語からの人名の検出
3 情報検索における有効性の考察
mecab-ipadic-NEologd当前的词语量有550万。有効性已经在之前的论文 #293 里进行了验证。 与UniDic的对比也主要集中在抽取出的文子串是否比较长。这里涉及到了N-Best解。
Model Graph:
Result::
Thoughts:
Next Reading:
Summary:
这篇文章主要介绍实现mecab-ipadic-NEologd过程中学到的经验
Resource:
Paper information:
Notes:
2 mecab-ipadic-NEologd の実装
2.1 システムによるWeb上からの語彙収集
从web上收集语料,并以自动或半自动的方式添加4个要素:
2.2 単語分かち書き用辞書の生成
mecab-ipadic-NEologd的目的是尽量以较长的匹配结果为优。在实际使用的过程中,出现了下面4个课题。
2.2.1 コーパスを使わない単語生成コストの調整
XU:这部分用不到
在生成mecab-ipadic-NEologd的时候,考虑到有效性,开发速度,维护难度,对于没有标注的corpus的 単語生成コスト进行了调整。具体的代码在第3页。调整4组list中单词生成cost的函数是 GET-TUNED-CSV-FILE,4-11行的部分,根据POS的不同,单词生成cost也不一样。cost是否正确由GET-BOUNDARY-NUM来判断。
2.2.2 採録すべき言葉のタイプと更新頻度
XU:这部分可以参考,我的内容属于定期更新。比如更新组织名的更新频率是一个月一次,这个是最简单的。而差分数据包含了每一天的内容,这部分内容能更详细记录公司的变动情况,只不过这对于生成公司名来说没有什么必要,所以暂时并不考虑收集差分数据。(但是如果要建KG的话,就需要考虑这些变动的部分了).
有些type的词语是优先考虑的
2.2.3 基礎語彙辞書が原因であるエラーの解消
XU:不用参考
2.2.4 自動獲得した新語からの人名の検出
XU:不用参考
3 情報検索における有効性の考察
mecab-ipadic-NEologd当前的词语量有550万。有効性已经在之前的论文 #293 里进行了验证。 与UniDic的对比也主要集中在抽取出的文子串是否比较长。这里涉及到了N-Best解。
Model Graph:
Result::
Thoughts:
Next Reading: