ZhangRuige / easyDataInsightV1.0

2 stars 2 forks source link

中文文本对象自动扩充 #27

Open ZhangRuige opened 8 years ago

WuYang12 commented 8 years ago

1.新增hive表的字段,包括评论对象位置,对象属性位置,情感值位置 2.CRF++是C++编写,正在使用swig实现java调用,还没成功明天继续

待完成任务: 1.实现CRF++训练集生成的方法 2.用java调用CRF++

3.实现整个词典扩充过程

WuYang12 commented 8 years ago

实现训练集的生成,训练结果的解析,新词的过滤功能。 明天利用迭代一的数据测试算法的效果

WuYang12 commented 8 years ago

本地测试了新词发现的效果: 1.发现新词的数量和CRF的参数-c有关 2.新词过滤方法需要进行调整(新增观点对象类别或者是提高阈值、加入特殊判定等) 明天完善新词候选集过滤方法。

WuYang12 commented 8 years ago

近两天完成的工作: 1.完善新词扩充方法 2.完成新词扩充算法和hadoop的整合

明天计划根据词典扩充结果调整模型参数,并通过人工标注语料来评估扩充效果。