bojone / nlp-zero

基于最小熵原理的NLP工具包
137 stars 38 forks source link

有些词好像没分开,会影响到词性标注,句法分析之类的任务吗?要怎么处理? #2

Open JacquesBeineix opened 6 years ago

JacquesBeineix commented 6 years ago

['花呗', '在美团', '支付', '成功', '了', '为什', '钱', '已经扣', '了', '交易', '却没有', '显示未', '支付'] ['上', '个月', '花呗', '除', '小蓝', '押金', '我', '还完了', ',', '怎么', '解决', '小蓝', '押金', '的', '问题'] 调整min_proba=1e-7, min_pmi=1之后,把第二句分开了,但是第一句的 已经扣 显示未,好像没有分好,要怎么处理呢?会影响到后续的任务吗?分词的算法是按照词的统计信息,找到最优路径进行分词的吗?有什么更好的办法吗?

bojone commented 6 years ago

人工过滤词表。

JacquesBeineix commented 6 years ago

谢谢,明白很多。

litetoooooom commented 6 years ago

项目关于模板的提取思路很好,但是在切词上面,是否可以用现有的比较成熟的切词模型,比如ltp ,结巴等