有些词好像没分开，会影响到词性标注，句法分析之类的任务吗？要怎么处理？

JacquesBeineix commented 6 years ago

['花呗', '在美团', '支付', '成功', '了', '为什', '钱', '已经扣', '了', '交易', '却没有', '显示未', '支付'] ['上', '个月', '花呗', '除', '小蓝', '押金', '我', '还完了', '，', '怎么', '解决', '小蓝', '押金', '的', '问题'] 调整min_proba=1e-7, min_pmi=1之后，把第二句分开了，但是第一句的已经扣显示未，好像没有分好，要怎么处理呢？会影响到后续的任务吗？分词的算法是按照词的统计信息，找到最优路径进行分词的吗？有什么更好的办法吗？

bojone commented 6 years ago

人工过滤词表。

JacquesBeineix commented 6 years ago

谢谢，明白很多。

litetoooooom commented 6 years ago

项目关于模板的提取思路很好，但是在切词上面，是否可以用现有的比较成熟的切词模型，比如ltp ,结巴等

bojone / nlp-zero

有些词好像没分开，会影响到词性标注，句法分析之类的任务吗？要怎么处理？ #2