hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.97k stars 10.18k forks source link

悄悄地问:分词模型能否“理解”语意? #1884

Closed wencan closed 8 months ago

wencan commented 8 months ago
*&%¥#%¥……&(每次还要打的不一样,我也是不容易啊)

上面一段文本 使用 https://hanlp.hankcs.com/demos/tok.html 分词 把 “打的”分做了一个词 “打的”,在日常生活中好像仅仅是指搭乘出租车。这段文本显然与此无关。

hankcs commented 8 months ago
  1. 分词任务就是初步地理解语义,详见《自然语言处理入门》
  2. 不需要悄悄地问,目前分词准确率在0.98左右,也就是平均一百个单词,可能有一两个错误
  3. 这个案例已经修复了,请重试
wencan commented 8 months ago

@hankcs 请教 是如何“修复”? 微调? 微调是否会导致原本正确的分词出错?

hankcs commented 8 months ago

对,微调。第二个问题需要统计基础才能理解。详见《自然语言处理入门》,GitHub仅受理bug。