Open yindisun opened 3 years ago
附议,一些专有名词会被生硬地断开
附议,一些专有名词会被生硬地断开
他最新的代码对专有名词可以添加词典保证不会被断开,不过,词性会分辨错误,这个可以理解 毕竟是专有名词。但是自定义词典不能修正词性这个就很鸡肋。
附议,一些专有名词会被生硬地断开
他最新的代码对专有名词可以添加词典保证不会被断开,不过,词性会分辨错误,这个可以理解 毕竟是专有名词。但是自定义词典不能修正词性这个就很鸡肋。
附议,建议增加 可自定义修改词性 功能
确实,希望能够支持一下
@AlongWY 自定义词性有支持计划了么,能增加不少灵活性呢
复议
复议
我们会尽快增加该特性
23年了,这个提上日程了吗?
真的很需要这个功能,pyltp有引入外部词典,但是pyltp会有内存泄漏,批量操作会把内存跑爆,希望ltp可以加上这个功能
真的很需要这个功能,pyltp有引入外部词典,但是pyltp会有内存泄漏,批量操作会把内存跑爆,希望ltp可以加上这个功能
试了一下用jieba引入外部词典分词后再调用 ltp.seg([seg_list], is_preseged=True),但是返回的 hidden 会有问题,经常会报 RuntimeError: The expanded size of the tensor (60) must match the existing size (64) at non-singleton dimension 1. Target sizes: [1, 60, 60]. Tensor sizes: [1, 64, 1] ,这样的异常
当我使用用户自定义词典时,由于自定义词汇不再分词,其词性由LTP判定会产生大量错误。 例如机械领域表达零件名称的词汇: 支撑组件 、清洁组件、辅助传动组件。 这些词汇如果由LTP自动确定词性会根它的某一部分被识别为动词、形容词等。 这些我应该定义成专有名词,可能是因为LTP没有将用户词典的词性理解正确,导致后续的语义依存、语义角色标准均存在问题。 图中所有的机械零件名称应被定义为专有名词,可被识别成了其他词性。 但如果可以自定义他们的词性是不是就可以解决这个问题。
因此,希望作者可以开放此部分功能。