hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.84k stars 10.12k forks source link

成分句法分析会修改原始文本,如修改中文的标点符号? #1811

Closed FutureWithoutEnding closed 1 year ago

FutureWithoutEnding commented 1 year ago

成分句法分析修改原始文本

A clear and concise description of what the bug is.

Code to reproduce the issue

import hanlp
from hanlp import pretrained

tokenizer_model = pretrained.tok.COARSE_ELECTRA_SMALL_ZH
tokenizer = hanlp.load(tokenizer_model)

toks = tokenizer("栏目下的一个节目,这个节目主要探讨的是英语口语的常用表达、词汇的起源和其背后的故事。")
print(toks)

constituency_model = pretrained.constituency.CTB9_CON_ELECTRA_SMALL
parser = hanlp.load(constituency_model)
tree = parser(toks)
print(tree)

Describe the current behavior image 为了好展示,修改了token是输出格式(为了代码的简洁,没有包含在演示代码中)

Expected behavior 保持原来的中文标点。

System information

Other info / logs None

hankcs commented 1 year ago

感谢反馈,已经修复,请检查上面的commit是否解决了这个问题。 如果还有问题,欢迎重开issue。