hankcs / HanLP

中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
https://hanlp.hankcs.com/
Apache License 2.0
33.99k stars 10.18k forks source link

fix:校正项目内MSR中文文本标注规范的错误 #1898

Closed webSue closed 4 months ago

webSue commented 4 months ago

Title of Your Pull Request

Description

前段时间看文档发现可能是因为直接做了格式转换,所以在斜体上出现大量多余*,个别句子的换行位置也不对,可能会引起歧义和误会,所以抽空和msr的文档做了一次整体校验比对

主要修正: 1.错误的斜体表述导致的多余*号 2.换行位置校正

Fixes # (issue)

Type of Change

Please check any relevant options and delete the rest.

How Has This Been Tested?

无需测试,可以和msr的分词标准官方文档做对比

Checklist

Check all items that apply.

hankcs commented 4 months ago

感谢贡献!的确,该文档是PDF经过OCR而来,存在不少错误。