NLPIR-team / NLPIR

http://www.nlpir.org/
3.41k stars 2.03k forks source link

NLPIR/NLPIR SDK/NLPIR-ICTCLAS,换行问题 #146

Open xiaozhewen opened 6 years ago

xiaozhewen commented 6 years ago

使用NLPIR_ParagraphProcess` 进行文件中文分词,当测试文本中出现:上一行数字结尾时,分词输出文本则会换行失败,或者说缺少一次换行 例如: 正确输出应为

ISBN 9787502169695

出版社 石油 工业 出版社

实际输出则是

ISBN 9787502169695 出版社 石油 工业 出版社

使用的是最新版的NLPIR-ICTCLAS,大家有遇到这个问题么

Dr-Kevin-Zhang commented 6 years ago

这个没关系的吧?Paragraph一般都是出来一行。

Best wishes 张华平 博士 副教授 研究生导师 大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心) 主任 地址:北京海淀区中关村南大街5号 100081 电话:+86-10-68918642 Email:kevinzhang@bit.edu.cn MSN: pipy_zhang@msn.com; 网站: http://www.nlpir.org (自然语言处理与信息检索共享平台) http://www.bigdataBBS.com (大数据论坛) 微博:http://www.weibo.com/drkevinzhang/ 微信公众号:大数据千人会 GitHub:https://github.com/NLPIR-team/NLPIR

Dr. Kevin Zhang (张华平,Zhang Hua-Ping) Associate Professor, Graduate Supervisor Director, Big Data Search and Mining Lab. Beijing Engineering Research Center of Massive Language Information Processing and Cloud Computing Application Beijing Institute of Technology Add: No.5, South St.,Zhongguancun,Haidian District,Beijing,P.R.C PC:100081 Tel: +86-10-68918642 Email:kevinzhang@bit.edu.cn MSN: pipy_zhang@msn.com; Website: http://www.nlpir.org (Natural Language Processing and Information Retrieval Sharing Platform) http://www.bigdataBBS.com (Big Data Forum) Twitter: http://www.weibo.com/drkevinzhang/ Subscriptions: Thousands of Big Data Experts GitHub:https://github.com/NLPIR-team/NLPIR

发件人: xiaozhewen 发送时间: 2018-07-26 11:24 收件人: NLPIR-team/NLPIR 抄送: Subscribed 主题: [NLPIR-team/NLPIR] NLPIR/NLPIR SDK/NLPIR-ICTCLAS,换行问题 (#146) 使用NLPIR_ParagraphProcess 进行文件中文分词,当测试文本中出现:上一行数字结尾时,分词输出文本则会换行失败,或者说缺少一次换行 例如: 正确输出应为 ISBN 9787502169695 出版社 石油 工业 出版社 实际输出则是 ISBN 9787502169695 出版社 石油 工业 出版社 使用的是最新版的NLPIR-ICTCLAS,大家有遇到这个问题么 ― You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.

xiaozhewen commented 6 years ago

谢谢张教授的解答,我用了NLPIR_FileProcess和NLPIR_ParagraphProcess进行文件中文分词,更确切的说是当文本的一行没有中文字符时,会换行失败。如您所说,这对分词结果没有影响,只是我在使用SIGHAN Bakeoff 的score 脚本对分词结果评测时会因为该行缺少换行导致后面文本错位,影响评分。目前没找到解决办法,再次感谢张教授的回复。