NLPIR/NLPIR SDK/NLPIR-ICTCLAS，换行问题

xiaozhewen commented 6 years ago

使用NLPIR_ParagraphProcess` 进行文件中文分词，当测试文本中出现：上一行数字结尾时，分词输出文本则会换行失败，或者说缺少一次换行例如：正确输出应为

ISBN 9787502169695

出版社石油工业出版社

实际输出则是

ISBN 9787502169695 出版社石油工业出版社

使用的是最新版的NLPIR-ICTCLAS，大家有遇到这个问题么

Dr-Kevin-Zhang commented 6 years ago

这个没关系的吧？Paragraph一般都是出来一行。

Best wishes 张华平博士副教授研究生导师大数据搜索挖掘实验室（北京市海量语言信息处理与云计算应用工程技术研究中心）主任地址：北京海淀区中关村南大街5号 100081 电话：+86-10-68918642 Email:kevinzhang@bit.edu.cn MSN: pipy_zhang@msn.com; 网站: http://www.nlpir.org (自然语言处理与信息检索共享平台) http://www.bigdataBBS.com (大数据论坛) 微博:http://www.weibo.com/drkevinzhang/ 微信公众号：大数据千人会 GitHub：https://github.com/NLPIR-team/NLPIR

Dr. Kevin Zhang (张华平，Zhang Hua-Ping) Associate Professor, Graduate Supervisor Director, Big Data Search and Mining Lab. Beijing Engineering Research Center of Massive Language Information Processing and Cloud Computing Application Beijing Institute of Technology Add: No.5, South St.,Zhongguancun,Haidian District,Beijing,P.R.C PC:100081 Tel: +86-10-68918642 Email:kevinzhang@bit.edu.cn MSN: pipy_zhang@msn.com; Website: http://www.nlpir.org (Natural Language Processing and Information Retrieval Sharing Platform) http://www.bigdataBBS.com (Big Data Forum) Twitter: http://www.weibo.com/drkevinzhang/ Subscriptions: Thousands of Big Data Experts GitHub：https://github.com/NLPIR-team/NLPIR

发件人： xiaozhewen 发送时间： 2018-07-26 11:24 收件人： NLPIR-team/NLPIR 抄送： Subscribed 主题： [NLPIR-team/NLPIR] NLPIR/NLPIR SDK/NLPIR-ICTCLAS，换行问题 (#146) 使用NLPIR_ParagraphProcess 进行文件中文分词，当测试文本中出现：上一行数字结尾时，分词输出文本则会换行失败，或者说缺少一次换行例如：正确输出应为 ISBN 9787502169695 出版社石油工业出版社实际输出则是 ISBN 9787502169695 出版社石油工业出版社使用的是最新版的NLPIR-ICTCLAS，大家有遇到这个问题么 ― You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or mute the thread.

xiaozhewen commented 6 years ago

谢谢张教授的解答，我用了NLPIR_FileProcess和NLPIR_ParagraphProcess进行文件中文分词，更确切的说是当文本的一行没有中文字符时，会换行失败。如您所说，这对分词结果没有影响，只是我在使用SIGHAN Bakeoff 的score 脚本对分词结果评测时会因为该行缺少换行导致后面文本错位，影响评分。目前没找到解决办法，再次感谢张教授的回复。

NLPIR-team / NLPIR

NLPIR/NLPIR SDK/NLPIR-ICTCLAS，换行问题 #146