liangsi03 / ik-analyzer

Automatically exported from code.google.com/p/ik-analyzer
0 stars 0 forks source link

对一个包含多行的文件分词时,怎样保留原来的换行符,使其输出的结果文件仍然保留原来的分行 #75

Closed GoogleCodeExporter closed 8 years ago

GoogleCodeExporter commented 8 years ago
我的一个文件包含100万条垃圾短信,每条垃圾短信一行。我��
�望对这个文件分词后对每行再增加一个“spam”的标签,然后
输入给weka做classifcation。
但分词后,我发现整个输出结果变成了1行,原来的换行符已�
��被去除。这样,原来是100万个样本,现在变成了一个样本。
也许大家会建议:把原文件split成100万个文件,然后再分词。
但是,100万个文件放到文件夹下供weka读入,面临着os的一个��
�录下文件数太多的问题,也面临着TextDirectoryLoader不能正确处
理庞大数量文件的问题。

怎样对这样的文件分词,并且保留原来的每行一个实例的效��
�?
谢谢

Original issue reported on code.google.com by toughman...@gmail.com on 30 Aug 2012 at 2:00

GoogleCodeExporter commented 8 years ago
http://code.google.com/p/ik-analyzer/issues/detail?id=75&thanks=75&ts=1346292025
#makechanges

Original comment by toughman...@gmail.com on 30 Aug 2012 at 3:19

GoogleCodeExporter commented 8 years ago
你的具体应用可不是分词器要关心的事情

Original comment by linliang...@gmail.com on 23 Oct 2012 at 9:33