对一个包含多行的文件分词时，怎样保留原来的换行符，使其输出的结果文件仍然保留原来的分行

GoogleCodeExporter commented 8 years ago

我的一个文件包含100万条垃圾短信，每条垃圾短信一行。我��
�望对这个文件分词后对每行再增加一个“spam”的标签，然后
输入给weka做classifcation。
但分词后，我发现整个输出结果变成了1行，原来的换行符已�
��被去除。这样，原来是100万个样本，现在变成了一个样本。
也许大家会建议：把原文件split成100万个文件，然后再分词。
但是，100万个文件放到文件夹下供weka读入，面临着os的一个��
�录下文件数太多的问题，也面临着TextDirectoryLoader不能正确处
理庞大数量文件的问题。

怎样对这样的文件分词，并且保留原来的每行一个实例的效��
�？
谢谢

Original issue reported on code.google.com by toughman...@gmail.com on 30 Aug 2012 at 2:00

GoogleCodeExporter commented 8 years ago

http://code.google.com/p/ik-analyzer/issues/detail?id=75&thanks=75&ts=1346292025
#makechanges

Original comment by toughman...@gmail.com on 30 Aug 2012 at 3:19

GoogleCodeExporter commented 8 years ago

你的具体应用可不是分词器要关心的事情

Original comment by linliang...@gmail.com on 23 Oct 2012 at 9:33

Changed state: Invalid

liangsi03 / ik-analyzer

对一个包含多行的文件分词时，怎样保留原来的换行符，使其输出的结果文件仍然保留原来的分行 #75