Closed SCU-JJkinging closed 2 years ago
分多个文件保存是一种内存友好的方案。可以将其合并为一个文件。
我执行 preprocess.py 预处理数据 花费时间过长,不知道您处理大概花了多久呢?
处理时间的瓶颈在于,基于ROUGE抽取长对话中与标准摘要最匹配的若干utterance,用来训练第一阶段的抽取器。当时处理时间大概在1~2天。如果需要效率更高的方式,可以采用 greedy 的方式抽取 utterance,性能不会影响太多。
ok, 明白,感谢!
请问您把训练集分多个文件保存是出于什么考虑呢?我能否合成一个呢?