训练集分多个文件保存

RowitZou / topic-dialog-summ

AAAI-2021 paper: Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling.

MIT License

77 stars 9 forks source link

Closed SCU-JJkinging closed 2 years ago

SCU-JJkinging commented 2 years ago

请问您把训练集分多个文件保存是出于什么考虑呢？我能否合成一个呢？

RowitZou commented 2 years ago

分多个文件保存是一种内存友好的方案。可以将其合并为一个文件。

SCU-JJkinging commented 2 years ago

我执行 preprocess.py 预处理数据花费时间过长，不知道您处理大概花了多久呢？

RowitZou commented 2 years ago

处理时间的瓶颈在于，基于ROUGE抽取长对话中与标准摘要最匹配的若干utterance，用来训练第一阶段的抽取器。当时处理时间大概在1～2天。如果需要效率更高的方式，可以采用 greedy 的方式抽取 utterance，性能不会影响太多。

SCU-JJkinging commented 2 years ago

ok, 明白，感谢！