RowitZou / topic-dialog-summ

AAAI-2021 paper: Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling.
MIT License
77 stars 9 forks source link

训练集分多个文件保存 #14

Closed SCU-JJkinging closed 2 years ago

SCU-JJkinging commented 2 years ago

image 请问您把训练集分多个文件保存是出于什么考虑呢?我能否合成一个呢?

RowitZou commented 2 years ago

分多个文件保存是一种内存友好的方案。可以将其合并为一个文件。

SCU-JJkinging commented 2 years ago

我执行 preprocess.py 预处理数据 花费时间过长,不知道您处理大概花了多久呢?

RowitZou commented 2 years ago

处理时间的瓶颈在于,基于ROUGE抽取长对话中与标准摘要最匹配的若干utterance,用来训练第一阶段的抽取器。当时处理时间大概在1~2天。如果需要效率更高的方式,可以采用 greedy 的方式抽取 utterance,性能不会影响太多。

SCU-JJkinging commented 2 years ago

ok, 明白,感谢!