关于参数split_noise的疑问，谢谢

RowitZou / topic-dialog-summ

AAAI-2021 paper: Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling.

MIT License

77 stars 9 forks source link

Closed 649453932 closed 3 years ago

649453932 commented 3 years ago

博主你好，有两个问题想请你帮忙解答下：

split_noise为True时，在data_builder.py的topic_summ_info_generate函数中引入了summary的信息，这在训练和测试时都会被用到，这是否透露了答案。
在训练阶段split_noise设置为True，推理时是需要有topic_summ_info的，而topic_summ_info是得需要有summary才能生成，这个怎么解决

RowitZou commented 3 years ago

topic_summ_info 在 rl_model.py 的 866-867行用到，以及在 topic.py 的 63、77 行用到，仅用来计算主题模型的 loss。在测试阶段，实际上不会使用到 topic_summ_info 信息和它对应的loss。
因为测试集验证集的对话均有标准参考摘要，所以在写代码时没有考虑到无参考摘要的测试集。具体解决方案，需要修改 data_builder.py，data_loader.py，topic.py，加上对应没有标准摘要的样本的处理代码。

649453932 commented 3 years ago

嗯嗯刚修改了代码，推理已经跑通了，非常感谢！回答的这么详细

1033020837 commented 2 years ago

请问具体要修改这些文件的哪些呢？感觉涉及到部分有点多，data_loader.py就有好几处报错了

Hoogck commented 2 years ago

主要是改rl_model.py，data_builder.py，data_loader.py，topic.py里面吧？兼容推理时没有topic_summ_info 的情况。