rockingdingo / deepnlp

Deep Learning NLP Pipeline implemented on Tensorflow
MIT License
1.35k stars 712 forks source link

语料预处理问题(时间、数字) #25

Open sunjinguo opened 7 years ago

sunjinguo commented 7 years ago

您好,目前在学习您的textsum源代码解决文本自动摘要问题。看到您对语料预处理阶段对数字及时间用相应的标签置换,想知道您这么处理的初衷?(因为数字组合使vocab很大吗?)毕竟新闻类对时间、地点的要求性很高,如果直接置换掉,其应用性会降低很多吧。或者说您后续有什么处理,我忽略了,求指教,谢谢!

kobesxl commented 7 years ago

我也想问这个问题🤝。如果把数字直接替换掉,后续生成标题的话可能会影响标题的内容吧

EquinoxHzXu commented 7 years ago

TensorFlow 官方的 textsum 的 sample training data 中数字是全部用#替代的

wonderwgf commented 7 years ago

请问你们中文新闻语料库在哪下载的啊?我在搜狗实验室都下载失败

KingsleyHsu commented 7 years ago

搜狗实验室下载,需要账号密码,如有需要,我可以给你百度网盘

2017-11-06 11:21 GMT+08:00 wonderwgf notifications@github.com:

请问你们中文新闻语料库在哪下载的啊?我在搜狗实验室都下载失败

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/rockingdingo/deepnlp/issues/25#issuecomment-342036641, or mute the thread https://github.com/notifications/unsubscribe-auth/AQ0TZa3L1J9vi--CJ3zAWIsx-zKh5Igkks5sznswgaJpZM4O9C0x .