nianlonggu / MemSum

Code for ACL 2022 paper on the topic of long document summarization: MemSum: Extractive Summarization of Long Documents Using Multi-Step Episodic Markov Decision Processes
44 stars 16 forks source link

hugging face中的模型问题 #14

Open SXUleiyang opened 10 months ago

SXUleiyang commented 10 months ago

作者您好,我从nianlong/memsum-word-embedding下载到了您预先训练好的模型,现在的问题是:如何在自己的中文数据集上训练vocabulary_200dim.pkl 和 unigram_embeddings_200dim.pkl。 希望您能回复我的消息

nianlonggu commented 9 months ago

你好,你可以用word2vec的训练方式在你的中文数据集上训练word embedding,也可以用一些预训练好的词向量比如https://github.com/Embedding/Chinese-Word-Vectors 或者在huggingface 上找一下有没有Chinese Bert, 用这个Bert 替代MemSum中的local sentence encoder。

SXUleiyang commented 9 months ago

你好,你可以用word2vec的训练方式在你的中文数据集上训练word embedding,也可以用一些预训练好的词向量比如https://github.com/Embedding/Chinese-Word-Vectors 或者在huggingface 上找一下有没有Chinese Bert, 用这个Bert 替代MemSum中的local sentence encoder。

十分感谢您的回复!我后续还会继续跟进您的工作。