请求开源Word2Vec模型和文本预处理代码(文件)

Qiaojiao-225 commented 8 months ago

您好, 非常感谢您能够开源代码!

在复现您的代码时, 我注意到在data_loader.py文件的第130行, 代码直接导入了保存好的Word2Vec的模型, 如下所示：

w2v = pickle.load(open(word_embedding_path, 'rb'))

论文中提到FSRU使用了公开的word2vec模型:

We utilize publicly available Word2Vec (Mikolov et al. 2013) to obtain the word embeddings.

代码中显示这是预训练的模型:

"""refer to EANN"""
def add_unknown_words(w2v, vocab, min_df=1, k=32):
    """
    For words that occur in at least min_df documents, create a separate word vector.
    0.25 is chosen so the unknown vectors have (approximately) same variance as pre-trained ones
    """
    for word in vocab:
        if word not in w2v and vocab[word] >= min_df:
            w2v[word] = np.random.uniform(-0.25, 0.25, k)

我想请问您是否能够公开用于Weibo 和Twitter 数据集的Word2Vec 模型文件, 以便更公平地复现 FSRU？此外, 目前仓库中缺少对文本的预处理, 如中文分词、去除停用词等，能否进一步提供相应的代码或者预处理好的文件（如train_data.csv）？

再次感谢您将代码开源!

shuming-jiang commented 8 months ago

train_data.csv 文件生成方法，请问你找到了吗？希望能够分享一下

NEXUS-Liu commented 6 months ago

数据集中缺少train_data.csv ，希望作者可以公开分享相关文件数据集

zmqp8275 commented 6 months ago

同样希望作者能够分享train_data.csv，感谢开源！

wyy122 commented 5 months ago

同求train_data.csv，感谢作者开源！

qileee commented 4 months ago

train_data.csv 同求

wyy122 commented 4 months ago

train_data.csv 同求

同学，你那有复现成功的模型吗？咱两可以交流一下不

qileee commented 4 months ago

train_data.csv 同求

同学，你那有复现成功的模型吗？咱两可以交流一下不

我也没有，刚下载好数据集，但是发现缺少文件

Zyq-yaqian commented 4 months ago

同求train_data.csv，感谢作者开源！

cxwqvrehe5tt5eeer commented 4 months ago

train_data.csv 同求

同学，你那有复现成功的模型吗？咱两可以交流一下不

我也没有，刚下载好数据集，但是发现缺少文件

你好，请问现在解决了吗

2ezInCode commented 3 months ago

FSRU确实骚能开源代码感觉都很不错了

2ezInCode commented 3 months ago

看看其他的了不一定死磕这个这个不好缝兄弟们

AirPlanBird commented 3 months ago

同，我这里也缺两个（训练和验证）的csv文件，希望作者可以公开

2ezInCode commented 3 months ago

😡实在不行自己反推，

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年06月03日 17:13 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [dm4m/FSRU] 请求开源Word2Vec模型和文本预处理代码(文件) (Issue #1) |

同，我这里也缺两个（训练和验证）的csv文件，希望作者可以公开

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

2ezInCode commented 3 months ago

fsru还是很强的可惜

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年06月03日 17:13 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [dm4m/FSRU] 请求开源Word2Vec模型和文本预处理代码(文件) (Issue #1) |

同，我这里也缺两个（训练和验证）的csv文件，希望作者可以公开

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

AirPlanBird commented 3 months ago

fsru还是很强的可惜 … ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年06月03日 17:13 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [dm4m/FSRU] 请求开源Word2Vec模型和文本预处理代码(文件) (Issue #1) | 同，我这里也缺两个（训练和验证）的csv文件，希望作者可以公开 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

真的吗？可以交流一下吗

gaolinlin12138 commented 3 months ago

有文件了同志们分享一下，感谢同志们！

Miameister commented 3 weeks ago

搞了一天都没能成功将csv文件从weibo数据集中提出来用以训练，求大佬出手

zmqp8275 commented 2 weeks ago

同样希望作者能够分享train_data.csv，感谢开源！

将自己处理后的csv文件和使用模型放在主页仓库了，可能与原模型存在一定差异，再次感谢作者开源

cxwqvrehe5tt5eeer commented 2 weeks ago

同样希望作者能够分享train_data.csv，感谢开源！

将自己处理后的csv文件和使用模型放在主页仓库了，可能与原模型存在一定差异，再次感谢作者开源

兄弟你复现成功了吗？

dm4m / FSRU

请求开源Word2Vec模型和文本预处理代码(文件) #1