dm4m / FSRU

A PyTorch implementation of the paper "Frequency Spectrum is More Effective for Multimodal Representation and Fusion: A Multimodal Spectrum Rumor Detector".
22 stars 4 forks source link

请求开源Word2Vec模型和文本预处理代码(文件) #1

Open Qiaojiao-225 opened 8 months ago

Qiaojiao-225 commented 8 months ago

您好, 非常感谢您能够开源代码!

在复现您的代码时, 我注意到在data_loader.py文件的第130行, 代码直接导入了保存好的Word2Vec的模型, 如下所示:

w2v = pickle.load(open(word_embedding_path, 'rb'))

论文中提到FSRU使用了公开的word2vec模型:

We utilize publicly available Word2Vec (Mikolov et al. 2013) to obtain the word embeddings.

代码中显示这是预训练的模型:

"""refer to EANN"""
def add_unknown_words(w2v, vocab, min_df=1, k=32):
    """
    For words that occur in at least min_df documents, create a separate word vector.
    0.25 is chosen so the unknown vectors have (approximately) same variance as pre-trained ones
    """
    for word in vocab:
        if word not in w2v and vocab[word] >= min_df:
            w2v[word] = np.random.uniform(-0.25, 0.25, k)

我想请问您是否能够公开用于Weibo 和Twitter 数据集的Word2Vec 模型文件, 以便更公平地复现 FSRU?此外, 目前仓库中缺少对文本的预处理, 如中文分词、去除停用词等, 能否进一步提供相应的代码或者预处理好的文件(如train_data.csv)?

再次感谢您将代码开源!

shuming-jiang commented 8 months ago

train_data.csv 文件生成方法,请问你找到了吗?希望能够分享一下

NEXUS-Liu commented 6 months ago

数据集中缺少train_data.csv ,希望作者可以公开分享相关文件数据集

zmqp8275 commented 6 months ago

同样希望作者能够分享train_data.csv,感谢开源!

wyy122 commented 5 months ago

同求train_data.csv,感谢作者开源!

qileee commented 4 months ago

train_data.csv 同求

wyy122 commented 4 months ago

train_data.csv 同求

同学,你那有复现成功的模型吗?咱两可以交流一下不

qileee commented 4 months ago

train_data.csv 同求

同学,你那有复现成功的模型吗?咱两可以交流一下不

我也没有,刚下载好数据集,但是发现缺少文件

Zyq-yaqian commented 4 months ago

同求train_data.csv,感谢作者开源!

cxwqvrehe5tt5eeer commented 4 months ago

train_data.csv 同求

同学,你那有复现成功的模型吗?咱两可以交流一下不

我也没有,刚下载好数据集,但是发现缺少文件

你好,请问现在解决了吗

2ezInCode commented 3 months ago

FSRU确实骚 能开源代码感觉都很不错了

2ezInCode commented 3 months ago

看看其他的了 不一定死磕这个 这个不好缝兄弟们

AirPlanBird commented 3 months ago

同,我这里也缺两个(训练和验证)的csv文件,希望作者可以公开

2ezInCode commented 3 months ago

😡实在不行自己反推,

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年06月03日 17:13 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [dm4m/FSRU] 请求开源Word2Vec模型和文本预处理代码(文件) (Issue #1) |

同,我这里也缺两个(训练和验证)的csv文件,希望作者可以公开

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

2ezInCode commented 3 months ago

fsru还是很强的 可惜

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年06月03日 17:13 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [dm4m/FSRU] 请求开源Word2Vec模型和文本预处理代码(文件) (Issue #1) |

同,我这里也缺两个(训练和验证)的csv文件,希望作者可以公开

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

AirPlanBird commented 3 months ago

fsru还是很强的 可惜 ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年06月03日 17:13 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [dm4m/FSRU] 请求开源Word2Vec模型和文本预处理代码(文件) (Issue #1) | 同,我这里也缺两个(训练和验证)的csv文件,希望作者可以公开 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

真的吗?可以交流一下吗

gaolinlin12138 commented 3 months ago

有文件了同志们分享一下,感谢同志们!

Miameister commented 3 weeks ago

搞了一天都没能成功将csv文件从weibo数据集中提出来用以训练,求大佬出手

zmqp8275 commented 2 weeks ago

同样希望作者能够分享train_data.csv,感谢开源!

将自己处理后的csv文件和使用模型放在主页仓库了,可能与原模型存在一定差异,再次感谢作者开源

cxwqvrehe5tt5eeer commented 2 weeks ago

同样希望作者能够分享train_data.csv,感谢开源!

将自己处理后的csv文件和使用模型放在主页仓库了,可能与原模型存在一定差异,再次感谢作者开源

兄弟你复现成功了吗?