649453932 / Chinese-Text-Classification-Pytorch

中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。
MIT License
5.29k stars 1.23k forks source link

词向量训练问题? #88

Open zhfuch opened 2 years ago

zhfuch commented 2 years ago

用词来训练准确率只有20%多?

Alen58 commented 2 years ago

我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧

---原始邮件--- 发件人: @.> 发送时间: 2022年3月27日(周日) 晚上7:35 收件人: @.>; 抄送: @.***>; 主题: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88)

用词来训练准确率只有20%多?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

zhfuch commented 2 years ago

我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 我将预训练向量改成了自己下载的词向量还是不行

Alen58 commented 2 years ago

那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88)

我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

zhfuch commented 2 years ago

那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢 ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

https://github.com/Embedding/Chinese-Word-Vectors在这里下载的搜狗词向量,会不会和输入的维度有关

zhfuch commented 2 years ago

那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢 ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

如果解决了希望可以交流一下,谢谢!

Alen58 commented 2 years ago

好的

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:49 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88)

那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢 … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

如果解决了希望可以交流一下,谢谢!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

zhfuch commented 2 years ago

好的 ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:49 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢 … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 如果解决了希望可以交流一下,谢谢! — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

已解决 将这三个文件删除掉(图上我的是已经替换过了) image 然后准备好自己的词向量把它放在THUCNews/data里 进入utils.py文件将第34行,第143行改成tokenizer = lambda x: jieba.lcut(x),第137行的pretrain_dir改成自己准备好的预训练词向量,然后运行utils.py文件。 在进行训练我的准确率接近90% @Alen58

Alen58 commented 2 years ago

哇塞,厉害,谢谢啦

---原始邮件--- 发件人: @.> 发送时间: 2022年3月27日(周日) 晚上8:13 收件人: @.>; 抄送: @.**@.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88)

好的 … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:49 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢 … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 如果解决了希望可以交流一下,谢谢! — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

已解决 将这三个文件删除掉

然后准备好自己的词向量把它放在THUCNews/data里 进入utils.py文件将第34行,第143行改成tokenizer = lambda x: jieba.lcut(x),第137行的pretrain_dir改成自己准备好的预训练词向量,然后运行utils.py文件。 在进行训练我的准确率接近90% @Alen58

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

T00ler commented 2 years ago

所以说是因为搜狐这个预训练词向量是按字划分所训练出来造成的吗,那能否分享一下按词划分的embedding层呢。

zhfuch commented 2 years ago

所以说是因为搜狐这个预训练词向量是按字划分所训练出来造成的吗,那能否分享一下按词划分的embedding层呢。

对的

自取:https://github.com/Embedding/Chinese-Word-Vectors

T00ler commented 2 years ago

所以说是因为搜狐这个预训练词向量是按字划分所训练出来造成的吗,那能否分享一下按词划分的embedding层呢。

对的

自取:https://github.com/Embedding/Chinese-Word-Vectors

太棒了吧!!!谢谢你呀。

T00ler commented 2 years ago

所以说是因为搜狐这个预训练词向量是按字划分所训练出来造成的吗,那能否分享一下按词划分的embedding层呢。

对的

自取:https://github.com/Embedding/Chinese-Word-Vectors

请问你词表有多长呢,还有你调过哪些参数吗为什么我DPCNN按词来划分测试集Acc只有86%(词表5k)和88%(词表1w)呢,之前词表4762按字划分都有91%+。对了我用的是Sogou News 搜狗新闻只按word划分,看你图上你应该用的是Word + Character + Ngram。

zhfuch commented 2 years ago

词表长就是按照默认的,没有修改

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年4月5日(星期二) 晚上9:11 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88)

所以说是因为搜狐这个预训练词向量是按字划分所训练出来造成的吗,那能否分享一下按词划分的embedding层呢。

对的

自取:https://github.com/Embedding/Chinese-Word-Vectors

请问你词表有多长呢,还有你调过哪些参数吗为什么我DPCNN按词来划分测试集Acc只有86%(词表5k)和88%(词表1w)呢,之前词表4762按字划分都有91%+。对了我用的是Sogou News 搜狗新闻只按word划分,看你图上你应该用的是Word + Character + Ngram。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

LeBronGod commented 2 years ago

好的 ------------------ 原始邮件 ------------------ 发件人: @.**>; 发送时间: 2022年3月27日(星期天) 晚上7:49 收件人: @.**>; 抄送: @.**>; @.**>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 那不太清楚是什么原因,也许试试glove的词向量,你用的是什么词向量呢 … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年3月27日(星期天) 晚上7:42 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [649453932/Chinese-Text-Classification-Pytorch] 词向量训练问题? (Issue #88) 我用词训练的准确率也很低 还不知道是什么原因所导致的,看看用的预训练向量是词向量还是字向量吧 … 我将预训练向量改成了自己下载的词向量还是不行 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.**> 如果解决了希望可以交流一下,谢谢! — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.**>

已解决 将这三个文件删除掉(图上我的是已经替换过了) image 然后准备好自己的词向量把它放在THUCNews/data里 进入utils.py文件将第34行,第143行改成tokenizer = lambda x: jieba.lcut(x),第137行的pretrain_dir改成自己准备好的预训练词向量,然后运行utils.py文件。 在进行训练我的准确率接近90% @Alen58

我用的只按word划分的Sogou News ,loss值不下降,acc只有10%左右,是用word和Word + Character + Ngram不一样导致的吗,(按你的方法修改过代码了)

linzzzzzz commented 2 years ago

增加词表长到20k,TextRNN的准确率我这能涨接近2个点

maoyuejingxian commented 1 year ago

你好,请问你用的是什么词向量,我用的是作者用的那个sogou word+character 300, 可是我准确率只有10%左右,肯定不对,但是我不知道是哪里出了问题