XierHacker / Model_Fusion_Based_Prosody_Prediction

Model Fusion Based Prosody Prediction
17 stars 9 forks source link

前端预处理问题 #2

Open ysujiang opened 4 years ago

ysujiang commented 4 years ago

您好,读了您的文章有两个问题想要请教一下,方便告知吗

  1. 请问您得分词工具和词性标注工具用的是什么呢? 2.您得数据集是自己标注的还是公开的数据集呀?如果是公开数据集可否给出公开数据集的下载网址?
XierHacker commented 4 years ago

您好,读了您的文章有两个问题想要请教一下,方便告知吗

  1. 请问您得分词工具和词性标注工具用的是什么呢? 2.您得数据集是自己标注的还是公开的数据集呀?如果是公开数据集可否给出公开数据集的下载网址?

文章是当时实习的时候复现的其他人的,不是我的哦。 1.分词的话,是使用的自己写的分词和词性标注工具,基于LSTM和CRF的,现在已经不用那个了。如果做实验的话,你使用jieba或者清华的分词标注工具就行。 2.数据集是当时公司的,不是开源的哦我手头也没有。

ysujiang commented 4 years ago

您好,读了您的文章有两个问题想要请教一下,方便告知吗

  1. 请问您得分词工具和词性标注工具用的是什么呢? 2.您得数据集是自己标注的还是公开的数据集呀?如果是公开数据集可否给出公开数据集的下载网址?

文章是当时实习的时候复现的其他人的,不是我的哦。 1.分词的话,是使用的自己写的分词和词性标注工具,基于LSTM和CRF的,现在已经不用那个了。如果做实验的话,你使用jieba或者清华的分词标注工具就行。 2.数据集是当时公司的,不是开源的哦我手头也没有。

首先感谢您的回复,我现在在用标贝数据集中的韵律标注做实验,在标贝数据集中韵律标注的韵律标签和jiaba分词器的分词结果不对应,不知道您是否遇到过这种情况,您是怎么处理的,方便告知吗

XierHacker commented 4 years ago

首先感谢您的回复,我现在在用标贝数据集中的韵律标注做实验,在标贝数据集中韵律标注的韵律标签和jiaba分词器的分词结果不对应,不知道您是否遇到过这种情况,您是怎么处理的,方便告知吗

现在来看,用分词的好处是一定程度上面能够提升模型的准确率,缓解模型压力。但是这是建立在分词的正确率很高的情况下的。学术上面的分词结果可以认为是百分之百正确,因为有人标好或者有人检查好,所以给模型带来的是正向提升。但是在工业下就会出现你这样的问题,分词的粒度有时候大于或者小于它里面韵律的粒度。所以我现在都是基于字来处理,把分词结果和pos都作为一种特征,而不是直接基于词来做。

ysujiang commented 4 years ago

首先感谢您的回复,我现在在用标贝数据集中的韵律标注做实验,在标贝数据集中韵律标注的韵律标签和jiaba分词器的分词结果不对应,不知道您是否遇到过这种情况,您是怎么处理的,方便告知吗

现在来看,用分词的好处是一定程度上面能够提升模型的准确率,缓解模型压力。但是这是建立在分词的正确率很高的情况下的。学术上面的分词结果可以认为是百分之百正确,因为有人标好或者有人检查好,所以给模型带来的是正向提升。但是在工业下就会出现你这样的问题,分词的粒度有时候大于或者小于它里面韵律的粒度。所以我现在都是基于字来处理,把分词结果和pos都作为一种特征,而不是直接基于词来做。

方便告知一下您程序里用到的“.utf-8”的数据格式吗?将数据格式发一下我邮箱可以吗?如果可以,将非常感谢。1217453447@qq.com

ysujiang commented 4 years ago

@XierHacker 冒昧问一下,您目前pph和iph的准确率和f1能达到多少啊

XierHacker commented 4 years ago

@XierHacker 冒昧问一下,您目前pph和iph的准确率和f1能达到多少啊

这个准确率是和数据集相关的哦,在数据集标注标准非常一致的情况下,通常纯句内#2#3(不统计任何标点符号带来的停顿)大概是77.x到79.x的样子,要是多个数据集混合(标准不一致),准确率有可能会下降的很厉害。所以对于这种来说,我觉得72到79之间的值都是完全可以接受的,这东西不考虑数据集只是仅仅看f1意义不是很大。

ysujiang commented 4 years ago

@XierHacker 冒昧问一下,您目前pph和iph的准确率和f1能达到多少啊

这个准确率是和数据集相关的哦,在数据集标注标准非常一致的情况下,通常纯句内#2#3(不统计任何标点符号带来的停顿)大概是77.x到79.x的样子,要是多个数据集混合(标准不一致),准确率有可能会下降的很厉害。所以对于这种来说,我觉得72到79之间的值都是完全可以接受的,这东西不考虑数据集只是仅仅看f1意义不是很大。

我将#1#2#3视为pw的停顿标识,#2#3视为pph的停顿标识,将字、词性、分词结果以及词的长度分别作为特征输入,我没有去任何标点。用的数据集是标贝数据集,结果让我很忧伤,pw的准确率和f1能达到90%以上,pph的准确率只能达到70%,f1仅仅有12%。随着epoch的增加,pw指标微微上升,pph一直在下降。您有什么改进的建议吗

joan126 commented 3 years ago

@ysujiang 能说一下utf-8”的数据格式吗?349662681@qq.com