前端预处理问题 - Githubissues

ysujiang commented 4 years ago

您好，读了您的文章有两个问题想要请教一下，方便告知吗

请问您得分词工具和词性标注工具用的是什么呢？ 2.您得数据集是自己标注的还是公开的数据集呀？如果是公开数据集可否给出公开数据集的下载网址？

XierHacker commented 4 years ago

您好，读了您的文章有两个问题想要请教一下，方便告知吗

请问您得分词工具和词性标注工具用的是什么呢？ 2.您得数据集是自己标注的还是公开的数据集呀？如果是公开数据集可否给出公开数据集的下载网址？

文章是当时实习的时候复现的其他人的，不是我的哦。 1.分词的话，是使用的自己写的分词和词性标注工具，基于LSTM和CRF的，现在已经不用那个了。如果做实验的话，你使用jieba或者清华的分词标注工具就行。 2.数据集是当时公司的，不是开源的哦我手头也没有。

ysujiang commented 4 years ago

您好，读了您的文章有两个问题想要请教一下，方便告知吗

请问您得分词工具和词性标注工具用的是什么呢？ 2.您得数据集是自己标注的还是公开的数据集呀？如果是公开数据集可否给出公开数据集的下载网址？

文章是当时实习的时候复现的其他人的，不是我的哦。 1.分词的话，是使用的自己写的分词和词性标注工具，基于LSTM和CRF的，现在已经不用那个了。如果做实验的话，你使用jieba或者清华的分词标注工具就行。 2.数据集是当时公司的，不是开源的哦我手头也没有。

首先感谢您的回复，我现在在用标贝数据集中的韵律标注做实验，在标贝数据集中韵律标注的韵律标签和jiaba分词器的分词结果不对应，不知道您是否遇到过这种情况，您是怎么处理的，方便告知吗

XierHacker commented 4 years ago

首先感谢您的回复，我现在在用标贝数据集中的韵律标注做实验，在标贝数据集中韵律标注的韵律标签和jiaba分词器的分词结果不对应，不知道您是否遇到过这种情况，您是怎么处理的，方便告知吗

现在来看，用分词的好处是一定程度上面能够提升模型的准确率，缓解模型压力。但是这是建立在分词的正确率很高的情况下的。学术上面的分词结果可以认为是百分之百正确，因为有人标好或者有人检查好，所以给模型带来的是正向提升。但是在工业下就会出现你这样的问题，分词的粒度有时候大于或者小于它里面韵律的粒度。所以我现在都是基于字来处理，把分词结果和pos都作为一种特征，而不是直接基于词来做。

ysujiang commented 4 years ago

首先感谢您的回复，我现在在用标贝数据集中的韵律标注做实验，在标贝数据集中韵律标注的韵律标签和jiaba分词器的分词结果不对应，不知道您是否遇到过这种情况，您是怎么处理的，方便告知吗

现在来看，用分词的好处是一定程度上面能够提升模型的准确率，缓解模型压力。但是这是建立在分词的正确率很高的情况下的。学术上面的分词结果可以认为是百分之百正确，因为有人标好或者有人检查好，所以给模型带来的是正向提升。但是在工业下就会出现你这样的问题，分词的粒度有时候大于或者小于它里面韵律的粒度。所以我现在都是基于字来处理，把分词结果和pos都作为一种特征，而不是直接基于词来做。

方便告知一下您程序里用到的“.utf-8”的数据格式吗？将数据格式发一下我邮箱可以吗？如果可以，将非常感谢。1217453447@qq.com

ysujiang commented 4 years ago

@XierHacker 冒昧问一下，您目前pph和iph的准确率和f1能达到多少啊

XierHacker commented 4 years ago

@XierHacker 冒昧问一下，您目前pph和iph的准确率和f1能达到多少啊

这个准确率是和数据集相关的哦，在数据集标注标准非常一致的情况下，通常纯句内#2#3（不统计任何标点符号带来的停顿）大概是77.x到79.x的样子，要是多个数据集混合（标准不一致），准确率有可能会下降的很厉害。所以对于这种来说，我觉得72到79之间的值都是完全可以接受的，这东西不考虑数据集只是仅仅看f1意义不是很大。

ysujiang commented 4 years ago

@XierHacker 冒昧问一下，您目前pph和iph的准确率和f1能达到多少啊

这个准确率是和数据集相关的哦，在数据集标注标准非常一致的情况下，通常纯句内#2#3（不统计任何标点符号带来的停顿）大概是77.x到79.x的样子，要是多个数据集混合（标准不一致），准确率有可能会下降的很厉害。所以对于这种来说，我觉得72到79之间的值都是完全可以接受的，这东西不考虑数据集只是仅仅看f1意义不是很大。

我将#1#2#3视为pw的停顿标识，#2#3视为pph的停顿标识，将字、词性、分词结果以及词的长度分别作为特征输入，我没有去任何标点。用的数据集是标贝数据集，结果让我很忧伤，pw的准确率和f1能达到90%以上，pph的准确率只能达到70%，f1仅仅有12%。随着epoch的增加，pw指标微微上升，pph一直在下降。您有什么改进的建议吗

joan126 commented 3 years ago

@ysujiang 能说一下utf-8”的数据格式吗？349662681@qq.com

XierHacker / Model_Fusion_Based_Prosody_Prediction

前端预处理问题 #2