yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,Linux下训练和预测,支持Nvidia Jetson开发板预测。
https://yeyupiaoling.blog.csdn.net/article/details/102904306
Apache License 2.0
649 stars 143 forks source link

训练集和测试集的比例 #150

Closed real-CLiang closed 1 year ago

real-CLiang commented 1 year ago

您好! 我在使用您的代码进行训练时,我一起使用了thchs_30和aishell两个数据集。在训练时发现训练集和测试集的比例相差十分之大,请问您是有意这样做还是由于其他原因呢? 484bdcc7557b7d239026324cea3ea6e 我在网上查询到在万级别的数据集中,训练集和测试集的比例应该在9:1或者这附近波动,请问您为什么这样设置呢? (我深度学习小白,知识实在学的少) 求解答~

real-CLiang commented 1 year ago

我看到您代码中设置的是500:1 请问为啥要设置成这个比例呢? 8b4e78e750337b6a8ec1edace269a33

yeyupiaoling commented 1 year ago

看这里,如果你的数据列表中包含了test.txt,就不划分,如果不包含,就安装500:1

https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/blob/186113eb15bd957844477588e3869d132a48c9a3/create_data.py#L75

yeyupiaoling commented 1 year ago

数据量太多是,不需要这么多测试集

yeyupiaoling commented 1 year ago

建议使用新版本动态图 image

real-CLiang commented 1 year ago

好的,我现在使用这个新的动态图版本。 另外还有一个问题,就是我在实验室的服务器上来训练代码,我怎么样才能在本地电脑上使用visualdl来看到训练结果呢?我调了visualdl --logdir=log --host=0.0.0.0 该命令中的--host参数为我本地电脑的ip地址,但在浏览器还是打不开界面。

yeyupiaoling commented 1 year ago

--host参数 参数不要改,打开的IP的是实验室服务器地址

real-CLiang commented 1 year ago

所以我应该是修改我在浏览器登录的ip地址为服务器的ip地址,请问是这个意思嘛?

yeyupiaoling commented 1 year ago

嗯嗯

real-CLiang commented 1 year ago

好嘞! 谢谢您!~.~