SmallNana / STSGCN_Pytorch

73 stars 20 forks source link

提问 #6

Open wy123go opened 2 years ago

wy123go commented 2 years ago

作者,你好,请问你的train文件跑了多久呢?我用自己电脑3060跑了七八个小时都还没生成模型的,我看您是在linux跑的,这二者速度会差很大吗?请作者能百忙之中抽出时间解答,十分感谢

SmallNana commented 2 years ago

作者,你好,请问你的train文件跑了多久呢?我用自己电脑3060跑了七八个小时都还没生成模型的,我看您是在linux跑的,这二者速度会差很大吗?请作者能百忙之中抽出时间解答,十分感谢

你好,很高兴你的提问,针对你的几个问题,我提出我的看法:

  1. 你可以看看 data文件夹里的 [log_PEMSD4]和[log_PEMSD8],这两个日志文件分别记录了我跑 pems04和pems08的完整过程,里面有你想要的数据,包括完整的训练时间等;
  2. 是不是用Linux跑,速度会有差别我无法回答,因为我没有用非Linux系统跑过模型
  3. 按照你的描述,跑了7、8个小时都没生成模型,会不会是因为 batch_size的大小?又或者是因为 3060的原因,我记得我当时是在学校的服务器上跑的模型(貌似算力设备是 Tesla v100)?具体的原因我还无法分析,抱歉
  4. 哪怕算的慢,只要你的后台正常进行,生成了 log文件【记忆里是会自动保存在data文件夹里】,一定是能生成模型的 以上是我的想法,希望能对你有所帮助
wy123go commented 2 years ago

作者,你好,请问你的train文件跑了多久呢?我用自己电脑3060跑了七八个小时都还没生成模型的,我看您是在linux跑的,这二者速度会差很大吗?请作者能百忙之中抽出时间解答,十分感谢

你好,很高兴你的提问,针对你的几个问题,我提出我的看法:

  1. 你可以看看 data文件夹里的 [log_PEMSD4]和[log_PEMSD8],这两个日志文件分别记录了我跑 pems04和pems08的完整过程,里面有你想要的数据,包括完整的训练时间等;
  2. 是不是用Linux跑,速度会有差别我无法回答,因为我没有用非Linux系统跑过模型
  3. 按照你的描述,跑了7、8个小时都没生成模型,会不会是因为 batch_size的大小?又或者是因为 3060的原因,我记得我当时是在学校的服务器上跑的模型(貌似算力设备是 Tesla v100)?具体的原因我还无法分析,抱歉
  4. 哪怕算的慢,只要你的后台正常进行,生成了 log文件【记忆里是会自动保存在data文件夹里】,一定是能生成模型的 以上是我的想法,希望能对你有所帮助

十分感谢作者您的回复,您的log文件里只保存了epoch的过程,而没有iter,然而我自己跑的是有的,是因为log日志是忽略保存的iter的吗`

data loaded! 0%| | 0/10 [00:00<?, ?it/s]Applying learning rate decay. 模型可训练参数: 1,401,232 GPU使用情况:5.612032 compiling model... Iter: 000, Train Loss: 138.7077, Train MAE: 139.2068, Train MAPE: 3.1075, Train RMSE: 165.7099, lr: 0.003 Iter: 050, Train Loss: 85.7515, Train MAE: 86.2502, Train MAPE: 1.0174, Train RMSE: 110.0574, lr: 0.003 Iter: 100, Train Loss: 82.4482, Train MAE: 82.9467, Train MAPE: 0.8324, Train RMSE: 111.0840, lr: 0.003`

SmallNana commented 2 years ago

作者,你好,请问你的train文件跑了多久呢?我用自己电脑3060跑了七八个小时都还没生成模型的,我看您是在linux跑的,这二者速度会差很大吗?请作者能百忙之中抽出时间解答,十分感谢

你好,很高兴你的提问,针对你的几个问题,我提出我的看法:

  1. 你可以看看 data文件夹里的 [log_PEMSD4]和[log_PEMSD8],这两个日志文件分别记录了我跑 pems04和pems08的完整过程,里面有你想要的数据,包括完整的训练时间等;
  2. 是不是用Linux跑,速度会有差别我无法回答,因为我没有用非Linux系统跑过模型
  3. 按照你的描述,跑了7、8个小时都没生成模型,会不会是因为 batch_size的大小?又或者是因为 3060的原因,我记得我当时是在学校的服务器上跑的模型(貌似算力设备是 Tesla v100)?具体的原因我还无法分析,抱歉
  4. 哪怕算的慢,只要你的后台正常进行,生成了 log文件【记忆里是会自动保存在data文件夹里】,一定是能生成模型的 以上是我的想法,希望能对你有所帮助

十分感谢作者您的回复,您的log文件里只保存了epoch的过程,而没有iter,然而我自己跑的是有的,是因为log日志是忽略保存的iter的吗`

data loaded! 0%| | 0/10 [00:00<?, ?it/s]Applying learning rate decay. 模型可训练参数: 1,401,232 GPU使用情况:5.612032 compiling model... Iter: 000, Train Loss: 138.7077, Train MAE: 139.2068, Train MAPE: 3.1075, Train RMSE: 165.7099, lr: 0.003 Iter: 050, Train Loss: 85.7515, Train MAE: 86.2502, Train MAPE: 1.0174, Train RMSE: 110.0574, lr: 0.003 Iter: 100, Train Loss: 82.4482, Train MAE: 82.9467, Train MAPE: 0.8324, Train RMSE: 111.0840, lr: 0.003`

你好,是的。log文件只会记录每一个epoch的数据