Closed haoyihaoyi closed 3 years ago
@ohhhyeahhh @twotwo2 @WangJun-ZJUT @cszjut
您好, 首先非常感谢您开源这么棒的工作, 我在尝试复现您的training的部分, 所以有几个小问题想要请教您.
- 您在文章里写training的时候用的是SGD with initial learning rate of 0.001, 您指的是保持learning rate一直是0.001么? 还是像您的源代码里面写的一样, 先warm up, 再decay呢? 我想要知道要采用哪个learning rate来复现您的training.
- 关于batch size的话, 您paper里面写的是96, 但是源代码里面是 80, 我需要使用哪一个呢?
- 还有您在paper里面提到, 您的training用到了4块2080Ti, 我粗略的实验了一下, 感觉一块2080Ti的11G的内存就能够满足96的batch size, 所以想问您, 您的训练是分布在4块2080Ti上进行的么? 如果我只拿一块2080Ti训练的话, 需要改动一些训练参数么 例如learning rate 或者 batch size)? 训练效果会有差别么?
非常感谢您的时间, 期待您的回答.
您好, 首先非常感谢您开源这么棒的工作, 我在尝试复现您的training的部分, 所以有几个小问题想要请教您.
- 您在文章里写training的时候用的是SGD with initial learning rate of 0.001, 您指的是保持learning rate一直是0.001么? 还是像您的源代码里面写的一样, 先warm up, 再decay呢? 我想要知道要采用哪个learning rate来复现您的training.
- 关于batch size的话, 您paper里面写的是96, 但是源代码里面是 80, 我需要使用哪一个呢?
- 还有您在paper里面提到, 您的training用到了4块2080Ti, 我粗略的实验了一下, 感觉一块2080Ti的11G的内存就能够满足96的batch size, 所以想问您, 您的训练是分布在4块2080Ti上进行的么? 如果我只拿一块2080Ti训练的话, 需要改动一些训练参数么 例如learning rate 或者 batch size)? 训练效果会有差别么?
非常感谢您的时间, 期待您的回答.
1. 参考代码 2. 差别不是很大 3. 一块显卡显存不够的
非常感谢您的迅速回复. 关于内存部分, 是我的错误. 我试了一下training, 一块卡到epoch 11的时候, 会报错. batch size 96的话, 三块卡2080Ti的内存勉强够用的样子.
您好, 首先非常感谢您开源这么棒的工作, 我在尝试复现您的training的部分, 所以有几个小问题想要请教您.
您在文章里写training的时候用的是SGD with initial learning rate of 0.001, 您指的是保持learning rate一直是0.001么? 还是像您的源代码里面写的一样, 先warm up, 再decay呢? 我想要知道要采用哪个learning rate来复现您的training.
关于batch size的话, 您paper里面写的是96, 但是源代码里面是 80, 我需要使用哪一个呢?
还有您在paper里面提到, 您的training用到了4块2080Ti, 我粗略的实验了一下, 感觉一块2080Ti的11G的内存就能够满足96的batch size, 所以想问您, 您的训练是分布在4块2080Ti上进行的么? 如果我只拿一块2080Ti训练的话, 需要改动一些训练参数么 例如learning rate 或者 batch size)? 训练效果会有差别么?
非常感谢您的时间, 期待您的回答.