Closed jiaohuix closed 2 years ago
您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档、常见问题、历史Issue、AI社区来寻求解答。祝您生活愉快~
Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the API,FAQ,Github Issue and AI community to get the answer.Have a nice day!
您好,方便提供一个可复现的ai-studio链接吗?
您好,方便提供一个可复现的ai-studio链接吗?
我再整理下
您好,方便提供一个可复现的ai-studio链接吗?
https://aistudio.baidu.com/studio/project/partial/verify/4453654/833599e27735431290ddcf172189e134
您好,这个demo大概run下8分钟,50轮保存6个ckpt,每个是1.1g,最后查看了下output目录也是6个。但是最后结果是19g,多加一个就满了。
我在训练时会保留5个最好的权重,超过5个会用shutile.rmtree删除最差的,之前单卡或多卡都没出现过问题,现在虽然也保留了5个,但貌似没有清理干净??(在utils里) 训练时处理每一轮无论是不是验证bleu最高,我都会先保存下来,然后淘汰最低分数的ckpt,因为demo数据较少,所以分数加上了step_id,这样每轮都有分数更高的ckpt。(train.py里)
每个ckpt文件夹大小
您好,方便提供一个可复现的ai-studio链接吗?
您好,有时间帮我看下嘛?确实想不到啥问题orz,除了脚本任务,其他时候都挺正常的。 workspace/output下每写入一个文件都会被拷贝到什么地方么? 否则我最后下载的输出怎么是所有的model_best额。 .
您好,方便提供一个可复现的ai-studio链接吗?
您好,有时间帮我看下嘛?确实想不到啥问题orz,除了脚本任务,其他时候都挺正常的。 workspace/output下每写入一个文件都会被拷贝到什么地方么? 否则我最后下载的输出怎么是所有的model_best额。 .
看了下save-model方法,逻辑上应该没有问题。
if len(best_names)>nbest:
print("removing: {}".format(os.path.join(base_dir, best_names[0])))
shutil.rmtree(os.path.join(base_dir,best_names[0]))
print(os.path.exists(os.path.join(base_dir,best_names[0])))
您好,方便提供一个可复现的ai-studio链接吗?
https://aistudio.baidu.com/studio/project/partial/verify/4453654/833599e27735431290ddcf172189e134
您好,这个demo大概run下8分钟,50轮保存6个ckpt,每个是1.1g,最后查看了下output目录也是6个。但是最后结果是19g,多加一个就满了。
我在训练时会保留5个最好的权重,超过5个会用shutile.rmtree删除最差的,之前单卡或多卡都没出现过问题,现在虽然也保留了5个,但貌似没有清理干净??(在utils里) 训练时处理每一轮无论是不是验证bleu最高,我都会先保存下来,然后淘汰最低分数的ckpt,因为demo数据较少,所以分数加上了step_id,这样每轮都有分数更高的ckpt。(train.py里)
√1事实上的确是workspace/output目录的保存规则出现了变化,我先把文件输出到临时目录code/x/output,在临时目录增删,最后再统一拷贝到workspace/output就解决了。。。(以前workspace/output是等到最后才打包里面内容)
?2.日志问题还是在训练时不显示,这样只能通过估计了解进度,对于训练几天的模型有些不友好额orz
好的,那看来是aistudio这边对于output目录的保存规则有问题。麻烦先这样绕过吧,我这边拉对应的同学修复下。
path
ckpt里的优化器的参数(699m)似乎没有完整保存下来。。
的
大佬,还有日志!训练时候加载不出了现在,除非报错或结束才显示出来。虽然不看日志能节省很多时间,但少了很大的乐趣阿。
看起来现在的问题都和aistudio平台相关。建议去aistudio的官方渠道反馈下哈,他们比较在行。
看起来现在的问题都和aistudio平台相关。建议去aistudio的官方渠道反馈下哈,他们比较在行。
哦哦好的,谢谢!
问题描述 Please describe your issue
最近跑aistudio的脚本任务时,发现日志信息不能实时输出,基本上等到运行结束才显示,这是bug嘛? 还有就是下载输出20g,实际上我两三个g也保存失败了,为什么呢? 求大佬解惑。 一共是5个ckpt,每个只有400m,还是下载失败了orz。。。