PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.16k stars 5.57k forks source link

【aistudio脚本任务 日志打印、下载输出】 #45297

Closed jiaohuix closed 2 years ago

jiaohuix commented 2 years ago

问题描述 Please describe your issue

最近跑aistudio的脚本任务时,发现日志信息不能实时输出,基本上等到运行结束才显示,这是bug嘛? 还有就是下载输出20g,实际上我两三个g也保存失败了,为什么呢? 求大佬解惑。 138f95ef815db236e323fc9dede6b28 SKL0ICH)_GZ@BC4U24MQ~T2 一共是5个ckpt,每个只有400m,还是下载失败了orz。。。 AY9%5)D0N`U~A(1WETEYN(V

paddle-bot[bot] commented 2 years ago

您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档常见问题历史IssueAI社区来寻求解答。祝您生活愉快~

Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the APIFAQGithub Issue and AI community to get the answer.Have a nice day!

minghaoBD commented 2 years ago

您好,方便提供一个可复现的ai-studio链接吗?

jiaohuix commented 2 years ago

您好,方便提供一个可复现的ai-studio链接吗?

我再整理下

jiaohuix commented 2 years ago

您好,方便提供一个可复现的ai-studio链接吗?

https://aistudio.baidu.com/studio/project/partial/verify/4453654/833599e27735431290ddcf172189e134

您好,这个demo大概run下8分钟,50轮保存6个ckpt,每个是1.1g,最后查看了下output目录也是6个。但是最后结果是19g,多加一个就满了。 5TP$CM24J10F{%7VKX S6BW ~ U$M}Z4CQK5@_ME$)P4A}B

我在训练时会保留5个最好的权重,超过5个会用shutile.rmtree删除最差的,之前单卡或多卡都没出现过问题,现在虽然也保留了5个,但貌似没有清理干净??(在utils里) `I@RT5JXZL503RKK~AZBC`W 训练时处理每一轮无论是不是验证bleu最高,我都会先保存下来,然后淘汰最低分数的ckpt,因为demo数据较少,所以分数加上了step_id,这样每轮都有分数更高的ckpt。(train.py里) 85 R4@}_CR`@0NH{`CB(O69

jiaohuix commented 2 years ago

52751335434e949c55abe7236a066c3 每个ckpt文件夹大小

jiaohuix commented 2 years ago

您好,方便提供一个可复现的ai-studio链接吗?

您好,有时间帮我看下嘛?确实想不到啥问题orz,除了脚本任务,其他时候都挺正常的。 workspace/output下每写入一个文件都会被拷贝到什么地方么? 否则我最后下载的输出怎么是所有的model_best额。 {}%3Z85ILPKT8QWE3P(E$X .

minghaoBD commented 2 years ago

您好,方便提供一个可复现的ai-studio链接吗?

您好,有时间帮我看下嘛?确实想不到啥问题orz,除了脚本任务,其他时候都挺正常的。 workspace/output下每写入一个文件都会被拷贝到什么地方么? 否则我最后下载的输出怎么是所有的model_best额。 {}%3Z85ILPKT8QWE3P(E$X .

看了下save-model方法,逻辑上应该没有问题。

  1. 可以加入print那行debug确认下是否那些被删除的model真的都被删除了吗?
  2. 我这边ai-studio没算力了,给你拉下相关负责同学看下是否是删除失败的问题。
  3. 不过我比较奇怪,如果每个文件夹都是1.1G的话,那应该保存了51个,已经远大于20GB了,确定每个文件夹中都有文件么?
        if len(best_names)>nbest:
            print("removing: {}".format(os.path.join(base_dir, best_names[0])))
            shutil.rmtree(os.path.join(base_dir,best_names[0]))
            print(os.path.exists(os.path.join(base_dir,best_names[0])))
jiaohuix commented 2 years ago

您好,方便提供一个可复现的ai-studio链接吗?

https://aistudio.baidu.com/studio/project/partial/verify/4453654/833599e27735431290ddcf172189e134

您好,这个demo大概run下8分钟,50轮保存6个ckpt,每个是1.1g,最后查看了下output目录也是6个。但是最后结果是19g,多加一个就满了。 5TP$CM24J10F{%7VKX S6BW ~ U$M}Z4CQK5@_ME$)P4A}B

我在训练时会保留5个最好的权重,超过5个会用shutile.rmtree删除最差的,之前单卡或多卡都没出现过问题,现在虽然也保留了5个,但貌似没有清理干净??(在utils里) I@RT5JXZL503RKK~AZBCW 训练时处理每一轮无论是不是验证bleu最高,我都会先保存下来,然后淘汰最低分数的ckpt,因为demo数据较少,所以分数加上了step_id,这样每轮都有分数更高的ckpt。(train.py里) 85 R4@}_CR@0NH{CB(O69

目前

√1事实上的确是workspace/output目录的保存规则出现了变化,我先把文件输出到临时目录code/x/output,在临时目录增删,最后再统一拷贝到workspace/output就解决了。。。(以前workspace/output是等到最后才打包里面内容) J~9MOCZAR~G3MSJI}1QJ4MS

image

?2.日志问题还是在训练时不显示,这样只能通过估计了解进度,对于训练几天的模型有些不友好额orz

minghaoBD commented 2 years ago

好的,那看来是aistudio这边对于output目录的保存规则有问题。麻烦先这样绕过吧,我这边拉对应的同学修复下。

jiaohuix commented 2 years ago
path

ckpt里的优化器的参数(699m)似乎没有完整保存下来。。 LG$N42(D_GFBX{ N_H8_ BA

jiaohuix commented 2 years ago

大佬,还有日志!训练时候加载不出了现在,除非报错或结束才显示出来。虽然不看日志能节省很多时间,但少了很大的乐趣阿。 138f95ef815db236e323fc9dede6b28

minghaoBD commented 2 years ago

看起来现在的问题都和aistudio平台相关。建议去aistudio的官方渠道反馈下哈,他们比较在行。

流程:https://aistudio.baidu.com/aistudio/index image

jiaohuix commented 2 years ago

看起来现在的问题都和aistudio平台相关。建议去aistudio的官方渠道反馈下哈,他们比较在行。

流程:https://aistudio.baidu.com/aistudio/index image

哦哦好的,谢谢!