jcf94 / blog-comments

A repository for my personal blog.
http://jcf94.com/
2 stars 0 forks source link

分布式机器学习 / 深度学习论文整理 | Chenfan Blog #141

Open jcf94 opened 6 years ago

jcf94 commented 6 years ago

http://jcf94.com/2017/12/20/2017-12-20-distributeddl/

poryfly commented 4 years ago

大神,请教下,对于分布式训练出来的超大模型,线上serving有什么好的方案没呢?我们现在离线用tf,线上能用tf的ps模式改造成线上服务吗?

jcf94 commented 4 years ago

@poryfly 超大模型指的是模型并行训出来,单机没办法存下整个网络吗?我以前有见过有做医疗诊断方面把很大的 3D cnn 分块或者分层来在单卡上 inference 的,不过单机都 serve 不了的确实不多见。 业务方面我接触的比较少,可能给不了什么有用的建议,tf 里面应该有专门做 serving 的模块吧?比如这个: https://www.tensorflow.org/tfx/guide/serving

poryfly commented 4 years ago

@jcf94 @poryfly 超大模型指的是模型并行训出来,单机没办法存下整个网络吗?我以前有见过有做医疗诊断方面把很大的 3D cnn 分块或者分层来在单卡上 inference 的,不过单机都 serve 不了的确实不多见。 业务方面我接触的比较少,可能给不了什么有用的建议,tf 里面应该有专门做 serving 的模块吧?比如这个: https://www.tensorflow.org/tfx/guide/serving

明白,感谢您的答复了。我们的模型确实比较大,主要是embedding大,所以才考虑ps模式,tfserving单机不满足我们的场景

douhuazhou commented 4 years ago

你好,我现在刚开始看深度学习的分布式训练这一块,有点找不准方向,请问现在是主要针对模型的改进还是说具体算法的改进容易入手一些,比如说针对一个模型进行并行化处理来提高它的训练效率,还是针对数据并行或者模型并行这些算法的一些内容进行改进。能不能稍微指点一下方向, 非常感谢

jcf94 commented 4 years ago

你好,我现在刚开始看深度学习的分布式训练这一块,有点找不准方向,请问现在是主要针对模型的改进还是说具体算法的改进容易入手一些,比如说针对一个模型进行并行化处理来提高它的训练效率,还是针对数据并行或者模型并行这些算法的一些内容进行改进。能不能稍微指点一下方向, 非常感谢

你可以看一下这个知乎专栏里面的两篇科普文章:https://zhuanlan.zhihu.com/mlscale 应该基本上就会有一个大概的了解了。 个人的理解是,如果是工业界的话因为业务上会有特定对的需求,才会在某个专门的模型上去用手工优化等等方式做到极致,从学术研究的角度,无论是探索新技术还是要发论文什么的,肯定还是从数据并行、模型并行这个更通用的方面来考虑更好。 现在其实这方面的工作也有挺多了,但是深入下去还是有一些可做的点的,可以多看看 paper 先,有自己的理解之后可能就能有想法要做什么了。

douhuazhou commented 4 years ago

@jcf94

你好,我现在刚开始看深度学习的分布式训练这一块,有点找不准方向,请问现在是主要针对模型的改进还是说具体算法的改进容易入手一些,比如说针对一个模型进行并行化处理来提高它的训练效率,还是针对数据并行或者模型并行这些算法的一些内容进行改进。能不能稍微指点一下方向, 非常感谢

你可以看一下这个知乎专栏里面的两篇科普文章:https://zhuanlan.zhihu.com/mlscale 应该基本上就会有一个大概的了解了。 个人的理解是,如果是工业界的话因为业务上会有特定对的需求,才会在某个专门的模型上去用手工优化等等方式做到极致,从学术研究的角度,无论是探索新技术还是要发论文什么的,肯定还是从数据并行、模型并行这个更通用的方面来考虑更好。 现在其实这方面的工作也有挺多了,但是深入下去还是有一些可做的点的,可以多看看 paper 先,有自己的理解之后可能就能有想法要做什么了。

好的,谢谢大佬。我再找些paper看看。

meiyuan666 commented 4 years ago

谢谢您的总结,想请教您关于分布式深度学习中的梯度压缩怎么看。

Mrhs121 commented 4 years ago

博主你好,请问这个方向怎么做实验呢,改现有框架的代码还是自己实现一个框架呢?

meiyuan666 commented 4 years ago

你好,我目前刚接触这个方向,目前实验室做实验改进现有框架,以及自己实现框架的情况都有。我们主要是做分布式深度学习下数据并行中的通信压缩问题,主要是针对梯度的压缩。主要参考相关论文的代码,基于pytorch实现。

------------------ 原始邮件 ------------------ 发件人: "huangsheng"<notifications@github.com>; 发送时间: 2019年12月20日(星期五) 晚上9:00 收件人: "jcf94/blog-comments"<blog-comments@noreply.github.com>; 抄送: "LK"<2493258755@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [jcf94/blog-comments] 分布式机器学习 / 深度学习论文整理 | Chenfan Blog (#141)

博主你好,请问这个方向怎么做实验呢,改现有框架的代码还是自己实现一个框架呢?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.