Open gaocegege opened 6 years ago
TFX 已经开源的部分 From Google IO
谷歌觉得,一个完整的机器学习系统,需要包括这么几个方面:
我个人比较关注 tuner 和 trainer,所以这篇论文里我主要是仔细看了 trainer 的部分。文中对 trainer 讲的也不少,主要是有以下这么几个方面。
首先是 Warm-Starting,这个是受到迁移学习的启发。因为有些时候训练时间太长是不能接受的,或者有的数据集很小,不能完成很好的训练。这个时候可以先从一个 base 的数据集训练一个 base 的 network,然后基于这个 base 的 network 再去训练,一方面降低了对数据的需求,另一方面,基于 base network 去做收敛的也更快。这里他们用的方法是识别出一些比较 general 的参数,比如 embeddings of sparse features,然后用之前训练的结果去初始化这些参数。很 trick 但应该可以 work。据说这个开源了不知道是不是:
然后就讲了一些高层抽象的好处:
这个我就不太熟悉了。
http://www.kdd.org/kdd2017/papers/view/tfx-a-tensorflow-based-production-scale-machine-learning-platform
KDD 2017 Applied Data Science Paper KDD’17, August 13–17, 2017, Halifax, NS, Canada 1387