alibaba / x-deeplearning

An industrial deep learning framework for high-dimension sparse data
Apache License 2.0
4.24k stars 1.03k forks source link

xdl.parsers.pb格式如何解析为文本数据? #339

Open mrchor opened 3 years ago

mrchor commented 3 years ago

我想问下,是否可以用普通Python模块解析xdl.parsers.pb格式?xdl不太好编译。

deerluffy commented 3 years ago

解析这个是为了什么呢?xdl 编译还好,装个docker 比较容啊

mrchor commented 3 years ago

哦哦,好的,想另外问一些ESMM模型对应的Ali-CCP数据集的处理,有两个问题: 1)这个里面的所有特征都是放到一个embedding矩阵表去lookup的么?是否有测试过各自特征域分别建立embedding矩阵表的效果? 2)针对这个embedding矩阵表是进行了hash处理呢,还是做的raw千万级的embedding矩阵表进行训练呢?

deerluffy commented 3 years ago

没有使用过,不敢乱答。只说一下之前做的一些处理,会把特征映射到一个id空间内,比如gender-男映射为1 gender-女为2 ,这样基本一个embedding就可以表示所有特征id,xdl会把embedding 分散在多个ps 之间进行存储。 看到阿里天池的数据,你这是作比赛吗?

mrchor commented 3 years ago

这个不是比赛数据,是阿里开源出来的多任务模型对应的数据集。