jackfengji / test_pro

Doc for dpark which is a python rewrite for spark
155 stars 43 forks source link

关于rdd的cache方法 #2

Open lizixing opened 12 years ago

lizixing commented 12 years ago

为什么要把

self.shouldCache = True

注释掉?

是cache这块的功能有问题么?注释掉的话那岂不是没法启用cache来做持久化了么。

jackfengji commented 12 years ago

目前cache这块还有一些问题,主要是GIL导致的,参考https://github.com/jackfengji/test_pro/wiki/DPark%E5%92%8CSpark%E7%9A%84%E5%8C%BA%E5%88%AB。 加入cache之后效果由于涉及到进程间内存共享,所以效果并不明显,我们正在努力尝试解决这个问题,当然如果你有好的建议欢迎提出。

lizixing commented 12 years ago

额,只好祝你们早日解决问题了。。

baisk commented 11 years ago

额. 现在这个效果由改观吗?

deafwolf commented 11 years ago

按我现在的体验,不使用cache也没有太大影响

miojibaiyu commented 8 years ago

我也发现这个问题了

darionyaphet commented 8 years ago

这是啥?我是不是去错地方了?