douban / dpark

Python clone of Spark, a MapReduce alike framework in Python
BSD 3-Clause "New" or "Revised" License
2.69k stars 534 forks source link

通过textFile创建rdd时,如何给每一行文本添加一个行号? #72

Closed fhyme closed 7 years ago

fhyme commented 7 years ago

通过textFile创建rdd,文件中的每一行是一个document,现在需要进行分词、转vector等,怎么样给每一行自动添加一个行号,跟其在text file中的对应行号一致

zzl0 commented 7 years ago

@fhyme 你需要的是 enumerate 吗?

    def enumerate(self):
        """
        enumerate this RDD.
        >>> dpark.parallelize(["a", "b", "c", "d"], 3).enumerate().collect()
        [(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd')]
        """
fhyme commented 7 years ago

@zzl0 原来有enumerate,多谢多谢,没有注意到