通过textFile创建rdd时，如何给每一行文本添加一个行号？

douban / dpark

Python clone of Spark, a MapReduce alike framework in Python

BSD 3-Clause "New" or "Revised" License

2.69k stars 534 forks source link

通过textFile创建rdd时，如何给每一行文本添加一个行号？ #72

Closed fhyme closed 7 years ago

fhyme commented 7 years ago

通过textFile创建rdd，文件中的每一行是一个document，现在需要进行分词、转vector等，怎么样给每一行自动添加一个行号，跟其在text file中的对应行号一致

zzl0 commented 7 years ago

@fhyme 你需要的是 enumerate 吗？

    def enumerate(self):
        """
        enumerate this RDD.
        >>> dpark.parallelize(["a", "b", "c", "d"], 3).enumerate().collect()
        [(0, 'a'), (1, 'b'), (2, 'c'), (3, 'd')]
        """

fhyme commented 7 years ago

@zzl0 原来有enumerate，多谢多谢，没有注意到