lw-lin / CoolplaySpark

酷玩 Spark: Spark 源代码解析、Spark 类库等
3.46k stars 1.41k forks source link

读取多个topic数据效率问题 #55

Closed yintengfei closed 3 years ago

yintengfei commented 3 years ago

structed streaming读取kafka多个topic(topic数据源不一样),是通过直接指定subscribe=topic1,topic2,topic3的方式效率高,还是对每个topic都得到各种的Dataset[KafkaData]然后进行unoin后进行处理的效率高?

lecssmi commented 3 years ago

这个应该是和在使用kafaka consumer api时,使用一个consumer,然后subsribe多个topic,和使用多个consumer,每个subscribe一个topic一样的效果吧。