Aqua-Dream / Tieba_Spider

百度贴吧爬虫(基于scrapy和mysql)
404 stars 116 forks source link

可以把三张表的内容合在一起吗,我想直接入kafka #18

Closed ZQbd closed 5 years ago

Aqua-Dream commented 5 years ago

结构不一样啊

ZQbd commented 5 years ago

结构不一样啊

我的意思数据组合成一条,就和三张表join后的效果一样。 但是我想爬取完就组合在一起,然后直接输出到kafka

ZQbd commented 5 years ago

结构不一样啊

我的意思数据组合成一条,就和三张表join后的效果一样。 但是我想爬取完就组合在一起,然后直接输出到kafka

数据类似于这种: image 你能帮忙看下吗,我试着改下了你的代码,没成功,之前没搞过python。。。

Aqua-Dream commented 5 years ago

你爬完之后写条sql自己join就好了吧?这都是primary-foreign key join应该不用多久。

ZQbd commented 5 years ago

你爬完之后写条sql自己join就好了吧?这都是primary-foreign key join应该不用多久。

我的意思是我不想存到mysql,我要直接组合好 入kafka,然后我会接流式处理框架分析。

Aqua-Dream commented 5 years ago

你爬完之后写条sql自己join就好了吧?这都是primary-foreign key join应该不用多久。

我的意思是我不想存到mysql,我要直接组合好 入kafka,然后我会接流式处理框架分析。

你可以看看pipeline.py里面的几个insert_xxx函数,这些函数会处理搜集到的单条信息,然后整理成sql语句插入。不过回复和帖子信息是分开的,没法直接组到一起。