AlfredDuck / DoubanRent_nodejs_crawler

node.js crawler of DoubanRent project
MIT License
1 stars 0 forks source link

找不到帖子存贮的位置 #1

Open stephenzhao opened 8 years ago

stephenzhao commented 8 years ago

你好,我最近在研究node爬虫看到你这个 还挺兴奋的,但是跑了一下 ,看不到爬下来的帖子存储在什么位置啊, 我安装完后,把 线上数据库改成指向本地 我查了db

> db
search_engine_douban_group
> show collections
system.indexes
tiezi_urls

ties_urls里面存的事一些url

还有一个 数据库 search_engine_douban_group_tiezi_urls 却什么也没有。 请问 是我操作的不对么?

AlfredDuck commented 8 years ago

这个项目比较久了,之前的思路不太记得了。 这个tiezi_urls是每天清理一次的,它的存在是为了在一个小库里查重,而不用每次都去完整库里查重。大概是这样的思路

stephenzhao commented 8 years ago

想知道其他爬下来的数据放在什么地方里了呢?

AlfredDuck commented 8 years ago

没明白你的问题。如果你是本地 mongodb,数据的存放路径是你自己指定的。 /models 下就是所有的 collection,其中 content 这个就是用来存放帖子的。