platonai / exotic-amazon

A complete solution to crawl amazon at scale completely and accurately.
143 stars 46 forks source link

关于extract-config #33

Open ws4435700 opened 1 year ago

ws4435700 commented 1 year ago

你好,关于extract-config中各爬取任务父子级的关系,不知道是不是可以大概讲下。 我这边调整“列表页”-“商品详情页”以及“商品评论”的父子孙级关系后, 发现无论是否有父子级关系,AmazonJdbcSinkSQLExtractor.isRelevant都会重复创建多次对目标url进行判断,但是在有父子级关系的时候,反而会漏掉部分url。不会使用孙级的判断来对url进行匹配。

platonai commented 1 year ago

当采集一个网页时,所有已注册的 AmazonJdbcSinkSQLExtractor.isRelevant 都会被调用来判断是否需要由该 extractor 进行后续处理,这很清晰。

AmazonJdbcSinkSQLExtractor 的层次结构用于同一个网页注册多个 Extractor,执行多个 X-SQL,譬如详情页主体部分一个 SQL,详情页中的评论由另一个SQL提取。