Open ws4435700 opened 1 year ago
你好,关于extract-config中各爬取任务父子级的关系,不知道是不是可以大概讲下。 我这边调整“列表页”-“商品详情页”以及“商品评论”的父子孙级关系后, 发现无论是否有父子级关系,AmazonJdbcSinkSQLExtractor.isRelevant都会重复创建多次对目标url进行判断,但是在有父子级关系的时候,反而会漏掉部分url。不会使用孙级的判断来对url进行匹配。
当采集一个网页时,所有已注册的 AmazonJdbcSinkSQLExtractor.isRelevant 都会被调用来判断是否需要由该 extractor 进行后续处理,这很清晰。
AmazonJdbcSinkSQLExtractor 的层次结构用于同一个网页注册多个 Extractor,执行多个 X-SQL,譬如详情页主体部分一个 SQL,详情页中的评论由另一个SQL提取。
你好,关于extract-config中各爬取任务父子级的关系,不知道是不是可以大概讲下。 我这边调整“列表页”-“商品详情页”以及“商品评论”的父子孙级关系后, 发现无论是否有父子级关系,AmazonJdbcSinkSQLExtractor.isRelevant都会重复创建多次对目标url进行判断,但是在有父子级关系的时候,反而会漏掉部分url。不会使用孙级的判断来对url进行匹配。