NaiboWang / EasySpider

A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
https://www.easyspider.net
Other
30.37k stars 3.58k forks source link

在页面采集多列元素的时候,数据筛选新生成时,漏数据 #370

Open netmonitor opened 2 months ago

netmonitor commented 2 months ago

在页面进行同类元素采集的时候,数据拆分呈现时有bug:

  1. 正常情况下: 执行:选中子元素 -选项的时候,子元素里有规律的多段数据会被拆分到不同字段显示。
  2. 不正常情况下: 执行:选中子元素 -选项的时候,原本子元素里有规律的多段数据会被拆分到不同字段显示,但是会有个别内容会被错误拆分,形成与正常情况下要多出1个字段。原本相同显示的字段又是空白。

QQ图片20240504155121 QQ图片20240504155127

NaiboWang commented 2 months ago

这不是bug,而是页面结构就是这样设计的,子元素分割是按照标签类型来的,可以看一下两个字段的XPath,应该不是同一个。

netmonitor commented 2 months ago

感谢能在放假期间还能快速回复,附件是我的脚本,能否帮指点一下,如何才能完整的获取到跨字段的评论吗?谢谢。

------------------ 原始邮件 ------------------ 发件人: "NaiboWang/EasySpider" @.>; 发送时间: 2024年5月4日(星期六) 下午4:04 @.>; @.**@.>; 主题: Re: [NaiboWang/EasySpider] 在页面采集多列元素的时候,数据筛选新生成时,漏数据 (Issue #370)

这不是bug,而是页面结构就是这样设计的,子元素分割是按照标签类型来的,可以看一下两个字段的XPath,应该不是同一个。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

NaiboWang commented 2 months ago

这种情况,你把两个字段的字段名设置成同一个名称就可以把数据放在同一列了。

netmonitor commented 2 months ago

把需要合并的字段都改同一个名字,其中一个字段会采集不到。

------------------ 原始邮件 ------------------ 发件人: "NaiboWang/EasySpider" @.>; 发送时间: 2024年5月4日(星期六) 下午4:18 @.>; @.**@.>; 主题: Re: [NaiboWang/EasySpider] 在页面采集多列元素的时候,数据筛选新生成时,漏数据 (Issue #370)

这种情况,你把两个字段的字段名设置成同一个名称就可以把数据放在同一列了。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

NaiboWang commented 2 months ago

如果是你给的图的情况不应该采集不到,但如果是两个字段在同一个大块同时出现那么后面的字段会覆盖前面字段的值,这时候只能分开采集两个字段再手动合并一下,或者按照你图1的方式采集再手动拆分。