Closed zqy137073635 closed 5 years ago
[{ “ name ”: “图片站”,//采集源站标题 “ key ”:“ key ”,//标示KEY “ url ”: “ https://www.malefile.com/ ”,// 域名,主要用于组合链接“ tags ”: [ //分类列表 { “ name ”: “女神”,“ url ”: “https://www.malefile.com//t/nvshen/ “ } //名称:分类名称,网址:分类地址 ] “ pages ”: { //外层页面采集规则 “ element ”: “ body> div.main> div.boxs> ul> li ”, //元素选择器 “ name ”: { //名称采集规则 “元素”: “ p.p_title> a ”, //元素选择器 “ attr ”: “ @ text ” // @text是取html元素的文本值,非此值则取attr属性,如title }, “ url ”: { //图集采集规则 “元素”: “ p.ptitle> a ”, //元素选择器 “ attr ”: “ href ”, // @ text是取html元素的文本值,非此值则取取attr属性,如标题 “ needMerge ”: false, //是否需要合并地址 }, “ nextPageUrlMode ”: { //下一页采集规则 “模式”: “添加”, //模式:添加(添加)替换(替换) “ replaceSearchValue ”: “。 html ”, // 替换搜索字符串“ replaceValue ”: “ {page} .html ”, //目标 替换值“ addValue ”: “ {page} .html ” //添加值 }, “ lastPage ”: { //最后一页匹配规则,主要是用于统计总页码 “元素”: “#pages> a ”, //元素选择器 “ minPageLength ”: 2, //最小采集的到页码数量才进行匹配,否则只执行当页 “ attr ”: “ @ text ”, // @ text是取html元素的文本值,非此值则取attr属性,如标题 “ descIndex ”: 2, //页码的元素index,倒序 “ isNeedSplit ”: 不对,//是否需要分割 “ splits ”: [ //分割,例如xxx_xx1.html的格式需要用到此值 { “ str ”:“ ”, “ index ”:2 }, // str:分割字符串,索引:下次分页的字符索引 { “ str ”:“。”, “ index ”:0 } ] } }, “ imgs ”: { //内页图片采集规则 “ element ”: “ body> div.content> center> img ”, //元素选择器 “ attr ”:“ href ”, // [v2]图片的属性值 “ singlePage “:true, // [v2]是否是单页面,即所有图片呈现在一个页面上 ” urlNeedMerge “: true, // [v2]图片链接是否需要合并拼接 ” nextPageUrlMode “:{ //同上 “ incrementMode ”: “ image ”,//采集增长模式image:图片页面:页面 “ mode ”: “ replace ”,//页面页码 替换模式,当incrementMode为图像时此值无效“ imageSuffix ”:“ jpg ” //图片后缀名 “ replaceSearchValue ”: “。 html ”,//同页此属性,当incrementMode为图像时此值无效 “ replaceValue ”: “ _ {page}。html “, //同页此属性,当incrementMode为image时此值无效 “ addValue ”: “ {page} .html ” //同页此属性,当incrementMode为image时此值无效 }, “ lastPage ”: { //通过页面此属性 “ element ”: “#pages> a ”, “ minPageLength ”: 2, “ attr ”: “ @ text ”, “ descIndex ”: 2, “ isNeedSplit ”: false, “拆分“: [] } }, “ supportReptileVersion ”: 1 //支持采集器的版本号 }]
[{ “ name ”: “图片站”,//采集源站标题 “ key ”:“ key ”,//标示KEY “ url ”: “ https://www.malefile.com/ ”,// 域名,主要用于组合链接“ tags ”: [ //分类列表 { “ name ”: “女神”,“ url ”: “https://www.malefile.com//t/nvshen/ “ } //名称:分类名称,网址:分类地址 ] “ pages ”: { //外层页面采集规则 “ element ”: “ body> div.main> div.boxs> ul> li ”, //元素选择器 “ name ”: { //名称采集规则 “元素”: “ p.p_title> a ”, //元素选择器 “ attr ”: “ @ text ” // @text是取html元素的文本值,非此值则取attr属性,如title }, “ url ”: { //图集采集规则 “元素”: “ p.ptitle> a ”, //元素选择器 “ attr ”: “ href ”, // @ text是取html元素的文本值,非此值则取取attr属性,如标题 “ needMerge ”: false, //是否需要合并地址 }, “ nextPageUrlMode ”: { //下一页采集规则 “模式”: “添加”, //模式:添加(添加)替换(替换) “ replaceSearchValue ”: “。 html ”, // 替换搜索字符串“ replaceValue ”: “ {page} .html ”, //目标 替换值“ addValue ”: “ {page} .html ” //添加值 }, “ lastPage ”: { //最后一页匹配规则,主要是用于统计总页码 “元素”: “#pages> a ”, //元素选择器 “ minPageLength ”: 2, //最小采集的到页码数量才进行匹配,否则只执行当页 “ attr ”: “ @ text ”, // @ text是取html元素的文本值,非此值则取attr属性,如标题 “ descIndex ”: 2, //页码的元素index,倒序 “ isNeedSplit ”: 不对,//是否需要分割 “ splits ”: [ //分割,例如xxx_xx1.html的格式需要用到此值 { “ str ”:“ ”, “ index ”:2 }, // str:分割字符串,索引:下次分页的字符索引 { “ str ”:“。”, “ index ”:0 } ] } }, “ imgs ”: { //内页图片采集规则 “ element ”: “ body> div.content> center> img ”, //元素选择器 “ attr ”:“ href ”, // [v2]图片的属性值 “ singlePage “:true, // [v2]是否是单页面,即所有图片呈现在一个页面上 ” urlNeedMerge “: true, // [v2]图片链接是否需要合并拼接 ” nextPageUrlMode “:{ //同上 “ incrementMode ”: “ image ”,//采集增长模式image:图片页面:页面 “ mode ”: “ replace ”,//页面页码 替换模式,当incrementMode为图像时此值无效“ imageSuffix ”:“ jpg ” //图片后缀名 “ replaceSearchValue ”: “。 html ”,//同页此属性,当incrementMode为图像时此值无效 “ replaceValue ”: “ _ {page}。html “, //同页此属性,当incrementMode为image时此值无效 “ addValue ”: “ {page} .html ” //同页此属性,当incrementMode为image时此值无效 }, “ lastPage ”: { //通过页面此属性 “ element ”: “#pages> a ”, “ minPageLength ”: 2, “ attr ”: “ @ text ”, “ descIndex ”: 2, “ isNeedSplit ”: false, “拆分“: [] } }, “ supportReptileVersion ”: 1 //支持采集器的版本号 }]