dotnetcore / DotnetSpider

DotnetSpider, a .NET standard web crawling library. It is lightweight, efficient and fast high-level web crawling & scraping framework
MIT License
3.98k stars 1.04k forks source link

这样更有灵活性 #172

Closed hajiuxbz closed 4 years ago

zlzforever commented 4 years ago

几个问题:

  1. 文件不全,只改一个文件其它依赖的编译不通过
  2. 查找替换为什么为更灵活?若是要替换,完全可以在 Parser 前替换好, Selector 只是查询器。你这样修改后,SelectorTests.Regex 失败,如何继续提供类似的查询?
hajiuxbz commented 4 years ago

额 不好意思 因为是在线看的代码 随手改的 以为会没问题

灵活在于 他包含了分组提取 也包含了 提取后重组 比如一些需要在提取结果前后加数据 这样就方便很多 特征$1 $2 特征 $1
$3,$2,$1 对数据进行微小的修改

hajiuxbz commented 4 years ago

具体场景的话 比如采一个评论他的作者和内容肯定必须是对应的,我们需要讲数据格式最终为 (?\S+)://(?\S+) ${author} : ${comments} 作者:"具体内容" ()

一个正则搞定 当然在Parser 也很简单 不过可以前者更方便点

zlzforever commented 4 years ago

非常感谢支持,若是可以帮我把 SelectorTests.Regex 调整到可通过,但是测试目的一致的话,我就 merge 进去。

hajiuxbz commented 4 years ago

可以 稍后我下载代码解决下

hajiuxbz commented 4 years ago

测试通过啦~

zlzforever commented 4 years ago

感谢,已经合并