这样更有灵活性 - Githubissues

dotnetcore / DotnetSpider

DotnetSpider, a .NET standard web crawling library. It is lightweight, efficient and fast high-level web crawling & scraping framework

MIT License

3.98k stars 1.04k forks source link

Closed hajiuxbz closed 4 years ago

zlzforever commented 4 years ago

几个问题：

文件不全，只改一个文件其它依赖的编译不通过
查找替换为什么为更灵活？若是要替换，完全可以在 Parser 前替换好， Selector 只是查询器。你这样修改后，SelectorTests.Regex 失败，如何继续提供类似的查询？

hajiuxbz commented 4 years ago

额不好意思因为是在线看的代码随手改的以为会没问题

灵活在于他包含了分组提取也包含了提取后重组比如一些需要在提取结果前后加数据这样就方便很多特征$1 $2 特征 $1
$3,$2,$1 对数据进行微小的修改

hajiuxbz commented 4 years ago

具体场景的话比如采一个评论他的作者和内容肯定必须是对应的，我们需要讲数据格式最终为 (?\S+)://(?\S+) ${author} : ${comments} 作者:"具体内容" ()

一个正则搞定当然在Parser 也很简单不过可以前者更方便点

zlzforever commented 4 years ago

非常感谢支持，若是可以帮我把 SelectorTests.Regex 调整到可通过，但是测试目的一致的话，我就 merge 进去。

hajiuxbz commented 4 years ago

可以稍后我下载代码解决下

hajiuxbz commented 4 years ago

测试通过啦~

zlzforever commented 4 years ago

感谢，已经合并