super-l / superl-url

根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款程序。可自动从多个搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。同时,也可以自定义忽略多条域名等。
http://www.msray.net/doc
618 stars 145 forks source link

请哪如何保留http://这个前缀 #3

Closed dengwen168 closed 5 years ago

dengwen168 commented 6 years ago

您好,我使用时选择“去除URL参数”, 采集到的网址结果是没有http://这个前缀的, 请问一下在哪里可以修改代码保留http://这个前缀? 谢谢。。

super-l commented 6 years ago

请查看"script"目录下的各个搜索引擎模块,找到下面代码,logfile.write()就是实现写入的,你可以手工把"http://"固定加在前面

                        if self.write_title:
                            if self.write_name:
                                logfile.write(self.search_name + realurl+'    '+title+'\n')
                            else:
                                logfile.write(realurl+'    '+title+'\n')
                        else:
                            if self.write_name:
                                logfile.write(self.search_name+realurl+'\n')
                            else:
                                logfile.write(realurl+'\n')
dengwen168 commented 6 years ago

非常感谢。。