ArchiveTeam / NewsGrabber

Grabbing all news.
62 stars 32 forks source link

Automatically percent encode seed URLs #38

Open Arkiver2 opened 8 years ago

Arkiver2 commented 8 years ago

Example of a Python service file with a seed URL that should be percent encoded:

refresh = 7
version = 20160127.01

urls = ['http://www.hs.fi/',
        'http://www.hs.fi/uutiset/rss/',
        'http://www.hs.fi/rss/?osastot=kotimaa',
        'http://www.hs.fi/rss/?osastot=politiikka',
        'http://www.hs.fi/rss/?osastot=kaupunki',
        'http://www.hs.fi/rss/?osastot=ulkomaat',
        'http://www.hs.fi/rss/?osastot=talous',
        'http://www.hs.fi/rss/?osastot=urheilu',
        'http://www.hs.fi/rss/?osastot=kulttuuri',
        'http://www.hs.fi/rss/?osastot=ruoka',
        'http://www.hs.fi/uutiset/osastoittain/rss?osastot=elama,koti,terveys,tyyli,matka,ihmiset',
        'http://www.hs.fi/rss/?osastot=kuluttaja',
        'http://www.hs.fi/rss/?osastot=tiede',
        'http://www.hs.fi/rss/?osastot=autot',
        'http://www.hs.fi/rss/?osastot=tekniikka',
        'http://www.hs.fi/rss/?osastot=työelämä',
        'http://www.hs.fi/rss/?osastot=sunnuntai',
        'http://www.hs.fi/rss/?osastot=kuukausiliite']
regex = [r'^http?:\/\/[^\/]*hs\.fi']
videoregex = []
liveregex = []