obshtestvo / sledi-parlamenta

Надежден инструмент за справки и анализ на парламентарната активност
http://parliament.obshtestvo.bg/
The Unlicense
13 stars 3 forks source link

Crawler на търговския регистър (brra.bg) #10

Open antitoxic opened 11 years ago

antitoxic commented 11 years ago

Crawler на braa.bg

Трябва да се работи с phantomjs защото всичко е с JS там.

De-captcha услуги

За captcha-те да се ползва decaptha account - death by captcha и да се прегледат алтернативите. Ползвал съм няколко в работата. Като гледам има доста Това http://deathbycaptcha.com/ го водят добре развито. Има библиотеки за доста езици.

antitoxic commented 11 years ago

Концепцията за crawler на сайт който има много js линкове e тествана: https://github.com/obshtestvo/rating-gov-representatives/tree/master/apps/brra.bg-inquirer

antitoxic commented 11 years ago

Какво става като човек със същото име като депутата.