m2dimi / ciwo

http://m2dimi.github.io/ciwo
GNU General Public License v2.0
0 stars 0 forks source link

Obtenir les données qui manquent depuis imdb avec le crawler de kimonolabs #2

Closed dguiscpo closed 9 years ago

dguiscpo commented 9 years ago

Connectez vous sur un url imdb de la liste globale et utilisez kimonolab pour extraire les informations pour cette page spécifique, sauvegardez l'api. Dans la page dédiée à cette nouvelle api sur kimonolabs, dans l'onglet crawl setup sélectionnez manual url list pour la crawl_strategy. Collez votre liste des urls dans la textarea et crawlez ... !

tonydimi commented 9 years ago

C'est fait. A présent dans notre base, les données supplémentaires que nous avons sont :

Comme vu ensemble en cours, je vous envoie le fichier CSV issu de Kimono.

tonydimi commented 9 years ago

Apparemment, le CSV contient uniquement le rating et le synopsis. J'avais pourtant bien pointé les acteur et les réalisateurs aussi... Comme vu ensemble par mail, je vous envoie l'export csv de la liste complète des films.

Merci

tonydimi commented 9 years ago

C'est fait, nous avons à présent toutes les données. Je ferme l'issue. Merci