Fase 2.A - Extracción de info películas desde IMDB

carla-caracola commented 2 months ago

Extraer información de las películas desde el sitio web de IMDB.

Criterios de aceptación:

[x] 1. Utilizar como entrada la lista de películas extraídas de la API (Fase 1).
[x] 2. La extracción debe ser automática utilizando Selenium.
[ ] 3. Tener la extracción de datos en funciones (obligatorio) y clases (optativo).
[x] 4. Se debe extraer la siguiente info listada debajo.
[x] 5. La información de la API deberá ser almacenada en una lista de tuplas. Cada tupla corresponderá a una película. Siguiendo el siguiente ejemplo:

[(7.7, 77, "Richard Donner", ["Chris ColumbusSteven", "Spielberg"], "Los Goonies son un grupo de amigos que viven en Goon Docks, Astoria, pero sus casas han sido compradas y van a ser demolidas. Sin embargo, vivirán su última aventura en busca de un tesoro que pueda salvar el barrio.", "Aventura", "1h 54min", "Los Gonnies"), ...]

Info a extraer:

Puntuación de IMDB (en caso de que la tenga).
Dirección (director/a o directore/as de cada película).
Guionistas (de cada película).
Argumento.
Duración (en minutos).
Nombre de la película

carla-caracola commented 2 months ago

@BeaDataArtist @CecileSC esta parte de la Fase 2 ya está lista para revisión. El código está puesto para iterar en una lista de testing que tiene solo 2 películas para que sea rápido.

No conseguí extraer el argumento de la peli desde esta página, pero si lo pude hacer desde la otra página.

carla-caracola commented 2 months ago

Esto ya está terminado para este Sprint. El punto 3, pasar a funciones no voy a llegar a cubrirlo ya que tuve mas complicaciones de las esperadas para hacer funcionar el código. He creado un ticket aparte para abordar eso: https://github.com/carla-caracola/cinem_extract_phyton_SQL/issues/13

carla-caracola / cinem_extract_phyton_SQL

Fase 2.A - Extracción de info películas desde IMDB #4