JazminTo / web_scraping

Proyecto para hacer web scraping a revistas
1 stars 0 forks source link

Titulos repetidos #5

Closed irvcaza closed 2 years ago

irvcaza commented 2 years ago

En la carpeta 20-07-2022 los siguientes archivos tienen títulos repetidos:

JazminTo commented 2 years ago

Se eliminaron los titulos reptidos de Revista012.csv, Revista014.1.csv, Revista014.3.csv, Revista018.1.csv, Revista018.2.csv, Revista018.3.csv, Revista018.4.csv, Revista042.csv y Revista042.1.csv

irvcaza commented 2 years ago

¿Hubo algún cambio de código o cómo fue el proceso?

irvcaza commented 2 years ago

También se encontraron títulos repetidos en Revista014.3.csv

JazminTo commented 2 years ago

Estos fueron los cambios que se realizaron, se agregó replace ("Resumen",""). y en df_catalogo se elimina los titulos repetidos.

try: des=sitem.find('section', class='item abstract').get_text(strip=True) content_book['Resumen']=des.replace("Resumen","") except AttributeError: content_book['Resumen']=None

df=df_catalogo.drop(df_catalogo.index[[91,89,83,85,87,93,95,97,99,102,104,106,47,148,195]]) df

El mar, 2 ago 2022 a las 9:40, irvcaza @.***>) escribió:

¿Hubo algún cambio de código o cómo fue el proceso?

— Reply to this email directly, view it on GitHub https://github.com/JazminTo/web_scraping/issues/5#issuecomment-1202719117, or unsubscribe https://github.com/notifications/unsubscribe-auth/AWLP5K6T2AEYEZE2XKWWKZTVXEXNDANCNFSM54WFARJA . You are receiving this because you modified the open/close state.Message ID: @.***>

JazminTo commented 2 years ago

cfbf29518efc3d6433743488b7a7bc1edc626638 Completo la Revista014.3.csv.

irvcaza commented 2 years ago

No te recomiendo usar índices "hardcoded" ya que si por algo cambian los índices, aunque sea un poco, estarías eliminando otros artículos que no son.

Ter recomiendo algo como: df = df_catalogo[~ df_catalogo["Titulo Articulo"].isin(["Editorial","editorial and acknowledgments","Comment and thanks"])]

Me parece bien la parte de de.replace("Abstract","") (sin el guion) ya que eso permite eliminar la palabra Abstract que aparece en todos los artículos. (aunque cómo te comente en el correo es lo menos robusto)

Posterior a esto, puedes revisar si el Abstract es igual a -, entonces cambiarlo a nulo. No usar replace porque puede borrar guiones importantes de Abstracts si encontrados

JazminTo commented 2 years ago

19e23f923352e42faa021214f1f12f63c4b17514 Completo muchas gracias si me funciono lo de --- df=df_catalogo[~ df_catalogo["Titulo Articulo"].isin(["Editorial","editorial and acknowledgments","Comment and thanks"])]