Closed irvcaza closed 2 years ago
Se eliminaron los titulos reptidos de Revista012.csv, Revista014.1.csv, Revista014.3.csv, Revista018.1.csv, Revista018.2.csv, Revista018.3.csv, Revista018.4.csv, Revista042.csv y Revista042.1.csv
¿Hubo algún cambio de código o cómo fue el proceso?
También se encontraron títulos repetidos en Revista014.3.csv
-
Estos fueron los cambios que se realizaron, se agregó replace ("Resumen",""). y en df_catalogo se elimina los titulos repetidos.
try: des=sitem.find('section', class='item abstract').get_text(strip=True) content_book['Resumen']=des.replace("Resumen","") except AttributeError: content_book['Resumen']=None
df=df_catalogo.drop(df_catalogo.index[[91,89,83,85,87,93,95,97,99,102,104,106,47,148,195]]) df
El mar, 2 ago 2022 a las 9:40, irvcaza @.***>) escribió:
¿Hubo algún cambio de código o cómo fue el proceso?
— Reply to this email directly, view it on GitHub https://github.com/JazminTo/web_scraping/issues/5#issuecomment-1202719117, or unsubscribe https://github.com/notifications/unsubscribe-auth/AWLP5K6T2AEYEZE2XKWWKZTVXEXNDANCNFSM54WFARJA . You are receiving this because you modified the open/close state.Message ID: @.***>
cfbf29518efc3d6433743488b7a7bc1edc626638 Completo la Revista014.3.csv.
No te recomiendo usar índices "hardcoded" ya que si por algo cambian los índices, aunque sea un poco, estarías eliminando otros artículos que no son.
Ter recomiendo algo como:
df = df_catalogo[~ df_catalogo["Titulo Articulo"].isin(["Editorial","editorial and acknowledgments","Comment and thanks"])]
Me parece bien la parte de de.replace("Abstract","")
(sin el guion) ya que eso permite eliminar la palabra Abstract que aparece en todos los artículos. (aunque cómo te comente en el correo es lo menos robusto)
Posterior a esto, puedes revisar si el Abstract es igual a -
, entonces cambiarlo a nulo. No usar replace porque puede borrar guiones importantes de Abstracts si encontrados
19e23f923352e42faa021214f1f12f63c4b17514 Completo muchas gracias si me funciono lo de --- df=df_catalogo[~ df_catalogo["Titulo Articulo"].isin(["Editorial","editorial and acknowledgments","Comment and thanks"])]
En la carpeta 20-07-2022 los siguientes archivos tienen títulos repetidos: