Titulos repetidos - Githubissues

irvcaza commented 2 years ago

En la carpeta 20-07-2022 los siguientes archivos tienen títulos repetidos:

Revista012.csv
- Presentación
- Estimating distribution area in six Argia damselflies (Insecta: Odonata: Coenagrionidae) including A. garrisoni, a threatened species
Revista014.1.csv
- Morpho-anatomy of seedlings in Pachycereeae species: until when are they seedlings?
- Plants from mining wastes from Taxco, Guerrero, Mexico
Revista014.3.csv
- Editorial
- Comentario y agradecimiento
Revista018.1.csv
- Table of Contents
- Editorial
Revista018.2.csv
- Table of Contents
- Full Issue
Revista018.3.csv
- Table of Contents
- Editorial
- Volume Index
- Authors Index
Revista018.4.csv
- Table of Contents
- Editorial
Revista042.csv
- Editorial
- Índice de nombres geográficos
- Índice general
- Capron, G., C. Icazuriaga Montes, S. Levi, E. Ribera Carbó y V. Thiébaut (eds.; 2011), La geografía contemporánea y Elisée Reclus
- Rodríguez Wallenius, C. (2020). Defender los territorios frente al despojo. Luchas socioambientales y disputa de proyectos de sociedad en México
Revista042.1.csv
- Editorial
- Presentación

JazminTo commented 2 years ago

Se eliminaron los titulos reptidos de Revista012.csv, Revista014.1.csv, Revista014.3.csv, Revista018.1.csv, Revista018.2.csv, Revista018.3.csv, Revista018.4.csv, Revista042.csv y Revista042.1.csv

irvcaza commented 2 years ago

¿Hubo algún cambio de código o cómo fue el proceso?

irvcaza commented 2 years ago

También se encontraron títulos repetidos en Revista014.3.csv

-
Book review
Book Review

JazminTo commented 2 years ago

Estos fueron los cambios que se realizaron, se agregó replace ("Resumen",""). y en df_catalogo se elimina los titulos repetidos.

try: des=sitem.find('section', class='item abstract').get_text(strip=True) content_book['Resumen']=des.replace("Resumen","") except AttributeError: content_book['Resumen']=None

df=df_catalogo.drop(df_catalogo.index[[91,89,83,85,87,93,95,97,99,102,104,106,47,148,195]]) df

El mar, 2 ago 2022 a las 9:40, irvcaza @.***>) escribió:

¿Hubo algún cambio de código o cómo fue el proceso?

— Reply to this email directly, view it on GitHub https://github.com/JazminTo/web_scraping/issues/5#issuecomment-1202719117, or unsubscribe https://github.com/notifications/unsubscribe-auth/AWLP5K6T2AEYEZE2XKWWKZTVXEXNDANCNFSM54WFARJA . You are receiving this because you modified the open/close state.Message ID: @.***>

JazminTo commented 2 years ago

cfbf29518efc3d6433743488b7a7bc1edc626638 Completo la Revista014.3.csv.

irvcaza commented 2 years ago

No te recomiendo usar índices "hardcoded" ya que si por algo cambian los índices, aunque sea un poco, estarías eliminando otros artículos que no son.

Ter recomiendo algo como: df = df_catalogo[~ df_catalogo["Titulo Articulo"].isin(["Editorial","editorial and acknowledgments","Comment and thanks"])]

Me parece bien la parte de de.replace("Abstract","") (sin el guion) ya que eso permite eliminar la palabra Abstract que aparece en todos los artículos. (aunque cómo te comente en el correo es lo menos robusto)

Posterior a esto, puedes revisar si el Abstract es igual a -, entonces cambiarlo a nulo. No usar replace porque puede borrar guiones importantes de Abstracts si encontrados

JazminTo commented 2 years ago

19e23f923352e42faa021214f1f12f63c4b17514 Completo muchas gracias si me funciono lo de --- df=df_catalogo[~ df_catalogo["Titulo Articulo"].isin(["Editorial","editorial and acknowledgments","Comment and thanks"])]

JazminTo / web_scraping

Titulos repetidos #5