davidperezmartorell / forestMap

Map of forests and studies or inventories during the time
0 stars 0 forks source link

errores al importar datos #96

Closed davidperezmartorell closed 6 months ago

davidperezmartorell commented 7 months ago

Voy a agregar en este issue los errores que me he encontrado al importar comm_nodist_plants 1)Efectivamente importaba mal exccel. al abrir un csv puedes decirle columna a columna que es y el formato. esto me corrige muchos errores, a)numericos de Calvino en abundancia b) lat y lon pero, sigo encontrando algunos errores. los ire inventariando aqui. creo que es "mejor" trabajar los datos solo en R sin apsaar por excel y en su caso, que solo sea para ver los datos pero no para trabajarlos.

ERROR1 campos muy largos Parece que algunas lineas, cuando algun campo es demasiado largo, lo considera de algun modo un salto de línea. no se si porque encuentra un símbolo o porque el campo es muy largo. Aquí unos ejemplos image He jugado un poco con esto y parece que ocurre con varias columnas/campos. A ver como lo corrijo. Y ademas, puede ocurrir con varios campos. Creo que se puede limitar el número de caracteres por colummna.

ERROR2 Cuando lo encuentre lo pondré aqui y los ire numerndo todos los errores

davidperezmartorell commented 7 months ago

esta es la funcion que revisa en el paso numero 1 las especies en GBIF. escogo las especies sin repeticiones y las busco, asi no tengo que revisar las 290mil. GBIF corta la conexion un momento o oto y me rompe el programa, por eso escojo las especies sin repeticiones

El resultado separa en un archivo las especies con toda la taxonomia y otro con los errores, que luego reviso en la segunda ronda. Adjunto los 2 archivos y el código. Lo subiré a GITHUB pero no es un archivo para ejecutarse junto al programa , sino que se ejecuta solo 1 vez para ampliar la info de taxon_clean tax_cleanedOriginalVeroConError.csv

tax_cleanedOriginalVeroConTaxon.csv

davidperezmartorell commented 7 months ago

en la segunda vuelta busco mediante name_suggest los nombres que quedan de taxon_clean, tomo unicamente la primera palabra para buscar la taxonomia. los resultados me dan 2 listados, generos encontrados y generos no encontrados tax_cleanedOriginalVeroConTaxon2.csv tax_cleanedOriginalVeroConError2.csv

davidperezmartorell commented 7 months ago

con los datos que tengo los nombres de especies con su taxonomia, les doy valor a todo taxon_clean luego filtro para trabajar solo con plantas

3 COMBINE TAXON CLEAN WITH INFO FROM

Read the CSV file into a data frame

taxon_list <- read.csv("inst/tax_cleaned.csv", stringsAsFactors = FALSE, sep = ";", header = TRUE, fileEncoding = "latin1") tax_cleaned_unique <- read.csv("inst/tax_cleaned_unique.csv", stringsAsFactors = FALSE, sep = ";", header = TRUE, fileEncoding = "latin1")

Merge the data frames by taxon_clean and scientificName columns

merged_data <- merge(taxon_list, tax_cleaned_unique, by.x = "taxon_clean", by.y = "scientificName", all.x = TRUE) filtered_data <- subset(merged_data, kingdom == "Plantae")

este es el resultado final, taon_clean con el que trabakaré. a ver que tal los numeros. no he usado excel