PI-ITBA / 2024_01

7 stars 0 forks source link

Manejo de comillas en campos CSV #419

Open teofum opened 4 months ago

teofum commented 4 months ago

Algunas filas de ticketsNYC.csv tienen un campo plate encerrado en comillas, con un delimitador (;) adentro. Por ejemplo, la fila 87909714:

"K0;35084";2016-08-03;14;115;TRAFFIC

Como CSV es válido, pero quería saber si se supone que esté así en el archivo (no parece válido como patente) y si el programa tiene que manejar este caso de campos con comillas dobles, ya que suma bastante complejidad al parser (necesita entender contexto en vez de simplemente separar tokens por un delimitador).

El enunciado indica que se puede asumir que los datos son válidos, pero también aclara

se eliminaron algunos registros inválidos y columnas irrelevantes para el trabajo práctico especial

con lo cual me hace dudar si las pocas filas con este formato (unas 20 de 98 millones) son datos inválidos que quedaron en el CSV.

Gracias!

marcelogarberoglio commented 4 months ago

Son datos inválidos que tendríamos que haber eliminado. En los CSV se usan las comillas para los casos en los que la cadena contiene el símbolo que se usa para delimitar, pero en este caso no deberían estar. Pueden eliminar esas líneas del archivo En los tests que usaremos no habrá líneas inválidas.

teofum commented 4 months ago

Perfecto, muchas gracias.

fmeola commented 4 months ago

Hola @teofum Reabro la issue sólo para avisar que se subió una nueva versión del archivo Completo NYC