IIC2613 / Syllabus-2019-1

22 stars 3 forks source link

Dataset en Castellano #11

Closed alainrochette closed 5 years ago

alainrochette commented 5 years ago

Alguien ha encontrado un buen dataset en castellano? Todos lo que he encontrado tienen errores por las tildes, o son formateados mal, o son demasiados específicos a un tema. WikiCorpus no me muestran los caracteres con tildes...si alguien lo pudo bajar correctamente me avisa porfa!

FarDust commented 5 years ago

Hola, gracias por aportar esta fuente para la tarea, me fue de mucha utilidad , te recomiendo leer los archivos directamente en bytes y convertirlos a su representación numérica , luego filtrar aquellos que se salen del rango [0-255] si es que existen.

Si quieres que te salgan en editor de texto los tildes yo utilice codificación ISO 8859-16 (latin) [basicamente una codificación que incluyera esos caracteres con tildes]

Lo más probable es que el texto esté guardado en otra codificación que deja los tildes asignados a otros bytes distintos, puedes recorrerlo habiendo identificando previamente estas anomalías y reemplazarlas por la propia codificación es ASCII.

Me di cuenta de esto pues al abrirlo en UTF-8, la letra É que aparece con un signo '?', no es igual que al escribir É.