Closed alainrochette closed 5 years ago
Hola, gracias por aportar esta fuente para la tarea, me fue de mucha utilidad , te recomiendo leer los archivos directamente en bytes y convertirlos a su representación numérica , luego filtrar aquellos que se salen del rango [0-255] si es que existen.
Si quieres que te salgan en editor de texto los tildes yo utilice codificación ISO 8859-16 (latin) [basicamente una codificación que incluyera esos caracteres con tildes]
Lo más probable es que el texto esté guardado en otra codificación que deja los tildes asignados a otros bytes distintos, puedes recorrerlo habiendo identificando previamente estas anomalías y reemplazarlas por la propia codificación es ASCII.
Me di cuenta de esto pues al abrirlo en UTF-8, la letra É que aparece con un signo '?', no es igual que al escribir É.
Alguien ha encontrado un buen dataset en castellano? Todos lo que he encontrado tienen errores por las tildes, o son formateados mal, o son demasiados específicos a un tema. WikiCorpus no me muestran los caracteres con tildes...si alguien lo pudo bajar correctamente me avisa porfa!