Dataset en Castellano - Githubissues

Hola, gracias por aportar esta fuente para la tarea, me fue de mucha utilidad , te recomiendo leer los archivos directamente en bytes y convertirlos a su representación numérica , luego filtrar aquellos que se salen del rango [0-255] si es que existen.

Si quieres que te salgan en editor de texto los tildes yo utilice codificación ISO 8859-16 (latin) [basicamente una codificación que incluyera esos caracteres con tildes]

Lo más probable es que el texto esté guardado en otra codificación que deja los tildes asignados a otros bytes distintos, puedes recorrerlo habiendo identificando previamente estas anomalías y reemplazarlas por la propia codificación es ASCII.

Me di cuenta de esto pues al abrirlo en UTF-8, la letra É que aparece con un signo '?', no es igual que al escribir É.

IIC2613 / Syllabus-2019-1

Dataset en Castellano #11