codenautas / txt-to-sql

Tools for convert text data to SQL sentences
MIT License
2 stars 4 forks source link

Detectar automáticamente el ENCODING y/o UTF-8 #3

Closed emilioplatzer closed 8 years ago

emilioplatzer commented 8 years ago

Aclanza con detectar si es ASCII7, UTF8 u otro (que vamos a llamar ANSI):

  1. Si todos los bytes son code<=127 es ASCII7
  2. Es UTF8 si se cumple que:
    1. no todos los caracteres son ASCII7 (o sea code<=127), hay al menos un caracter continuador (o sea code>=128 y code<192
    2. cuando hay un code>=192 y code<224 debe seguirse de un continuador (solo uno)
    3. cuando hay un code>=224 y code<240 debe seguirse de dos continuadores (solo dos)
    4. cuando hay un code>=240 y code<248 debe seguirse de tres continuadores (solo tres)
    5. no debe haber otros continuadores que los especificados en los tres items anteriores
  3. Es ANSI si no cumple los dos primeros
diegoefe commented 8 years ago

No está resuelto