AddressForAll / LIXO-digital-preservation-BR

Preservação digital das principais fontes digitais do AddressForAll-Brasil
2 stars 0 forks source link

Florianopolis - Makefile #14

Closed ThierryAJean closed 3 years ago

ThierryAJean commented 3 years ago

Florianópolis Importar csv: com problema, layer duplicado e erro no formato tele

O arquivo csv deve ser formado dos e ter \r\n no final da linha

ingest2=# \d pk59_001_p1_cadvia
              Foreign table "public.pk59_001_p1_cadvia"
     Column     | Type | Collation | Nullable | Default | FDW options
----------------+------+-----------+----------+---------+-------------
 cd_atrb        | text |           |          |         |
 nm_atrb        | text |           |          |         |
 nm_descricao\r | text |           |          |         |
Server: files
FDW options: (filename '/tmp/sandbox/_pk59_001/atributo_logradouro.csv', format 'csv', header 'true', delimiter ',')

ele criou o campo nm_descricao\r com o \r no final

ghost commented 3 years ago

Esses dois commits pretendem tratar essa situação:

https://github.com/digital-guard/preserv-BR/commit/b4e6b848eb6da1dadcb9077d6ad5bb05e27419a8 https://github.com/digital-guard/preserv/commit/5b520df7d0e43906d45483fb2e56097061321f21

No arquivo de configuração utilizar como método csv2unix2utf8:

method: csv2unix2utf8

E indicar a codificação do csv em _csvencoding, nos fomatos aceitos pelo iconv, por exemplo:

csv_encoding: iso-8859-15

0e1 commented 3 years ago

Na branch template_floripa criei o template make_ref059a.mustache.mk para _pk59, baseado no recente make_conf.yaml adicionado nesse commit.

Alterei o layer cadvia de make_conf.yaml resultando no make_conf.yaml, para lidar com o arquivo csv que utiliza CRLF, de maneira que ele passe a usar LF.

Testei o funcionamento comentando todos os layers, exceto cadvia, e verificando se ocorria a troca de CRLF para LF.

Para os demais layers foram reutilizados os códigos disponíveis no make_ref027a.mustache.mk.