mining-information-for-you / ha-bioinformatica

Bioinformática Hospital de Amor de Barretos.
https://www.hcancerbarretos.com.br/
0 stars 0 forks source link

Processamento dataset hg19_mcap #4

Closed leobiscassi closed 6 years ago

leobiscassi commented 6 years ago

Issue criada para documentar o passo-a-passo no desenvolvimento da rotina de processamento do dataset hg19_mcap. Os passos a seguir serão realizados:

leobiscassi commented 6 years ago

@rodrigofaccioli no último commit da branch annovar-etl, na pasta annovar/CassandraDB se encontram os arquivos annovar.cql e hg19_mcap.cql que definem o KEYSPACE e a tabela do dataset hg19_mcap. Criei um script que converte o arquivo txt que foi baixado do annovar para um csv, você poderia tentar subir esse KEYSPACE, tabela e tentar importar os dados do arquivo hg19_map.csv em sua máquina? Esse arquivo se encontra na pasta _dataset/annovar no dropbox.

rodrigofaccioli commented 6 years ago

@leobiscassi Somente para confirmar, todos os arquivos necessários para este teste encontram-se no github?

leobiscassi commented 6 years ago

@rodrigofaccioli fiz uma correção hoje a tarde, vou testar amanhã. Te pingo assim que commitar.

leobiscassi commented 6 years ago

A exploração inicial dos dados pode ser encontrada em [1].

[1] https://github.com/mining-information-for-you/sequence_databases/blob/annovar-etl/annovar/notebooks/01_explore_annovar_datasets.ipynb

leobiscassi commented 6 years ago

Code review solicitado na PR #16