dunossauro / live-de-python

Repositório das lives de python semanais
https://youtube.com/@dunossauro
MIT License
1.17k stars 210 forks source link

[SUGESTÃO] Modelo NER com spacy #312

Open duanyrf opened 1 year ago

duanyrf commented 1 year ago

Assisti à Live de Python nº 226 - spaCy: Introdução a Processamento de Linguagem Natural. Foi muito massa, e fiquei curioso sobre como seria aplicar o Spacy a um domínio específico, como a área da saúde. O inscrito Geoffrey Moraes Porto perguntou na Live algo parecido com o que sugiro aqui. A ideia para um projeto prático seria a seguinte: identificar quais seriam os termos em um texto que se referem a exames médicos, como hemograma completo, raio X, ultrassonografia, etc. Essa base de termos específicos eu consigo gerar a partir de documentação disponível no site da Agência Nacional de Saúde - ANS. Para tornar a prática bem mais interessante, temos que lembrar que esses exames médicos possuem vários "apelidos" dados pelos médicos. Por exemplo, Raio X pode ser escrito como RX, ultrassonografia pode ser escrito como US ou USG. Além disso, vários desses exames referem-se a determinada parte do corpo: Raio X pode ser de braço, de pé direito, pé esquerdo, etc. E para facilitar o entendimento, esse conteúdo poderia ser divido em duas lives, de modo que o assunto pudesse ser abordado calmamente, sem correria.

dunossauro commented 1 year ago

Obrigado pela sugestão. Vou alterar o título dessa issue pra eu poder encontrar ela depois.

Relação com #303

dunossauro commented 1 year ago

Se formos usar um modelo médico como referência, o Kaglle tem um NER de medicina:

https://www.kaggle.com/datasets/finalepoch/medical-ner

Não está em português, mas podemos usá-lo como base para construir um modelo próprio!

Impeditivo para essa live

Conseguir um database com tags sobre medicina ou outro tema!