Repositório focado no trabalho de Tópicos Especiais de Engenharia de Software - Deep Learning para desenvolvimento de um modelo que gere poemas brasileiros
A partir da tecnologia escolhida, deve-se definir qual vai ser a pipeline escolhida para desenvolvimento para treinamento do modelo:
Foi indicado o uso dos tranformers por meio do professor, porém necessitamos entender ser realmente vamos utilizar o Tensorflow para treinamento da rede neural
Se utilizarmos a metodologia de Tokenizer para identificar a palavra para um respectivo número, precisamos remover redundâncias como palavras que possuem acento ou cedilha, por exemplo:
"é" ou "e"
"c" ou "ç"
Pode ser também que necessite de uma limpeza de dados antes da inserção dos dados de treinamento no modelo escolhido, vamo primeiramente tentar sem as quebras de linha para verificar que se o conteúdo resultante é entendível
A partir de uma construção exploratório em blocos por meio do jupyter, vamos verificar se conseguimos adequar o modelo utilizando uma pipeline do scikit-learn
Não conseguimos utilizar os transfromers em razão da implementação escolhida
As palavras que possuem acentos ou símbolos especiais não foram removidas, principalmente por seu conteúdo ser necessário para geração dos poemas
Quando os dados foram lidos pelo pandas percebemos algumas inconsistências, como a leitura de símbolos especiais como \r, o qual retiramos e também criamos um arquivo txt juntando todas as poesias, pois é desse jeito que é implementado no modelo que nos baseamos
Não definimos uma pipeline pois não estruturamos a forma com que o modelo está organizado
A partir da tecnologia escolhida, deve-se definir qual vai ser a pipeline escolhida para desenvolvimento para treinamento do modelo: