Realizar treinamento, validação e teste da LSTM e CNN usando word2vec - Githubissues

HaraHeique / TCC-rede-neural-siamesa

Trabalho Conclusão de Curso com a implementação da Rede Neural Siamesa do Campus IFES Serra.

4 stars 0 forks source link

Realizar treinamento, validação e teste da LSTM e CNN usando word2vec #31

Open HaraHeique opened 3 years ago

HaraHeique commented 3 years ago

Usar os seguintes word2vec:

google news;
wikipedia.

OBS.: Lembrar de alterar o max_seq_length para gerar a matriz de incorporação de palavras de forma correta.

Link para downloads dos modelos

HaraHeique commented 3 years ago

Todos os testes realizados foram feitos usando LSTM, pois se eu fizesse com CNN iria ter que fazer mais 6 testes, os quais iriam demorar bastante tempo e muito provavelmente sem resultados promissores/evolutivos;
Todos os testes foram realizados com as seguintes parametrizações:
- Subredes: LSTM;
- Medidade de similaridade: MANHATTAN;
- Partição treinamento/validação: 70/30;
- n_epochs: 50;
- max_seq_length: definido a partir das informações geradas do histograma do dataset utilizado (cru = 17; sw e sw + lemma = 9).

Google News

Dataset cru

history-graph-WORD2VEC_GOOGLE_NEWS-LSTM-MANHATTAN-70-30-50-17

similarity-values-LSTM-MANHATTAN-WORD2VEC_GOOGLE_NEWS

Dataset sem stopwords

history-graph-WORD2VEC_GOOGLE_NEWS-LSTM-MANHATTAN-70-30-50-9

similarity-values-LSTM-MANHATTAN-WORD2VEC_GOOGLE_NEWS

Dataset sem stopwords e lematizado

history-graph-WORD2VEC_GOOGLE_NEWS-LSTM-MANHATTAN-70-30-50-9

similarity-values-LSTM-MANHATTAN-WORD2VEC_GOOGLE_NEWS

Wikipedia

Dataset cru

history-graph-WORD2VEC_WIKIPEDIA-LSTM-MANHATTAN-70-30-50-17

similarity-values-LSTM-MANHATTAN-WORD2VEC_WIKIPEDIA

Dataset sem stopwords

history-graph-WORD2VEC_WIKIPEDIA-LSTM-MANHATTAN-70-30-50-9

similarity-values-LSTM-MANHATTAN-WORD2VEC_WIKIPEDIA

Dataset sem stopwords e lematizado

history-graph-WORD2VEC_WIKIPEDIA-LSTM-MANHATTAN-70-30-50-9

similarity-values-LSTM-MANHATTAN-WORD2VEC_WIKIPEDIA