EP1-US1-Avaliação de Apache OpenNLP

OpenNLP foi pesquisado quanto a:

-documentação: Parece ser completa, mas não é documentação para se conseguir fazer algo de útil. Dá a impressão que voce precisa ser acadêmico, ou que vc deva ser linguista pra uso da biblioteca. Não informa por exemplo: formato de arquivo de entrada para doccat e outras features. Não dá exemplos de uso prático de como se criar modelos para uso no seu pipeline, alem dos pré-existentes. O uso de qualquer feature tais como doccat, tokenization exige um modelo pré-existente na sua lingua (pt). Não tem no seu diretorio de modelos, indicação de como obter modelos na linguagem desejada, ou seja é limitada em termos de linguagens suportadas.

-exemplos práticos: Foi pesquisado no github por código que utiliza OpenNLP, e foram encontrados códigos que estão na faixa de idade entre 10 anos e 3 anos. A maioria não exercita o uso real prático mas sim apenas exercita as features da biblioteca, sem aparente uso prático. DocCat por exemplo foi testado e não achamos que funciona bem. Os exemplos encontrados que tem compilação e execução ok, estão apenas em lingua inglesa, não há exemplos de código que utiliza a biblioteca no contexto da lingua portuguesa.

-Resultado: Biblioteca não parece ser útil se não há modelos em PT, nem informação de como se chegar a construir modelos em PT.

Atualização em 2023-01-15 16:52

Retomamos a avaliação da biblioteca. O principal impeditivo para o uso da biblioteca é: falta de informação sobre o formato de arquivos datasets para treinar modelos para cada feature da biblioteca. Clonamos o projeto localmente e descemos até o codigo fonte para investigar e procurar pelas informações. Investigando os testes foi detectado o seguinte: -Existe código exercitando tokenização e detecção de sentenças em Português. -Recentemente fora adicionado suporte a abreviações em Portugues. -O detector de sentenças core (parece) não utiliza o suporte a abreviações em Portugues, mas pegamos o código de teste e portamos para ser utilizado como core. -Testamos para Português: Tokenização (ok), Detecção de Sentenças (ok) -Iremos agora avaliar o Document Categorizer e ver como essa feature se comporta em Inglês. Se for uma feature importante, vamos porta-la pra uso na lingua portuguesa.

miltonvincenttis / xprvry2-CB

EP1-US1-Avaliação de Apache OpenNLP #2