own-pt / cl-wnbrowser

A collaborative editor for OpenWordnet-PT.
http://openwordnet-pt.org
Other
7 stars 8 forks source link

Better stats for completion of OWN-PT #141

Open vcvpaiva opened 8 years ago

vcvpaiva commented 8 years ago

instead of bars, I'd prefer numbers of synsets without Portuguese words. as I said in Dec, 16th:

eu acho que pelo menos as estatisticas do tamanho da OWN-PT a gente devia colocar no website sim, vou adicionar um "issue" pra isso.

this is because it's very difficult to see changes in the bars, while numbers we can see them going down, when we do work.

arademaker commented 8 years ago

Vou assumir que estamos falando da página:

http://wnpt.brlcloud.com/wn/stats

Neste caso, deixando o mouse sobre a barra, podemos ver os números. De qq forma, me parece que está página está um pouco obsoleta dado que os mesmos números podem ser consultados pelas facetas. Vide, por exemplo, em:

http://wnpt.brlcloud.com/wn/search?term=&start=0&limit=10&fq_lexfile=noun.plant

Mostra que temos 8030 synsets deste lexfile onde 5705 não tem palavras em PT. Nas estatísticas de noun.plant, chegamos ao mesmo valor dado que ela nos mostra 2325 synsets com palavras em PT deste lexfile.

arademaker commented 8 years ago

Se for reabrir, por favor argumentar.

vcvpaiva commented 8 years ago

Isso nao e' suficiente. Estatisticas para serem uteis precisam vir na forma de numero de uma tabela que nem em PWN, dividida por part-of[speech e mostrando quantos temos e quantos faltam. A divisao por lex files 'e boa e pode ser lida se alguem souber que hoveringo mouse 'e o que precisa ser feito, mas para o casual usuario, imaginando se quer usar ou nao o recurso uma tabela da forma descrita seria muito mais util.

arademaker commented 8 years ago

Para mim é demanda de baixa prioridade. Faremos quando possível. O projeto é open source, se aparecer interessados em contribuir também podemos aceitar pull request.

vcvpaiva commented 8 years ago

request for more stats: from TeP description in http://143.107.183.175:21480/tep2/TIL2008-MazieroEtAl.pdf "Atualmente, o TeP 2.0 contém 19.888 conjuntos de sinônimos e 44.678 unidades lexicais, tendo a média de 2,5 unidades por conjunto de sinônimos." Seria bom se a gente dizesse quantos synsets temos (eu calculo por subtracao, 117.659 - 70.351= 47,308) e quantas unidades lexicais (?) e o numero de unidades por synset, de acordo com a classe gramatical.