Closed leoalenc closed 2 years ago
Neste commit, resolvi os problemas de etiquetagem apontados:
>>> Nheengatagger.tagWord('apekatu')
['A1']
>>> Nheengatagger.tagWord('ipé')
>>> Nheengatagger.tagWord('iepé')
['INDF']
>>> Nheengatagger.tagWord('iepé iepé')
['INDF']
>>> Nheengatagger.tagWord('suri')
['A2']
>>> Nheengatagger.tagWord('se')
['PRON2']
>>> Nheengatagger.tagWord('ne maã')
['INDF']
Lista de palavras ambíguas:
>>> for word,tags in Nheengatagger.DICTIONARY.items():
if len(tags) > 1:
print(word,tags)
('aintá',) ['PRON1', 'PRON2']
('akangaíua',) ['A1', 'N']
('amu',) ['INDF-PL', 'INDF']
('apigaua',) ['A1', 'N']
('arauara',) ['A1', 'N']
('auá',) ['INDF', 'INTRR']
('bũa',) ['A1', 'QUANT']
('ikeuara',) ['A1', 'N']
('irusanga',) ['A1', 'N']
('iuakapura',) ['A1', 'N']
('iuakauara',) ['A1', 'N']
('iuaté',) ['A1', 'N']
('kaapura',) ['A1', 'N']
('kaauara',) ['A1', 'N']
('kirimbaua',) ['A1', 'N']
('kuaíra',) ['A1', 'QUANT']
('kunhã',) ['A1', 'N']
('kunhãuara',) ['A1', 'N']
('kuximauara',) ['A1', 'N']
('maã',) ['INDF', 'INTRR', 'N']
('maãsiiara',) ['A1', 'N']
('marupiara',) ['A1', 'N']
('membeka',) ['A1', 'N']
('muíri',) ['INDF', 'INTRR']
('munhangara',) ['A1', 'N']
('pirasua',) ['A1', 'N']
('seẽ',) ['A1', 'N']
('ta',) ['PRON1', 'PRON2']
('tuiué',) ['A1', 'N']
('uaimĩ',) ['A1', 'N']
('ukauara',) ['A1', 'N']
Resolvida, ver, por exemplo, #39 e commits relacionados.
@dominickmaia e @juliana-gurgel, vejam como se comporta o algoritmo do
nheentiquetador-2.0
:Diversas palavras desapareceram que constam no arquivo
sn-yrl-dict.txt
. Por outro lado, ocorre a formanan
nestes exemplos:O algoritmo não leva em conta o fato de haver três colunas: