cpdoc / dhbb-nlp

processamentos DHBB
Other
5 stars 2 forks source link

Frases anotadas com SRL #53

Open lucasrct opened 4 years ago

lucasrct commented 4 years ago

Na pasta srl, coloquei o arquivo 99.srl onde adicionei uma coluna extra para o SRL.

A notação da IBM era muito ruim pois adicionava duas colunas para cada verbo na frase, portanto criei a seguinte definição:

Uma coluna extra no final, e cada verbo terá nessa coluna: (exemplo João nasceu no Rio de Janeiro em 2 de Fevereiro de 1988)

Na coluna onde existe a informação do token "nasceu", terá:

nascer:A0=none:A1=João:ARG-LOC=Rio:ARG-TMP=2 (no arquivo .srl a informação é referente ao número do token)

Com isso fica bem fácil de trabalhar com a informação e evita a criação de muitas colunas. Essa informação pode inclusive fazer parte da coluna com as infromações extras do verbo.

Fiz para todas as frases do arquivo 99.conllu, coloquei como nome 99.srl e criei um script para mostrar o SRL por sentença, basta rodar (tem que ter a biblioteca conllu em python)

python3 show_relations.py 4

para mostrar o SRL da sentença 4 no arquivo. Dá para usar o Emacs também.

Fazendo, percebi que teremos alguns problema com a extração de informação por essa vertente, começando com as frases que contém sujeito oculto.

Outro problema seria para reconstruir a palavra. Veja no exemplo acima, o ARG-TMP é igual a 2, precisaremos de uma maneira de capturar o NE 2 de fevereiro, para uma sentença arbitrária, isso não é trivial.

Podemos conversar melhor amanhã sobre isso e também sobre o issue anterior.