UniversalDependencies / UD_Portuguese-Bosque

This Universal Dependencies (UD) Portuguese treebank.
Other
49 stars 11 forks source link

completing documentation #52

Open livyreal opened 7 years ago

livyreal commented 7 years ago

Complete documentation for PT considering examples of our new version of Bosque. https://github.com/own-pt/bosque-UD/tree/master/ud-docs

livyreal commented 7 years ago

I finished the documentation for POS and dep rel https://github.com/own-pt/bosque-UD/tree/master/ud-docs. I'm now working on feature documentation.

@vcvpaiva and @claudiafreitas , could you review it?

vcvpaiva commented 7 years ago

@livyreal thanks for asking. I am a bit unsure about this as I see a text about verbs in the file called SYM.md (https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/SYM.md), which I expected to be about "SYMbols", not verbs.

I believe the idea in the documentation is to give paradigmatic examples, and perhaps one or two that might be confusing. So I suggest using something like "tinha sido nomeado" as an example of two auxs, instead of parece estar a influenciar, as "tinha sido" is much more used (at least in Brazil) and is a stacking of auxs in English too (had been).

in English I believe that "*começou a fazer" (began to make) and begin as an auxiliary verb is disputed. at least wikipedia does not list begin as a auxiliary verb at all

https://en.wikipedia.org/wiki/Auxiliary_verb#A_list_of_auxiliaries_in_English

I believe they talk about control and raising verbs when considering "parecer, comecar, acabar." but I only read https://www.academia.edu/12976843/Using_very_large_corpora_to_detect_raising_and_control_verbs

vcvpaiva commented 7 years ago

in https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/PUNCT.md are quotes (aspas) punctuation too? there's a difference between Portuguese-Bosque and the old Portuguese corpus in that Zeman considers ??? as X tag. I haven't been able to find it in Portuguese-Bosque, but I wonder if it would be punctuation or typo, what do you think?

vcvpaiva commented 7 years ago

as far as https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/INTJ.md goes, I think you need to add something to the effect that mwes interjections are common and interact with vocatives too.

the interjections in Zeman's corpus are não, rarará, Deus, é, Ah, BINGO, Taí, adeus, ai, alô but the ones in Portuguese-Bosque are: não, rarará, Deus, é, Ah, BINGO, Meu, Pois, Qual, Taí

vcvpaiva commented 7 years ago

@livyreal I have a great difficulty accepting "continuar" as an auxiliary MODAL verb. modal of what? auxiliary, I will be able to swallow, if you give me a canonical reference, modal is too hard.

vcvpaiva commented 7 years ago

@livyreal I feel that we shouldn't have the example acima, abaixo, "up, down"

in https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/ADV.md

because up means pra cima, not acima. and down means pra baixo, not abaixo. acima, abaixo is more like above, below. while up and down are in the direction of top and bottom.

vcvpaiva commented 7 years ago

@livyreal excellent work with writing the documentation! I have now read it all and complained abt the few bits (AUXs) that I disagree. thanks!

livyreal commented 7 years ago

documentation for SYM corrected, for PUNCT and ADV updated. I'll update INTJ doc after more discussion on MWE, since the new split do not follow all UD guidelines for mwe and this documentation is more corpora oriented than language oriented.

@vcvpaiva where did you find this "parece estar a influenciar" example? I can always add a simpler example but I did not find where it is.

"começar" "terminar" are called aspectualizers, because they focus the expressed moment into a specific point of the event line. I agree they are not modals, but aspectualizers. There is a big discussion on the differences and similarities of aspectualizers and auxiliaries. Here is a good work that summarized it and brings Portuguese examples and discussion. For now, I do not argue that aspectualizers should be under AUX or VERB, I just followed how Bosque treated them.

vcvpaiva commented 7 years ago

@livyreal in verb.md you have:

Note that we can have more than one auxiliary in a verbal phrase: parece estar a influenciar, where "parece" and "estar" should be tagged as auxiliaries. For example, ia fazer and começou a fazer, where "ir" and "começar" are auxiliaries. but I cannot see the reference for aspectualizers?

livyreal commented 7 years ago

the reference is http://revistas.ufpr.br/letras/article/download/7555/10546

vcvpaiva commented 7 years ago

@livyreal I have now read the paper, which is interesting, thanks, but I don't understand your point. Because I am complaining about comecar, aparecer, acabar being considered "auxliliaries". they are not in English and the paper also does not want them to be considered auxiliaries, so who wants them to be auxiliaries?

arademaker commented 7 years ago

@livyreal you said:

since the new split do not follow all UD guidelines for mwe and this documentation is more corpora oriented than language oriented.

mas não concordo! as documentações devem ser SIM sobre o português, não sobre o corpus. Por isso pedi exemplos curtos e não baseados nas ocorrências do corpus. Além disso, em que não estamos seguindo os guidelines sobre mwe?

livyreal commented 7 years ago

@vcvpaiva Matoso Camara's definition would include aspectualizers + main verbs as aux constructions.

Câmara Jr (1979, p. 163- 170) argues that the BP verbal periphrases are formed by an auxiliary verb, which has a mere grammatical meaning (categories of number, person, tense and mood) and a second main verb in the infinitive, gerund, or participle REVISTA LETRAS, CURITIBA, N. 73, P. 223-234, SET./DEZ. 2007. EDITORA UFPR. 225 WACHOWICZ, T. C. AUXILIARY AND ASPECTUALIZER VERBS: SOME SYNTACTIC AND SEMANTIC DISTINCTIONS forms. However, such composition brings about a number of aspectual interpretations: the permansive aspect (in ter ‘have’ + participle periphrases), the static duration aspect (in estar ‘be’ + gerund periphrases), the dynamic duration aspect (in ir ‘go’, vir ‘come’, and andar ‘walk’ + gerund periphrases), the terminative aspect (acabar ‘finish’ + gerund or infinitive), and finally the inceptive aspect (começar ‘start’ + inifinitive).

Bosque initial annotation follows it. All "começar" and "acabar" in this kind of constructions are tagged as aux. Since our version follows Bosque initial annotation, those verbs are also tagged as AUX in our new version.

livyreal commented 7 years ago

@arademaker o grupo de UD disse claramente que a documentação é pra ser sobre o corpus, vc não concorda pq? veja o caso da feature unsp. Isto tem tudo a ver com o nosso corpus e não com o português.

arademaker commented 7 years ago

@livyreal não foi isso que foi dito não:

https://github.com/UniversalDependencies/docs/pull/350

Nas páginas gerais, Dan concordou com comentários sobre os corpus, mas nas páginas específicas é sobre o português. E como já conversamos, os guidelines podem ter erros, o fato de ter uma página que não seguiu um padrão sugerido não deve ser argumento para fazermos igual.

claudiafreitas commented 7 years ago

as documentações devem ser sobre como o corpus em português codificou os guidelines gerais do UD... E discordo um pouco do Alexandre: embora exemplos curtos sejam bons, boas guidelines têm exemplos do corpus, por mais complicados que sejam. Porque em certos casos decisões podem ser arbitrárias, e saber que no caso tal a anotação foi feita de tal maneira ajuda a, no caso semi-tal, por analogia, manter a consistência da anotação.

livyreal commented 7 years ago

eu tento dar exemplos simples e do corpus (se eu acho um exemplo simples no corpus, não traduzo a sentença simples da guideline de UD, se eu não acho algo simples no corpus, uso o exemplo simples da guideline de ud traduzido + um exemplo complexo do corpus). eu concordo com a @claudiafreitas , exemplos do corpus são os que vão ajudar de verdade, não os simples, os simples ajudam a ter uma ideia de que estamos falando, por exemplo, estamos falando de sujeito, mas não dizem nada sobre sujeitos compostos, sujeitos de passivas, sujeitos ocultos e isto que é o importante da documentação de língua específica.

vcvpaiva commented 7 years ago

@livyreal Thanks for the explanation.

arademaker commented 7 years ago

@livyreal por favor, abra outro issue para este seu comentários sobre as MWE ? E/ou veja se já temos outro issue para isso. Depois apague este comentário daqui. Este issue aqui é sobre comentários gerais sobre a documentação.

arademaker commented 7 years ago

@claudiafreitas esta questão especifica dos exemplos é mais delicada e sugiro deixarmos para conversar. Uma analogia com programação seria que eu não ensino os alunos a programarem problemas difíceis de primeira, os primeiros exemplos são simples até eles entenderem a linguagem de programação. Problemas mais complicados colocamos depois. E note que estes exemplos dos 'casos reais' já aparecem nas páginas de documentação de UD sempre depois da documentação. Vide a página

http://universaldependencies.org/en/dep/nsubj.html

Note as seções de estatísticas seguidas de ocorrências da relação sendo documentada em cada corpus. Logo os casos 'reais' nos corpus vão vir automaticamente, a primeira etapa é documentar a idéia da relação, mais didática.

Mas insisto que as guidelines são sobre o português e como esperaríamos encontrar nos corpora de PT as relações e tags sendo usadas. Não estamos documentando como o Bosque foi feito ou decisões tomadas para a anotação do Bosque. Estamos fazendo guidelines para serem seguidas em todos os corpora de PT. Estas guidelines deverão especificar certos aspectos de UD para o português, idealmente justificando sempre que decidirmos no PT ir contra algo geral de UD.

Se durante a documentação de uma relação qualquer a @livyreal encontra algo diferente no corpus do que deveria ser, isto deverria virar um issue aqui para ser resolvido. O objetivo de fazer esta documentação é exatamente concordarmos sobre a 'intenção' de cada relação.