Open livyreal opened 7 years ago
I finished the documentation for POS and dep rel https://github.com/own-pt/bosque-UD/tree/master/ud-docs. I'm now working on feature documentation.
@vcvpaiva and @claudiafreitas , could you review it?
@livyreal thanks for asking. I am a bit unsure about this as I see a text about verbs in the file called SYM.md (https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/SYM.md), which I expected to be about "SYMbols", not verbs.
I believe the idea in the documentation is to give paradigmatic examples, and perhaps one or two that might be confusing. So I suggest using something like "tinha sido nomeado" as an example of two auxs, instead of parece estar a influenciar, as "tinha sido" is much more used (at least in Brazil) and is a stacking of auxs in English too (had been).
in English I believe that "*começou a fazer" (began to make) and begin as an auxiliary verb is disputed. at least wikipedia does not list begin as a auxiliary verb at all
https://en.wikipedia.org/wiki/Auxiliary_verb#A_list_of_auxiliaries_in_English
I believe they talk about control and raising verbs when considering "parecer, comecar, acabar." but I only read https://www.academia.edu/12976843/Using_very_large_corpora_to_detect_raising_and_control_verbs
in https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/PUNCT.md are quotes (aspas) punctuation too? there's a difference between Portuguese-Bosque and the old Portuguese corpus in that Zeman considers ??? as X tag. I haven't been able to find it in Portuguese-Bosque, but I wonder if it would be punctuation or typo, what do you think?
as far as https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/INTJ.md goes, I think you need to add something to the effect that mwes interjections are common and interact with vocatives too.
the interjections in Zeman's corpus are não, rarará, Deus, é, Ah, BINGO, Taí, adeus, ai, alô but the ones in Portuguese-Bosque are: não, rarará, Deus, é, Ah, BINGO, Meu, Pois, Qual, Taí
@livyreal I have a great difficulty accepting "continuar" as an auxiliary MODAL verb. modal of what? auxiliary, I will be able to swallow, if you give me a canonical reference, modal is too hard.
@livyreal I feel that we shouldn't have the example acima, abaixo, "up, down"
in https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/ADV.md
because up means pra cima, not acima. and down means pra baixo, not abaixo. acima, abaixo is more like above, below. while up and down are in the direction of top and bottom.
@livyreal excellent work with writing the documentation! I have now read it all and complained abt the few bits (AUXs) that I disagree. thanks!
documentation for SYM corrected, for PUNCT and ADV updated. I'll update INTJ doc after more discussion on MWE, since the new split do not follow all UD guidelines for mwe and this documentation is more corpora oriented than language oriented.
@vcvpaiva where did you find this "parece estar a influenciar" example? I can always add a simpler example but I did not find where it is.
"começar" "terminar" are called aspectualizers, because they focus the expressed moment into a specific point of the event line. I agree they are not modals, but aspectualizers. There is a big discussion on the differences and similarities of aspectualizers and auxiliaries. Here is a good work that summarized it and brings Portuguese examples and discussion. For now, I do not argue that aspectualizers should be under AUX
or VERB
, I just followed how Bosque treated them.
@livyreal in verb.md you have:
Note that we can have more than one auxiliary in a verbal phrase: parece estar a influenciar, where "parece" and "estar" should be tagged as auxiliaries. For example, ia fazer and começou a fazer, where "ir" and "começar" are auxiliaries. but I cannot see the reference for aspectualizers?
the reference is http://revistas.ufpr.br/letras/article/download/7555/10546
@livyreal I have now read the paper, which is interesting, thanks, but I don't understand your point. Because I am complaining about comecar, aparecer, acabar being considered "auxliliaries". they are not in English and the paper also does not want them to be considered auxiliaries, so who wants them to be auxiliaries?
@livyreal you said:
since the new split do not follow all UD guidelines for mwe and this documentation is more corpora oriented than language oriented.
mas não concordo! as documentações devem ser SIM sobre o português, não sobre o corpus. Por isso pedi exemplos curtos e não baseados nas ocorrências do corpus. Além disso, em que não estamos seguindo os guidelines sobre mwe?
@vcvpaiva Matoso Camara's definition would include aspectualizers + main verbs as aux constructions.
Câmara Jr (1979, p. 163- 170) argues that the BP verbal periphrases are formed by an auxiliary verb, which has a mere grammatical meaning (categories of number, person, tense and mood) and a second main verb in the infinitive, gerund, or participle REVISTA LETRAS, CURITIBA, N. 73, P. 223-234, SET./DEZ. 2007. EDITORA UFPR. 225 WACHOWICZ, T. C. AUXILIARY AND ASPECTUALIZER VERBS: SOME SYNTACTIC AND SEMANTIC DISTINCTIONS forms. However, such composition brings about a number of aspectual interpretations: the permansive aspect (in ter ‘have’ + participle periphrases), the static duration aspect (in estar ‘be’ + gerund periphrases), the dynamic duration aspect (in ir ‘go’, vir ‘come’, and andar ‘walk’ + gerund periphrases), the terminative aspect (acabar ‘finish’ + gerund or infinitive), and finally the inceptive aspect (começar ‘start’ + inifinitive).
Bosque initial annotation follows it. All "começar" and "acabar" in this kind of constructions are tagged as aux
. Since our version follows Bosque initial annotation, those verbs are also tagged as AUX
in our new version.
@arademaker o grupo de UD disse claramente que a documentação é pra ser sobre o corpus, vc não concorda pq? veja o caso da feature unsp
. Isto tem tudo a ver com o nosso corpus e não com o português.
@livyreal não foi isso que foi dito não:
https://github.com/UniversalDependencies/docs/pull/350
Nas páginas gerais, Dan concordou com comentários sobre os corpus, mas nas páginas específicas é sobre o português. E como já conversamos, os guidelines podem ter erros, o fato de ter uma página que não seguiu um padrão sugerido não deve ser argumento para fazermos igual.
as documentações devem ser sobre como o corpus em português codificou os guidelines gerais do UD... E discordo um pouco do Alexandre: embora exemplos curtos sejam bons, boas guidelines têm exemplos do corpus, por mais complicados que sejam. Porque em certos casos decisões podem ser arbitrárias, e saber que no caso tal a anotação foi feita de tal maneira ajuda a, no caso semi-tal, por analogia, manter a consistência da anotação.
eu tento dar exemplos simples e do corpus (se eu acho um exemplo simples no corpus, não traduzo a sentença simples da guideline de UD, se eu não acho algo simples no corpus, uso o exemplo simples da guideline de ud traduzido + um exemplo complexo do corpus). eu concordo com a @claudiafreitas , exemplos do corpus são os que vão ajudar de verdade, não os simples, os simples ajudam a ter uma ideia de que estamos falando, por exemplo, estamos falando de sujeito, mas não dizem nada sobre sujeitos compostos, sujeitos de passivas, sujeitos ocultos e isto que é o importante da documentação de língua específica.
@livyreal Thanks for the explanation.
@livyreal por favor, abra outro issue para este seu comentários sobre as MWE ? E/ou veja se já temos outro issue para isso. Depois apague este comentário daqui. Este issue aqui é sobre comentários gerais sobre a documentação.
@claudiafreitas esta questão especifica dos exemplos é mais delicada e sugiro deixarmos para conversar. Uma analogia com programação seria que eu não ensino os alunos a programarem problemas difíceis de primeira, os primeiros exemplos são simples até eles entenderem a linguagem de programação. Problemas mais complicados colocamos depois. E note que estes exemplos dos 'casos reais' já aparecem nas páginas de documentação de UD sempre depois da documentação. Vide a página
http://universaldependencies.org/en/dep/nsubj.html
Note as seções de estatísticas seguidas de ocorrências da relação sendo documentada em cada corpus. Logo os casos 'reais' nos corpus vão vir automaticamente, a primeira etapa é documentar a idéia da relação, mais didática.
Mas insisto que as guidelines são sobre o português e como esperaríamos encontrar nos corpora de PT as relações e tags sendo usadas. Não estamos documentando como o Bosque foi feito ou decisões tomadas para a anotação do Bosque. Estamos fazendo guidelines para serem seguidas em todos os corpora de PT. Estas guidelines deverão especificar certos aspectos de UD para o português, idealmente justificando sempre que decidirmos no PT ir contra algo geral de UD.
Se durante a documentação de uma relação qualquer a @livyreal encontra algo diferente no corpus do que deveria ser, isto deverria virar um issue aqui para ser resolvido. O objetivo de fazer esta documentação é exatamente concordarmos sobre a 'intenção' de cada relação.
Complete documentation for PT considering examples of our new version of Bosque. https://github.com/own-pt/bosque-UD/tree/master/ud-docs