spraakbanken / L2_profiles

RJ funded project - documentation, issues, etc
2 stars 0 forks source link

problem a-b i legato #5

Open bsilen opened 5 years ago

bsilen commented 5 years ago

Hej! Jag har gått igenom MWE:s som börjar på a och b och har hittat en del problem: allt mindre - där ges exempel med "allt längre" och "framför allt nere". Följande enhet är "allt möjligt. Jag undrar om dessa fraser är korrekta. Tror det finns en konstruktion "allt ... -re" allt större, allt värre etc och en annan med allt möjligt, roligt, trevligt etc. Har skippat dessa fraser.

"Andas in" med betydelsen "lugn". Det ges samma exempel som för den första betydelsen. Dessutom undrar jag om "andas in" ger betydelsen bli lugn. Är det inte "andas ut" som kan få den betydelsen.

ansikte mot ansikte - samma exempel ges två gånger.

arbeta bort - det andra exemplet är konstigt.

au-pair-flicka - Är det meningen att sammansatta ord ska tas upp under MWE?

av och till - samma exempel ges 2 ggr

av sig själv - första och tredje exemplet är fel.

"bara förnamnet" är ju ingen fras.

Jag förstår inte skillnaden mellan de båda enheterna "bland annat", den första NN och den andra PP. Kollade att SAG klassar bland annat som satsadverbial.

blanda ihop - de två exemplen som ges är väldigt olika, det ena konkret och det andra abstrakt ('förväxla'). Blir svårt att avgöra hur transparent frasen är.

bli utan - alla exemplen är fel.

bo över - fel exempel (över är inte partikel i det).

bortsett från - samma exempel upprepas.

bryta in - Alla exemplen innehåller "sig". Tror frasen borde vara "bryta sig in". Betvivlar att fraser som "Fienden bröt in i landet" eller "Gryningen bröt in" förekommer i läroböckerna.

byta ut - Betydelsen anges vara 'ersätta' men exemplen ger betydelsen 'växla'. I exemplen är verbet "utbyta" - partikeln kan inte särskiljas från verbet.

Varför kommer "både och" två gånger?

bära ner - samma exempel ges 3 gånger.

bära sig - exemplen är fel.

"bäst som" är plockat ur idiomet "Skattar bäst som skrattar sist". Borde det inte vara ordspråket som utgör enheten?

thereseLT commented 5 years ago

@bsilen Jag håller på och svarar på alla dessa separat och göra bilder till guidelines för att beskriva mer. Vissa saker hade jag redan lagt in i de uppdaterade guidelines förra veckan eller så, så titta gärna på MWE i Legato guidelines. Där finns bla andas in med.

Vad gäller exemplen så kommer ibland samma sats två gånger MEN observera att det är olika delar i den som markerats. Men de delar som markerats är bara en del av det uttryck som exemplifieras. Jag måste fråga David @daalft hur meningarna valts ut och vad principen i uppmarkeringen är. Jag trodde det skulle vara det som stod i fokus som skulle framhävas med . .

thereseLT commented 5 years ago

David could you please have a look at "både och"? They really are identical lemgrams and senses so why are there two entries? @daalft The only difference is that they are from different CEFR-levels.

daalft commented 5 years ago

både och: This is an error on my part. I thought I had corrected all errors of this kind. They are different because one contains first one dot then two dots and the other the other way around.

Things in sentences can get marked differently because the constituents of MWEs can be marked up separately. The original script for markup does not deal with MWEs, so there is aberrant behavior.

Another point is that example sentences are selected based on sense, but the list itself is based on lemgrams. Thus, if a lemgram is an MWE but has a non-MWE sense, then there might be discrepancy. There is no way around this, since we have to differentiate on the basis of senses.

thereseLT commented 5 years ago

både och: This is an error on my part. I thought I had corrected all errors of this kind. They are different because one contains first one dot then two dots and the other the other way around.

Ok, yes I noticed later today that there was a difference in the number of dots in several double entries. I have them in a separate file.

Things in sentences can get marked differently because the constituents of MWEs can be marked up separately. The original script for markup does not deal with MWEs, so there is aberrant behavior.

Another point is that example sentences are selected based on sense, but the list itself is based on lemgrams. Thus, if a lemgram is an MWE but has a non-MWE sense, then there might be discrepancy. There is no way around this, since we have to differentiate on the basis of senses.

I see. There is no way of combining the two in selecting examples? Anyway, I will just add a comment about this in the guidelines. And where are the examples selected from? Sometimes they are not from Coctaill.

thereseLT commented 5 years ago

But if the examples are based on sense only and not sense in relationship to lemgram will they then help? They can be quite different to the lemgram. E.g. example 151 under MWE - lemgram "en gång" and sense "en gång till". Here the lemgram should be "en gång till" also but it isn't, so it makes it hard to know what to annotate.

Cf also the other 5 examples of "en gång" which all have a sense which is much more specific.

We also have the two lemgrams "dra ner" and "dra ned" which have the same sense "dra ned..1", so they get the same examples then if we cannot distinguish different lemgrams, hence the annotator won't be helped by the examples in such cases.

thereseLT commented 5 years ago

@daalft There are also doubles where the difference is not in the number of dots but in CEFR level, and / or POS (MSD) - e.g. "ett och ett", ex. 163 & 164.

thereseLT commented 5 years ago

Comments are now available here: https://drive.google.com/open?id=1ncHyX34BCEZ8ZG8FccB3rgdC_fT_ZuWU I have marked things in yellow when it is something that David / Elena / Samir might need to look at.