Issues with different language models

Spaskich commented 2 years ago

Describe the bug I've been using the 3.0 version of NLP-Cube for a wide array of languages and I've encountered some minor issues. I'll summarize them below.

Additional context

The | indicates the way the parts of speech have been split.
Some of these examples may not be wrong, they could actually turn out to be improvements, but I decided to include them just to be safe.
I've noticed that the SpaceAfter=No is missing and has been replaced by a _. Can this functionality be restored?
I'd also like to ask if it would be possible to train the Ukrainian model for version 3.0, as well.

Czech: Text: Hlavním cílem zemědělské reformy je odstranění bariér dovozu pro čerstvé agrární produkty a snížení spotřebitelských cen. Pětiletý plán zahrnuje postupné snižování dovozních cel a odstranění omezení na dovoz ovoce, zeleniny a vajec z Evropy. Postupně by tak mělo dojít ke snížení cen a ročním úsporám ve výši 2,7 miliardy šekelů (19 miliard Kč) pro izraelské domácnosti. Reforma rovněž slibuje zvýšení dostupnosti sezónních zemědělských produktů po většinu roku, uvedlo ministerstvo zemědělství.	Original text	Old Model
2,7	2 \| , \| 7	2 \| 7
cen	cena	cen
reformy	reforma	reform

Greek: Text: Παράλληλα με τον ετήσιο προϋπολογισμό για το 2022, οι χώρες της ΕΕ θα εξακολουθήσουν να βασίζονται στη στήριξη από το μέσο ανάκαμψης NextGenerationEU και τον μηχανισμό ανάκαμψης και ανθεκτικότητας που βρίσκεται στο επίκεντρό του.	Original text	Old Model
στη στήριξη	18 στη	18-19 στη
...		18 σ σε
...		19 το ο
...	19 στήριξη στήριξη	20 στήριξη στήριξη

This syntax is different than the old model. Is this a sought-after effect?

Finnish: Text: Kasvatuksen ja koulutuksen toimialalle jyvitetään koronaelpymiseen varatusta summasta 24 prosenttia ja kulttuurin ja vapaa-ajan toimialalle 11 prosenttia. Kulttuurin ja vapaa-ajan apulaispormestari Arhinmäki iloitsi siitä, että liikuntapaikkojen ja ulkoilualueiden rakentamiseen ja kehittämiseen saatiin budjetissa 7,5 miljoonaa euroa lisää. Yhteensä näihin investointeihin käytetään ensi vuonna 17,5 miljoonaa. ”Kyse on ihmisten lähipalveluista. Rahalla huolehditaan siitä, että palveluita tulee tasapuolisesti ympäri Helsinkiä”, Arhinmäki sanoi.	Original text	Old Model	New Model
... miljoonaa euroa lisää. Yhteensä...	euroa \| lisää \| . \| Yhteensä	euroalisää.Yhteensänäihin

Hungarian: Text: A koronavírus-járvány általános gazdasági visszaesést eredményezett az Európai Unióban 2020-ban. Az eurozónán kívüli országok gazdasági visszaesése (-4,3 százalék) átlagosan kisebb mértékű volt a tavalyi évben, mint az eurozóna tagországokban (-5,7 százalék) (1. ábra). Hasonló kép rajzolódik ki, ha a visszaesés mértékét a járvány előtt kialakított növekedési várakozásokhoz hasonlítjuk. A 2019 végén rendelkezésre álló várakozásokhoz képest az eurozónán kívüli országok gazdaságaira kevésbé volt negatív hatással a koronavírus-járvány 2020-ban (átlagosan -6,8 százalék), mint az eurozóna tagországok gazdaságaira (átlagosan -7,6 százalék).	Original text	Old Model	New Model
koronavírus-járvány	koronavírus-járvány	koronavírs-kíték
-4,3	-4,3	-4, \| 3

Russian: Text: Из изменений главного финансового документа региона следует выделить расходы на социальную политику в связи с ростом численности получателей мер поддержки. Более половины из выделенных 2,1 млрд. рублей пойдут на поддержку семей с детьми. Добавлены деньги на ежемесячные выплаты на детей в возрасте от трех до семи лет и в связи с рождением первого ребенка, на предоставление регионального материнского капитала, на социальную поддержку многодетных семей и другие расходы. Дополнительное финансирование мер социальной поддержки людей старшего поколения и отдельных категорий жителей края составит более 972 млн. рублей. Предусмотрен рост бюджетных ассигнований на региональную доплату к пенсии, субсидии гражданам на оплату жилого помещения и коммунальных услуг, ежемесячные выплаты ветеранам труда, компенсацию расходов по оплате услуг ЖКХ педагогическим работникам и другие статьи.	Original text	Old Model	New Model
млрд	миллиард	миллилилилитр
до	до	д

Slovak: Text: Brusel 24. novembra (TASR) - Európska komisia (EK) zverejnila v stredu výzvy na predkladanie návrhov v rámci programu Erasmus+ na rok 2022. So zvýšeným rozpočtom na budúci rok, ktorý dosahuje takmer 3,9 miliardy eur, bude Erasmus+ naďalej poskytovať príležitosti na študijné pobyty v zahraničí, stáže, učňovskú prípravu, výmeny zamestnancov a projekty cezhraničnej spolupráce v rôznych oblastiach vzdelávania a odbornej prípravy, mládeže a športu.	Original text	Old Model
(TASR)	( \| TASR \| )	(TASR \| )
2022	2022	202230000
3,9	3 \| , \| 9	3 \| ,9
zahraničí	zahraničie	zahraničičie

Slovenian: Text: Obveznosti za izplačila plač in prispevkov so se povečale za 11,5 odstotka na 1,21 milijarde evrov. To povišanje je posledica napredovanj in dogovora o plačah, višjega izplačanega regresa, sprostitve izplačil delovne uspešnosti ter dodatkov za delo v rizičnih razmerah. Za 13,2 odstotka so bili v primerjavi s prvimi devetimi meseci lani višji izdatki za blago in storitve, medtem ko je bilo za poplačilo obresti izplačanih 6,7 odstotka manj denarja kot lani v tem času. Nižji izdatki iz tega naslova so posledica operacij državne zakladnice z upravljanjem javnega dolga, pravijo na ministrstvu. New model doesn't split the sentences.

Turkish: Text: İstanbul İl Sağlık Müdürlüğü binası önünde yapılan açıklamada şöyle denildi: “Sağlık Bakanlığı’nın 2022 yılı bütçe teklifine baktığımızda şunları görmekteyiz: Metalaşmış, ticarileşmiş tedavi edici hizmetler en büyük paya sahiptir. Ödeneklerin ne kadarının tedavi edici hizmetlere, ne kadarınınsa koruyucu hizmetlere ayrıldığı önemlidir. Bu rakamın 74,5 milyar liralık kısmı (yüzde 64) tedavi edici hizmetlere, buna karşılık 38,7 milyar lirası (yüzde 33) koruyucu hizmetlere ayrılmıştır. Yani sağlıkta ticarileşme ve metalaşmayı savunan anlayış yeni bütçede kaynakların aktarımı kısmında sınıfsallığını göstermektedir. Üstelik koruyucu hizmetlere ayrılan bütçeden pandemi döneminde verdikleri insanüstü çalışma koşullarına ve yüzlercesi hayatını kaybetmesine rağmen sağlık emekçilerinin ücretlerine ayrılan pay 5’te birdir. Pandemi sürecinde de daha net ortaya çıkan tablo koruyucu sağlık hizmetlerine ayrılan payın artırılması gerektiğini ortaya koyarken yine yeterli önem verilmediği ortadadır."	Original text	Old Model
denildi	denil	de
74,5	74,5	74 \| ,5
3,9	3 \| , \| 9	3 \| ,9
ayrılmıştır	ayrıl	ayrıl \| tır

tiberiu44 commented 2 years ago

Hi @Spaskich ,

Thank you for helping us improve NLPCube. The feedback is really detailed and useful.

Training a 3.0 model for Ukrainian is going to be straight forward, so I'm going to start with that. For the other issues, I will have to run a lot of local tests, in order to see what is causing them.

This is going to take some time. I will keep you updated.

tiberiu44 commented 2 years ago

@dumitrescustefan - can you please help with this?

tiberiu44 commented 2 years ago

@Spaskich - just a quick update. I didn't have time to look into the issue this week, but I will have some time starting tomorrow.

tiberiu44 commented 2 years ago

Hi @Spaskich,

Sorry for the late reply. I just finished uploading the Ukrainian model. I will issue an update for the package regarding the SpaceAfter=no bug, which we're still trying to fix. The other issues will require more works but hopefully we will be able to focus on them soon.

Spaskich commented 2 years ago

Thanks for the update and all the work.

Spaskich commented 2 years ago

Hi, I'm writing in this issue, because it's a temporary workaround while the new version is being fixed. I was trying to run 2 new cubes - Persian and Japanese, but I got the following error:

  File "webserver.py", line 124, in <module>
    lang2cube[lang].load(lang)
  File "/work/NLP-Cube/cube/../cube/api.py", line 66, in load
    model_folder_path = model_store_object.find(lang_code=language_code, version=version, verbose=self._verbose)
  File "/work/NLP-Cube/cube/../cube/io_utils/model_store.py", line 192, in find
    raise Exception("No model version for language ["+lang_code+"] was found in the online repository!")                       
Exception: No model version for language [ja] was found in the online repository!

I tried running a new instance of the English cube as well, but it returned the same error. I noticed that this url, which, as far as I understand, is the cube repository, returns a 503 error. Is this a known issue?

tiberiu44 commented 2 years ago

Hi @Spaskich ,

The issue with the older models is resolved now. We are also retraining the tokenizer for the new models, which should solve most of the problems. Thank you for your patience and for supporting this project.

Spaskich commented 2 years ago

Hey, are there any updates on the new models?

tiberiu44 commented 2 years ago

Hi @Spaskich . Unfortunately, we don't have any updates, because we are running a little short on man power. If don't know when we will be able to focus on this issue. However, we welcome any contribution to NLP-Cube and if you have the time and resources, maybe you could try training some of the models, until you get satisfactory results. We would be more than happy to help you package the models and assign your contribution for citing, in case people use these languages.

Spaskich commented 2 years ago

Okay, thanks for the info. Will update the issue if I make any progress.

adobe / NLP-Cube

Issues with different language models #133