common-voice / cv-sentence-extractor

Scraping Wikipedia for fair use sentences
52 stars 52 forks source link

Improve Hungarian Wiki Export #129

Closed MichaelKohler closed 4 years ago

MichaelKohler commented 4 years ago

@djlancelot I've noticed quite a few abbreviations in the final export for the Hungarian Wikipedia. Here are some examples from the diff I did:

+A BB tömege.
+A BBC Philharmonic-kal közeli kapcsolatot teremtett.
+A BBC Rádió rádiójátékot készített belőle.
+A BBC egy fiataloknak szánt tévésorozata kísérőzeneként használta ezt a számot.
+A BBC helyi tudósítója szerint viszont nem hallani a szokásosnál több lövést a városban.
+A BBC hosszú idő után egész napos közvetítést adott a kupadöntő helyszínéről.
+A BBC jelentései szerint a táboron belül még vannak elrejtőzött katonák.
+A BBC kritikusa az album egyik mélypontjának tartotta.
+A BBC kritikusa ezzel szemben az album egyik kiemelkedő dalának nevezte.
+A BBC magyar adása is nekrológgal búcsúztatta.
+A BBC magyar adásának szerkesztője volt.
+A BBC szerint tipikus orosz hangulat volt.
+A BBC több részes rádiós drámát is készített a regényből.
+A BBC weboldalán már a sorozat gyártása alatt több kép és videó megjelent.
+A BBTE-en bevezette a matematikai logika kurzust magyar és román nyelven.
+A BBÖ a hozzá került mozdonyokat a korábbi sorozat- és pályaszámukon üzemeltette tovább.
+A BCS-elmélet más fermionok közti kölcsönhatások leírására is alkalmas.
+A BD fejlesztései miatt verziószámmal is találkozhatunk.
+A BE Aerospace több tárgyat rendelkezésre bocsátott a dekorációhoz.
+A BEA fő feladata a nemzeti elszámolás statisztikai nyomon követése.
+A BEAC Barlangkutató Csoport felmérte a zsombolyt.
+A BEAC egyik alapító tagja.
+A BEAC-ban kezdte a labdarúgást.
+A BEF parancsnoka Lord John Gort tábornok volt.
+A BEK-ben a Barcelona búcsúztatta a negyeddöntőben.
+A BEK-ben harmadik helyezett volt.
+A BER analízise elvégezhető sztochasztikus számítógépes szimulációval.
+A BETA radikálisan bevezette ezt a lehetőséget.
+A BEVA eljárása előterjesztett kérelem hatására veszi kezdetét.
+A BEVA vagyona a kártalanítási kötelezettség teljesítésének fedezetére szolgál.
+A BIO program keretében a rakéta végzett szállítási szolgáltatásokat.
+A BKV Előre sportcsarnokban minden fogása új országos ifjúsági csúcs volt.
+A BKV buszokkal oldotta meg a térség közlekedését.
+A BKV még aznap leállította az összes szerelvényt és azok rendkívüli átvizsgálását rendelte el.
+A BKV nem változtatott a táblák megjelenésén.
+A BKV szentendrei Városi Tömegközlekedési Múzeumában is található két példány.
+A BKV-nak jelenleg hét fajta villamosa van.
+A BKV-nál a kocsik elbontásáról döntöttek.
+A BKV-per néven elhíresült eljárás Hagyó Miklós és vádlott társai ellen jelenleg is zajlik.
+A BL sorozatban először a München játszott a döntőben házigazdaként.
+A BL-ben a Bayer Leverkusen jelentette a végállomást a csapat számára.
+A BL-ben a holland bajnokcsapatok ott voltak a főtáblán de soha nem jutottak tovább.
+A BL-ben a negyeddöntőig jutott.
+A BL-ben ötször játszhatott.

Would you mind adding an additional rule for those? You probably can copy the rule from English, there should be one that disallows abbreviations like that.

I've also noticed some other sentences, can you confirm that those are correct sentences?

+A B-döntőt hat résztvevővel rendezték.
+A B-döntőt három résztvevővel rendezték.
+A -ház birodalma nem tekinthető egységes államnak.
+A -ház egyik legkiválóbb uralkodójaként tartják számon.
+A -időkre a kifejezés a teljes földesúri réteget jelentette.
+A A HÍD-OSC-Újbuda a második helyen zárt.
+A A vasútvonalon személy- és teherszállítás is üzemel.

Is "B-" a common prefix for words? And are the dashes at the beginning of the words ok? (Sorry, I have absolutely no idea how Hungarian works. These might also just have some specific formatting that gets stripped out by WikiExtractor.

Thanks!

djlancelot commented 4 years ago

Thanks @MichaelKohler for checking. BBC, BKV, BL are well-known abbreviations used as is, even spoken. Some of the others are also popular. There are a few which are not known and could be filtered. B- is not a common prefix, it should be filtered as well as all the sentences you highlighted in the end. There is something missing from those sentences. It looks like something has been removed after the first word, the A which is an article in Hungarian. Is there a way to figure out what caused the incorrect sentences in the second case?

MichaelKohler commented 4 years ago

BBC, BKV, BL are well-known abbreviations used as is, even spoken. Some of the others are also popular. There are a few which are not known and could be filtered.

While most people will know them and know how to pronounce them, some might not. That's why we decided quite early on to not allow any abbreviation, so let's remove all abbreviations like that.

It looks like something has been removed after the first word, the A which is an article in Hungarian. Is there a way to figure out what caused the incorrect sentences in the second case?

You could download the dump at https://dumps.wikimedia.org/huwiki/latest/huwiki-latest-pages-articles.xml.bz2 and search for the sentence in there. I'm fairly sure that it's some kind of Wikipedia formatting syntax that gets stripped out by WikiExtractor, I've encountered these cases before. That's also one of the reasons why we allow a certain error rate. I'd say let's see if there is a regex that filters out some of them, something like [A-Z]+-|\s- maybe?

Overall these cases probably are few compared to all sentences, so more complex things like "A A .." we might just ignore. I'm not sure how much sense it makes to add that specifically to the regex and I'm fine with not doing that.

Thank you!

MichaelKohler commented 4 years ago

@djlancelot do you need any help here?