common-voice / cv-sentence-extractor

Scraping Wikipedia for fair use sentences
52 stars 52 forks source link

Fix Lithuanian Export #126

Closed MichaelKohler closed 4 years ago

MichaelKohler commented 4 years ago

The file resulting from https://github.com/Common-Voice/cv-sentence-extractor/runs/1046216702?check_suite_focus=true has many odd issues. A few examples:

 "Delegavo į finalą komisija.
 "           "Komentaras: ši knyga anglų, vokiečių, prancūzų, lenkų ir rusų kalbomis buvo parengta spausdinti, tačiau darbas sužlugdytas savivaldybėms ir ministerijoms "iš aukščiau patarus" "nebendradarbiauti" su "privačia" bendrove, nes yra sukurta "valstybinė" programa, skirta paminėti "Lietuvos vardo tūkstantmetį" 2009 m. Valstybinės programos vadovai į derybas dėl bendradarbiavimo nesileido.
 # Programa "Sveikas pasauli", x386 FreeBSD vykdomasis failas, AT&T sintaksė
 (Kapitonas)
 (skol.
 * 22×18 Bassdrums x2
 0A 0Ą 0B 0C 0Č 0D 0E 0Ę 0Ė 0F 0G 0H 0I 0Į 0Y 0J 0K 0L 0M 0N 0O 0P 0R 0S 0Š 0T 0U 0Ų 0Ū 0V 0Z 0Ž 0Q 0W 0X
 0a 0ą 0b 0c 0č 0d 0e 0ę 0ė 0f 0g 0h 0i 0į 0y 0j 0k 0l 0m 0n 0o 0p 0r 0s 0š 0t 0u 0ų 0ū 0v 0z 0ž 0q 0w 0x
 14=2·7
 1781 – Juozas Zavadskis, spaustuvininkas, lietuviškų knygų leidėjas (mirė 1838 m.).
 1993-1999 m. Raimondas Gapšys
 2006–2007 m. Velso futbolo taurės laimėtojai.
 2018 m. elito divizione žaidė 10 komandų.
 2018 m. vasario 25 d. rungtynės, (I turas) FK Žalgiris - FK Kauno Žalgiris, rungtynės baigėsi 2:0, bet vilniečiams buvo skirtas techninis pralaimėjimas.
 4 +9 + 9 + 4 + 7 + 6 + 9 + 7 + 7 + 2 + 6 = 70
 72=2·2·2·3·3 =2³·3²
 75 - 87 
 86 - 91 
 94 - 68 
 <?xml version="1.0" encoding="utf-8" ?>
 A0 A1 A2 A3 A4 A5 A6 A7 A8 A9
 Bonus Track:

I fear something with the export is completely off. Will need to have a look at this.

CC @mjurkus

mjurkus commented 4 years ago

Can I help somehow?

MichaelKohler commented 4 years ago

Can I help somehow?

I'll have a closer look tomorrow, would tell you if I need anything once I know what exactly is going wrong here.

MichaelKohler commented 4 years ago

New export running here: https://github.com/Common-Voice/cv-sentence-extractor/runs/1057684078?check_suite_focus=true

mjurkus commented 4 years ago

Well, now it looks OK. Am I correct to assume that extraction.zip is the final result that will be uploaded - 129 000 sentences?

MichaelKohler commented 4 years ago

Yes, that's what will be uploaded. I'll create the PR for that later today.