Upate 11-03-2022 - Githubissues

JustinBon commented 2 years ago

Hey @maartenmarx ,

Niet zo heel veel om te vertellen deze week. Ik heb dus die twee extractors afgemaakt: [datums](https://github.com/JustinBon/thesis/blob/main/experiments/Extractor%201%20dates.ipynb) en ministeries. Daarnaast heb ik geweerkt aan de data analyse waar voor vandaag een deadline voor was: notebook en pdf. Ik had er wel een beetje moeite mee want ik wist niet zo heel goed wat voor analyse ik kon doen op pdf's waar amper text uit gehaald kan woorden...

Voor volgende week wil ik kijken naar een aantal dingen die je hebt voorgesteld waar ik nog niet aan toe ben gekomen.

voor de datums kjiken wat ze betekenen + Z-test of parsimonious language modesl. Kijken of dat beter is dan wat ik nu heb
Voor de ministeries de google proximity search
Ik ga de onderzoeksvragen bijwerken en nieuwe toevoegen
Als laatste wil ik ook kijken of de ministeries er beter uit zijn te halen met spacy door middel van handmatig nieuwe training data toevoegen

Word een drukke week dus :)

Justin

maartenmarx commented 2 years ago

Hi @JustinBon , mooi zo joh. Voor wobGelderland en WobCovid is nu alles geOCRed, dus je hebt daar nu ook de tekst van. Zie het dataframe in die folders. Ik zou dus daarop gaan werken. Ook lekker makkelijk meteen toch? Gewoon met apply op de text kolom.

succes maarten

JustinBon commented 2 years ago

Hey @maartenmarx Ik weet niet of ik de goede file heb gevonden. Voor wobcovid is dit de enige dataframe bestand dat ik kan vinden: covid19wob_files_df.csv. Maar bij deze is steeds alleen de eerste regel of het eerste woord van elke pagina opgeslagen in plaats van de hele pagina dus het is maar een klein deel van alle text. Het zelfde geld voor die van Gelderland. Daar heb ik alleen deze ocred_text.csv gevonden. Ik heb wel zipjes gevonden met .txt files met alle ge-ocrde text er in dus daar ben ik mee verder gegaan voor nu.

Als die csv's de bestanden zijn waar je op doelde dan kan het zijn dat daar iets mis is gegaan, of ik begrijp het gewoon niet dat kan ook natuurlijk

Justin

maartenmarx commented 2 years ago

Hi @JustinBon , voor alle data staan die dataframes met tekst in http://localhost:8888/tree/Afstudeerders/20212022/DaanKuypers/DocumentSplitting/wobir/scripts/perform-ocr pak de ...files_df.csv.gz spreadsheets.

Kijk maar hoe groot die zijn, en tel eens het aantal letters, woorden. covid19 is 20Mb ingepakt, alleen aan tekst.

Werk hietr graag mee, dat is veel handiger en fijner. sucvces

laat je weten of het gelukt is?

JustinBon commented 2 years ago

Hey @maartenmarx Ik ben er achter gekomen wat er fout ging. opende het bestandje even in excel om te kijken hoe het eruit zag enzo, maar omdat er veel \n in stonden kon excel steeds alleen maar de eerste regel laten zien. Dus het leek alsof er veel te weinig text in stond... Whoops Nu is het wel gelukt

maartenmarx commented 2 years ago

eeh excel?????? je bent toch een data scien tist?

df.head()

;-)

JustinBon / thesis

Upate 11-03-2022 #8