thesis comments - Githubissues

maartenmarx commented 5 years ago

Hi Jonas,

Fijn dat je nu een begin hebt! Goed gedaan. Met wat schaven en herschrijven moet hier wel wat van te maken zijn, mits je ook wel wat onderzoeksdata en resultaten gaat laten zien.

Probeer die resultaten vooral heel feitelijk op te schrijven. En ga je niet steeds verontschuldigen. Als dat goed gelukt is, kan je hopelijk met die kunde, de rest ook wat opschonen, en voorzien van een goede rode draad.

Eigenlijk denk ik dat een bespreking zonder de onderzoeksresultaten geen zin heeft. Dat kan dan ook via Skype. Heb je die resultaten al ingevoerd?

andere punten

Graag regelnummers voor de drafts
Intro na Recently, some journalists have been raising questions and awareness about traffic accident noem daar ook dat amerikaanse artikel die vrijwel dezelfde kant opgaan. Ah ik zie dat je dat later ook al noemt.
Research has been done on the discourse in news reporting on traffic accident, trying to find these distinctive features in the language through discursive content analysis geef dan meteen de referentie daarnaar.
Maak je alineas korter. Het zijn hele lappen die ook vaak meerdere punten bevatten.

Background

Je hebt het steeds over section maar je bedoelt subsection.
Ik denk dat een hoop van de informatie die je in de intro van Sec 2 geeft naar de subsecties kan. Nu leest het raar, want je geeft allemaal feiten uit de literatuur zonder bronnen.
- Ik zou dus die intro veel korter maken en alleen zeggen wat er gaat gebeuren in die 2 subsecties
Goed voorbeeld is The core idea is that there is a specific way in which a subject is presented affecting how it will be read. In the context of the traffic accident domain, one could take the example of an article of a car hitting someone and the article avoiding to blame the car since most people driving cars will feel persecuted. maar werk het graag verder uit. Je betoog blijft heel abstract, en ik snap het punt nog niet goed.
Als die machtsrelaties zo belangrijk zijn, laat ze dan terugkomen in je voorbeelden en toon ze aan.

Background

3.1 Ik denk dat Heasrt patterns onder IE vallen en niet onder NLP. Het is ook een vorm van bootstrapping.
Ik moet zeggen dat de hoeveelheid tekst me wat laat duizelen. Je springt ook best vand e hak op de tak. Het zou fijn zijn als je je onderzoeksvraag wat beter opdeelt in concrete deelvragen, en dat steeds duidelijk is wat een stuk van je teskst bijdraagt aan het beantwoorden van welke deelvraag. De lezer wil zich niet steeds hoeven af te vragen waarom zij dit allemaal moet lezen/weten/van jou leren.

Data

Eigenlijk heb je een vreemde keuze van subsectie-titels die meteen ook de nadruk verkeerd leggen. Je wilt hier de data beschrijven, maar ik leer maar erg weinig, behalve over het gedoe om het te verkrijgen. Dat laatste boeit me niet erg, en is ook niet zo relevant. Dat valt eigenlijk weer onder het verontschuldigen. Terwijl je zoveel leuke dingen hebt!!!!

Wat wel leuk is:

geef de distributies van lengtes van titels en text in aantal woorden (een KDE plot met seaborn is prachtig en rolt zo uit pandas).
zeg wat meer over die duplicates (hadden ze ook dezelfde link (is dat de url naar het origineel???)
geef histogrammen over de bronnen (hoeveel unieke artikelen per bron)
geef histogrammen over de tijd
geef histogrammen per query
laat zien hoe vaak elke vande VRU woorden en objecten voorkomen
Geef hier ook je steekproefje over relevantei en vertel hoe je dat hebt gedaan en wat de uitkomst was.

Doe dit nou gewoon, en hopelijk beleef je er plezier aan, en kan je dat doorzetten in de stukjes waar je met nog leukere resultaten komt

POS tagging

Tsja, doe gewoon wat je hebt kunnen uitrekenen.
- Histogram van de nouns in de titels
- Van de verbs en van de adjectieven.
- Idem voor de teksten

JonasHans commented 5 years ago

Bedankt voor de feedback, zal het gaan verwerken.

Misschien is het inderdaad handiger als we begin volgende week een bespreking hebben, als ik wat overzichtelijker de onderzoeksresultaten heb. Ik heb nu in drie stappen er naar gekeken:

POS tagging, los is hier niet zoveel van te maken maar dat is ook wel logisch
Dependencies, hier kun je wel wat interessante dingen mee. Als je naar de titels kijkt en dan het 'root' element pakt wat het zogenaamde kern werkwoord van een zin is. Dan zie je dat hier eigenlijk 95% van de tijd het iets is van 'aangereden', 'geschept' etc. Het subject van zo'n zin is dan ook altijd een betrokkene (en vaak het slachtoffer).

Specifiek bij de relatie 'geschept' zie je dat een VRU 46 van de 50 zinnen het subject is en slachtoffer is. 30 van de 50 keer is de auto de zogenaamde 'oblique nominal' van een zin. Dit lijkt mij opzich wel interessant resultaat om te laten zien dat er inderdaad wel vaste patronen zijn te vinden.

Noun chunk parsing. Hier ben ik nog mee bezig en hoop ik ook iets van een resultaat mee te krijgen.

Ik dacht dat deze drie aanpakken en hier wat statistieken van laten zien wel een redelijk resultaat zou zijn.

maartenmarx commented 5 years ago

Hi Jonas,

Die 3 punten hieronder klinken allemaal heel leuk en substanyieel. Werk ze goed uit en je scriptie begint wat body te krijgen en spannend te worden!

succes

On Jan 23, 2019, at 14:27 PM, JonasHans notifications@github.com wrote:

Bedankt voor de feedback, zal het gaan verwerken.

Misschien is het inderdaad handiger als we begin volgende week een bespreking hebben, als ik wat overzichtelijker de onderzoeksresultaten heb. Ik heb nu in drie stappen er naar gekeken:

POS tagging, los is hier niet zoveel van te maken maar dat is ook wel logisch

Dependencies, hier kun je wel wat interessante dingen mee. Als je naar de titels kijkt en dan het 'root' element pakt wat het zogenaamde kern werkwoord van een zin is. Dan zie je dat hier eigenlijk 95% van de tijd het iets is van 'aangereden', 'geschept' etc. Het subject van zo'n zin is dan ook altijd een betrokkene (en vaak het slachtoffer).

Specifiek bij de relatie 'geschept' zie je dat een VRU 46 van de 50 zinnen het subject is en slachtoffer is. 30 van de 50 keer is de auto de zogenaamde 'oblique nominal' van een zin. Dit lijkt mij opzich wel interessant resultaat om te laten zien dat er inderdaad wel vaste patronen zijn te vinden.

Noun chunk parsing. Hier ben ik nog mee bezig en hoop ik ook iets van een resultaat mee te krijgen. Ik dacht dat deze drie aanpakken en hier wat statistieken van laten zien wel een redelijk resultaat zou zijn.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/JonasHans/Thesis/issues/11#issuecomment-456800858, or mute the thread https://github.com/notifications/unsubscribe-auth/ADmVcGIEySBhFBs4iaMjXA6FyTzoIHwSks5vGGNPgaJpZM4aOrAd.

JonasHans / Thesis

thesis comments #11

andere punten

Background

Background

Data

POS tagging