pombreda / amcat

Automatically exported from code.google.com/p/amcat
0 stars 0 forks source link

overzetten data en alpino parsing tbv Piet Kaashoek #361

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
from:    Kleinnijenhuis, J. <j.kleinnijenhuis@vu.nl>
to:  "Atteveldt, W.H. van" <w.h.van.atteveldt@vu.nl>
date:    Tue, Mar 12, 2013 at 1:40 AM
subject:     vraag alpino parsing tbv Piet Kaashoek

Beste Wouter,

een gedeelte van de zinnen uit het promotieproject van Piet Kaashoek is op de 
een of andere manier destijds niet door ALPINO gehaald, en vervolgens niet door 
Wouter's script.
Het gaat om 558 artikelen in batch 3106  (artikelnummers 31069442 tm 31069999). 
Omdat de uitkomsten van de grammaticale analyse weer aan andere data gekoppeld 
moeten worden, 
wordt het aantal artikelen over "illegalen" waarvoor alle relevante gegevens 
beschikbaar zijn (slechts n=71) te klein om verantwoord te kunnen generaliseren 
naar "het mediadebat over illegalen".

Ik vermoed dat het handig is nu "alles" naar AMCAT3 te halen, en daar ALPINO 
opnieuw aan te zetten.
Met "alles" bedoel ik in dit verband:

project 160, genaamd dagbladen Piet Kaashoek illegalen en terroristen
en misschien tevens project 287, genaamd  9398_illegalen_PKK illegalen_LN_PKK. 
De status van project 287 is mij onduidelijk; er zitten bijvoorbeeld geen 
article batches in.

Is het mogelijk het oude amcat artikelno op de een of andere manier te bewaren 
ivm de koppeling aan Piets andere gegevens (net, condprob)?

Ik heb gekeken op amcat2 of ik 1-2-3 in jcjacobi het script voor Piet om 
vooropplaatsing te berekenen kon vinden, maar dat is mij helaas niet gelukt.
Daarover ga ik dan toch JOuke nog maar benaderen.

H groet, Jan

PS mail over crisisdata volgt nog

Original issue reported on code.google.com by vanatteveldt@gmail.com on 14 Mar 2013 at 1:20

GoogleCodeExporter commented 9 years ago
Beste Wouter,
Piet Kaashoek is al jaren bezig met zijn project, en het is natuurlijk 
ongelooflijk dat nu pas ontdekt wordt dat de door hem jaren geleden met AMCAT 
ontlede zinnen onvolledig waren. Maar intussen heeft hij tijd om het wel uit te 
voeren, en kan zonder data niet verder. Ik had gehoopt dat dit binnen een week 
zou kunnen, omdat de eerste stap (naar amcat3 overzetten) niet razend 
ingewikkeld lijkt.
H groet,  Jan

Original comment by j.kleinn...@vu.nl on 20 Mar 2013 at 12:20

GoogleCodeExporter commented 9 years ago
Ha Kasper, 

Dank dat je erin springt! 

Laat het issue nog even open, want ook het 'alpino' aanzetten moet nog 
gebeuren, en dat loopt (sinds gisteren) via UCIT dus is weer een veranderd :-S

-- Wouter

Original comment by vanatteveldt@gmail.com on 20 Mar 2013 at 12:49

GoogleCodeExporter commented 9 years ago
Ha Wouter, 
Goed nieuws! Jouke Jacobi heeft de scripts kunnen terugvinden die hij destijds 
voor Piet Kaashoek gemaakt heeft om de alpino-output verder te bewerken tot een 
overzicht van zinnen waarin asielzoekers vooropgeplaatst werden hoewel ze niet 
het grammaticale onderwerp waren. Voorts heeft Jouke zich bereid verklaard op 
uurbasis de scripts opnieuw aan de praat te krijgen. Op dat aanbod ga ik 
natuurlijk graag in. Vraag dus of jij Jouke ook even wilt inseinen zodra op 
amcat3 alpino de zinnen van Piet in zinsdelen heeft ontleed. 
H groet, Jan 

Original comment by j.kleinn...@vu.nl on 20 Mar 2013 at 9:21

GoogleCodeExporter commented 9 years ago

Original comment by vanatteveldt@gmail.com on 21 Mar 2013 at 10:04

GoogleCodeExporter commented 9 years ago

Original comment by vanatteveldt@gmail.com on 21 Mar 2013 at 10:16

GoogleCodeExporter commented 9 years ago
De data is verhuist naar amcat3 project 43: "Illegalen en Terrorisen". Ik heb 
de volgende batches gemigreerd: 2554 2295 2292 2193

In project 160 in amcat2 staan nog 3 batches die identiek zijn aan batch 2295. 
Deze heb ik daarom overgeslagen.

Ervan uitgaande dat naast de dubbel ingeladen batches er geen verdere overlap 
tussen batches bestaat (bijv tussen de batches voor illegalen en terroristen 
als beide termen voorkomen) heb ik de data niet verder gededupliceerd.  

Original comment by kasperwe...@gmail.com on 22 Mar 2013 at 7:37

GoogleCodeExporter commented 9 years ago

Original comment by vanatteveldt@gmail.com on 13 Apr 2013 at 3:33