edisona / amcat

Automatically exported from code.google.com/p/amcat
1 stars 0 forks source link

article set saving problems #639

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Ha Wouter,

Bij dit issue horen een paar screenshots en een csv file, maar die kan ik niet 
toevoegen om een of andere reden. Ik probeer die wel even via gmail erbij te 
sturen.

Toch nog een paar problemen met het maken van een article set. Ik wil alle 
tv-uitzendingen van 2013 waar een land in genoemd wordt. Volgens amcat zijn dat 
2009 artikelen, tot zover gaat het goed (zie scrnsht1 in de bijlage). Van de 
selectie kan ik geen set maken, omdat er een raar articleid in zit (zie 
scrnsht2) - probleem 1.

Als ik dan de artikelen downloadt dan zie ik drie gekke articleid's (rij 2 tm 4 
in de dataset), maar ook dat er veel meer dan 2009 artikelen in de extractie 
zitten, zie databestand - probleem 2.

Waarschijnlijk zitten er nog meer foute articleid's in, alleen zijn die minder 
makkelijk te herkennen, want als ik van articleid's in de dataset die wel 
lijken te kloppen (rij 5 tm 2668) een article set probeer te maken, krijg ik al 
een foutmelding bij het zoeken op de article id's (Scrnsht3) - probleem 3.

Ik heb er toch maar 1 issue van gemaakt, want het was maar 1 proces, maar voel 
je vrij het issue te splitten.

Groeten,

Joep

Original issue reported on code.google.com by joepscha...@nieuwsmonitor.net on 17 Dec 2013 at 2:53

GoogleCodeExporter commented 9 years ago
Ik heb een vermoeden over de oorzaak van het probleem. Voor project SDM hebben 
we TV gecodeerd en een aantal artikelen gesplitst. Het lijkt erop dat wanneer 
ik in amcat gewoon op de uitzendingen zoek ik de niet-gesplitste vind, maar 
wanneer ik de artikelen download wel alle gesplitste worden meegenomen, vandaar 
dat de excel file niet overeen komt met de zoekresultaten.

Nu zit ik wel nog met het probleem dat het niet lukt om een article set te 
maken van de niet-gesplitste artikelen. Vanwege probleem 1 kan het niet vanuit 
die artikelen die ik in amcat vind en als ik de lijst met article id's heb is 
het lastig te onderscheiden welke origineel en welke gesplitst zijn.

Original comment by joepscha...@nieuwsmonitor.net on 18 Dec 2013 at 9:05

GoogleCodeExporter commented 9 years ago
Ik heb even project 3 helemaal gerefresht. Kan je kijken of het nu wel werkt?

Original comment by vanatteveldt@gmail.com on 19 Dec 2013 at 3:58

GoogleCodeExporter commented 9 years ago
In de weken van het sdm-project waarbij we televisie hebben gesplits vindt
amcat veel meer artikelen dan over de rest van het jaar. Dat is voor
automatische analyse wel onhandig.

-- 
Researcher | De Nederlandse Nieuwsmonitor

E:  joepschaper@nieuwsmonitor.net
T:  +31 20 598 31 91
M: +31 6 533 55 865

W: www.nieuwsmonitor.net
F:  www.facebook.com/NederlandseNieuwsmonitor
T:  @nieuwsmonitor

Original comment by joepscha...@nieuwsmonitor.net on 19 Dec 2013 at 4:17

GoogleCodeExporter commented 9 years ago
Volgens mij is dit niet meer actueel, maak anders ajb een nieuw issue aan op 
https://github.com/amcat/amcat/issues

Original comment by vanatteveldt@gmail.com on 22 Jan 2014 at 4:47