Selection algorithm (and tests)

Here is the description of the algorithm by Jan:

Dag Gerson, Ik heb nog wat meer na zitten denken over de sampleselectie uit het Van Kampen corpus, en heb daarom de manier waarop geselecteerd moet worden uit het Van Kampen corpus herzien.

Wat ik nu wil is · Voor iedere file uit het Van Kampen corpus een aaneengesloten lijst uitingen die x% van de totale uitingen in deze file bevatten. · We kiezen dat aangesloten stuk waarin het aantal reeds gecontroleerde uitingen maximaal is. · Voor x experimenteren we met 10, 15 en 20.

Ik denk dat jouw oorspronkelijke programma voor de selectie dan niet meer relevant is.

De voorgestelde selectie kan eenvoudig gemaakt worden door een window te leggen over de uitingen met een grootte van x% van het totaal aantal uitingen. · Uitingen in dit window die al gecontroleerd en nagekeken zijn krijgen score 2 · Uitingen die 1x gecontroleerd zijn krijgen score 1 · Uitingen die nog niet gecontroleerd zijn krijgen score 0 · (genormaliseerde) uitingen die niet gelijk zijn aan de nieuwe genormaliseerde variant krijgen score 0 (als die informatie er al is)

De score van een window is de som van de scores van iedere uiting in het window.

Vervolgens schuiven we het window steeds 1 uiting op en kiezen de uitingen in het window dat de hoogste score heeft als sample voor die file. En dat doen we dan voor alle files uit het Van Kampen corpus.

Let op: Rogier is met het tellen van de uitingen begonnen bij 0, dus de filenaam voor eerste uiting eindigt op 000, voor de tweede uiting op 001, etc.

Misschien kunnen we dit a.s. donderdag verder bespreken. Jan

UUDigitalHumanitieslab / AnnCor-scripts

Selection algorithm (and tests) #1