Is het beter two-stage NER te doen zoals in jouw paper, of zoals op de huidige CoNLL beide stages samen? Waarom is er in de paper gekozen voor de two-stage NER?
Over de gegeven data van political mashup: welk deel kan ik gebruiken? Wat zijn de verschillen?
HMM leek mij de beste optie. Averaged perceptron of een andere soort classifier is ook mogelijk, maar wat vooral de doorslag zal geven zijn de gebruikte features voor de classifier, zoals beschreven in mijn proposal (zoals patterns in kamerbrieven/kamervragen/moties e.g. 'Beste G.Wilders/PERS, ') en in jouw paper 'Two-stage named-entity recognition using averaged perceptrons'.
Dacht dat CoNLL dataset redelijk overeen kwam qua soort tekst (krantenartikelen) met lobby documenten. Ook zijn de soorten geannoteerde entities heel gelijk met het soort entities in de lobby docs.
Ik ben nog op zoek naar een manier om de rauwe lobby data te kunnen gebruiken om die eerder genoemde patterns te leren en verder te kunnen toespitsen op lobby documenten
Ben vooralsnog dus vooral bezig geweest met implementeren van POS-tagger, maar wil hier evt vanaf stappen zoals je aanraadde
Maak hier puntsgewijs een agenda wat je wilt bespreken, gebaseerd op je projectplan.
Start ook een logboek waarin je elke dag bijhoudt wat je doet, met uren erbij. Dit helpt je te focussen.