Wat betreft de meeting voor morgen lijkt het me niet zozeer nodig om dit in persoon te doen. Ik heb op dit moment alleen twee vragen waar ik nog een beetje mee zit:
Wat betreft het padden wil ik graag aantonen wat het effect van het 'opvullen' met 0-waarden is op de accuracy. Ik had daarvoor in gedachten om de test set te filteren op statements die kleiner zijn dan de maximale lengte. Dus als ik de maximale lengte zet op 20, pak ik alle statements van lengte 19 of lager en bepaal hiermee de accuracy. Als ik dit dan vergelijk met de 'algemene' accuracy over de gehele test set, zou ik in mijn ogen kunnen concluderen wat het effect is van het opvullen met 0-waarden op de performance. Stel de accuracy is veel lager dan de algehele accuracy, kan ik dan de conclusie trekken dat het padden invloed heeft op performance?
MM Volgens mij verabdert er te veel in jou experimentele opzet om deze conclusie te kunnen trekken. Je hebt het sowiesso over een andere populatie, en het kan zijn dat langere items consequent anders scoren dan de kortere.
Ik denk eerder aan een experiment waarin je anders pad (met het gemiddelde van de vector (alleen berekent over de posities met waardes) bijvoorbeeld.
Ik raad je aan wat literatuur hier over te zoeken en dat kort samen te vatten. Dit zijn heel tricky experimenten, en jouw dataset is erg lastig.
Om performance te meten gebruikt Wang alleen maar accuracy, geen andere metrics. Is dat ook voldoende voor mijn resultaten of zou het beter zijn om ook andere metrics mee te nemen?
MM Voor multi-label classificatie kan je kiezen uit macro of micro maten. Als de klassen gebalanceerd zijn maakt dat niet uit en wordt alles hetzelfde als accuracy. Als jij een opdeling hebt waarbij het erg ongebalnceerd is kan je ook denken aan macro F1 (dus bepaal F1 per klasse, en neem het gemiddelde over al die F1 scores). Dus accuracy lijkt in de meeste gevallen op zijn plaats.
Je kunt wel bij wat minder klassen de confusion matrix geven, en daar wat bij vertellen.
Hi @maartenmarx , @MeMartijn
Wat betreft de meeting voor morgen lijkt het me niet zozeer nodig om dit in persoon te doen. Ik heb op dit moment alleen twee vragen waar ik nog een beetje mee zit:
MM Volgens mij verabdert er te veel in jou experimentele opzet om deze conclusie te kunnen trekken. Je hebt het sowiesso over een andere populatie, en het kan zijn dat langere items consequent anders scoren dan de kortere.
MM Voor multi-label classificatie kan je kiezen uit macro of micro maten. Als de klassen gebalanceerd zijn maakt dat niet uit en wordt alles hetzelfde als accuracy. Als jij een opdeling hebt waarbij het erg ongebalnceerd is kan je ook denken aan macro F1 (dus bepaal F1 per klasse, en neem het gemiddelde over al die F1 scores). Dus accuracy lijkt in de meeste gevallen op zijn plaats.
Je kunt wel bij wat minder klassen de confusion matrix geven, en daar wat bij vertellen.
Heel erg bedankt!
Succes!