slp-ntua / slp-lab-support-19-20

1 stars 0 forks source link

Lab2: Ερώτημα 4.2.2 #7

Open DominusTea opened 4 years ago

DominusTea commented 4 years ago

Τα n-grams που παράγονται στο ερώτημα αυτό ,μέσω της εντολής build-lm.sh -i <αρχείο lm_train.text> -n <τάξη γλωσσικού μοντέλου> -o <αρχείο_εξόδου.ilm.gz>, σε εμάς περιέχουν και τα κόστη των uttids πέρα από τα κόστη των φωνημάτων. Αυτό είναι κάτι το επιθυμητό ή έχει γίνει κάποιο λάθος στα προηγούμενα βήματα.

njellinas commented 4 years ago

Θα πρέπει να περιεχουν μονο τα κοστη των φωνηματων. Μηπως εχεις βαλει καπου στο preprocessing τα utterance ids σε καποιο αρχειο που δεν επρεπε?

Yenn1s commented 4 years ago

για να φτιαχτούν χρησιμοποιούμε το αρχείο (πχ) lm_train.text, που είναι ανακατασκευή του αρχείου .text που φτιάχνεται στο preprocessing , στα οποία σε όλα πρέπει να υπάρχει τα utterance ids, οπότε να μην βάλουμε τα utterance ids στο lm_train? (επίσης δίνεται βάρος και στα < s > και < /s > ) test

njellinas commented 4 years ago

Στο lm_train δε θα πρέπει να υπάρχουν τα utterance ids.