Open DominusTea opened 4 years ago
Θα πρέπει να περιεχουν μονο τα κοστη των φωνηματων. Μηπως εχεις βαλει καπου στο preprocessing τα utterance ids σε καποιο αρχειο που δεν επρεπε?
για να φτιαχτούν χρησιμοποιούμε το αρχείο (πχ) lm_train.text, που είναι ανακατασκευή του αρχείου .text που φτιάχνεται στο preprocessing , στα οποία σε όλα πρέπει να υπάρχει τα utterance ids, οπότε να μην βάλουμε τα utterance ids στο lm_train? (επίσης δίνεται βάρος και στα < s > και < /s > )
Στο lm_train δε θα πρέπει να υπάρχουν τα utterance ids.
Τα n-grams που παράγονται στο ερώτημα αυτό ,μέσω της εντολής build-lm.sh -i <αρχείο lm_train.text> -n <τάξη γλωσσικού μοντέλου> -o <αρχείο_εξόδου.ilm.gz>, σε εμάς περιέχουν και τα κόστη των uttids πέρα από τα κόστη των φωνημάτων. Αυτό είναι κάτι το επιθυμητό ή έχει γίνει κάποιο λάθος στα προηγούμενα βήματα.