Lab 1, Ερώτημα 12

Σε συνέχεια επικοινωνίας μεσω email, ανεβάζω αυτό το ερώτημα και εδώ: Στην κατασκευή του unigram level γλωσσικού μοντέλου (12.β) αντί να τοποθετούμε την -log(πιθανότητα εμφάνισης) της κάθε λέξης στην πρώτη ακμή (με όλες τις άλλες 0), βάζουμε κόστος σε κάθε ακμή την -log(πιθανότητα εμφάνισης) του κάθε χαρακτήρα. Το πρόβλημα που δημιουργεί αυτό είναι πως σε μεγάλες σε μήκος λέξεις θα έχουμε πολύ μεγάλο κόστος και επομένως ο ορθογράφος μας θα δίνει λάθος απαντήσεις, προτιμώντας μικρότερες σε μήκος λέξεις. Μήπως θα έπρεπε να κανονικοποιούμε τα κόστη που βάζουμε στο unigram μοντέλο του αποδοχέα, ως προς το μήκος της εκάστοτε λέξης?

slp-ntua / slp-lab-support-19-20

Lab 1, Ερώτημα 12 #3