slp-ntua / slp-labs

Lab code and instructions for the Speech and language Processing course in the National Technical University of Athens
MIT License
7 stars 6 forks source link

Lab 1 - Βήμα 9 #100

Open NickSpanos55 opened 1 year ago

NickSpanos55 commented 1 year ago

Καλησπέρα σας. Προκύπτει σφάλμα με το γλωσσικό μοντέλο W και για κάθε λέξη βγάζει and και the? Τι μπορεί να έχει πάει λάθος σε αυτό το σημείο? Τα LV και EV (δηλαδή το S με τον vanilla και τον weighted Levenshtein) βγάζουν κανονικά αποτελέσματα. Σας ευχαριστούμε πολύ.

efthymisgeo commented 1 year ago

Πιθανόν να έχετε υπολογίσει λάθος τις πιθανότητες εμφάνισης κάθε λέξης

NickSpanos55 commented 1 year ago

Θέλουμε τον αρνητικό λογάριθμο σε αυτό το ερώτημα ή μόνο το, για παράδειγμα, #(εμφανίσεων λέξης)/#(λέξεων)?

efthymisgeo commented 1 year ago
  1. Βρίσκεις πιθανότητες (ο τύπος που γράφεις είναι λάθος)
  2. Τις μετατρέπεις σε βάρη όπως είπες
NickSpanos55 commented 1 year ago

Με συγχωρείτε, επειδή μπερδεύτηκα λίγο. Αν το "the" εμφανίζεται 10 φορές, και συνολικά έχουμε 50 λέξεις (όχι μοναδικές), η πιθανότητα να εμφανιστεί το "the" δεν είναι 10/50? Εάν ναι, κάνοντας αυτήν την πιθανότητα με αρνητικό λογάριθμο βγάζει λανθασμένα αποτελέσματα, όπως είπα και παραπάνω.

NickSpanos55 commented 1 year ago

Παρενθετικό σχόλιο, δοκίμασα με δεκαδικό λογάριθμο και βγήκαν κάποια αποτελέσματα, αλλά εχει πολλά "and" και "the" και η ακρίβεια πέφτει πολύ και δεν ξέρω αν είναι αναμενόμενο. Σας ευχαριστώ πολύ.

efthymisgeo commented 1 year ago

Τι πιθανότητα βγάλατε για το the ?

NickSpanos55 commented 1 year ago

Περίπου 0.065.

efthymisgeo commented 1 year ago

Ας επιβεβαιώσει κάποια άλλη ομάδα αν βγάζει κάτι παρόμοιο για να δούμε εάν είναι εκεί το λαθος

NickSpanos55 commented 1 year ago

Επίσης, έχω ρωτήσει αν είναι φυσιολογικό να εμφανίζονται διπλότυπες λέξεις στις προβλέψεις. Δηλαδή, για το triangulaur βγάζει τρεις φορές στο triangular. Αν αυτό είναι φυσιολογικό, μετράμε για το accuracy κάθε πρόβλεψης και για τις 3 προβλέψεις, δηλαδή 3 στα 3 και μετά μέσο όρο για όλες τις λέξεις? Σας ευχαριστώ πολύ για τον χρόνο σας.

efthymisgeo commented 1 year ago

Έχετε κάνει shortestpath, rmepsilon, topshort και ειναι οι τρεις πιο φθηνές; Αν ναι τότε ναι είναι valid correction.

angeloskanatas commented 1 year ago

Περίπου 0.065.

Ναι και εμάς εκεί περίπου κυμαίνεται.

pioui commented 1 year ago

Και εγώ έχω το ίδιο θέμα. Είναι φυσιολογικό; Μπορεί να φταίει που το corpus είναι σχετικά μικρό;