slp-ntua / slp-labs

Lab code and instructions for the Speech and language Processing course in the National Technical University of Athens
MIT License
7 stars 6 forks source link

[8.στ] #12

Closed DimLiak closed 2 years ago

DimLiak commented 3 years ago

1) Όταν αναφέρεται λογάριθμο, ποιον εννοείται τον δεκαδικό ή τον νεπέρειο? 2) Ποσα δεκαδικά ψηφία να κρατήσουμε κάθε φορά? 3) Για το άπειρο κόστος το 100 ειναι οκ? ή να το αυξήσουμε δραματικά πολύ?

georgepar commented 3 years ago
  1. Θα άλλαζε το αποτέλεσμα αν χρησιμοποιούσες το ένα ή το άλλο?
  2. 2-4
  3. Βάλε 10^5
DimLiak commented 3 years ago

Οχι απλα θα άλλαζε το κοστος. Η μόνη διαφορά που μπορώ να σκεφτώ είναι να χρειάζεται διαφορετικό "απειρο" κόστος αλλα με το 10^5 ούτε εκει δεν δημιουργείται πρόβλημα. Απλά ρωτά μήπως θέλετε κάποιον συγκεκριμένο από τα δύο ή αφήνεται στην κρίση μας.

georgepar commented 3 years ago

ειναι στην κριση σας

LoniasGR commented 3 years ago

EDIT: Oκ κατάλαβα τι κάνω λάθος. Δεν υπολόγιζα την σχετική συχνότητα, αλλά την συχνότητα εμφάνισης των λαθών. Αφήνω το σχόλιο nontheless.


Καλησπέρα,

έχω και γώ μια αποριά για αυτό το ερώτημα. Όταν χρησιμοποιώ αρνητικό λογάριθμο για τον υπολογισμο βαρών, ο spellchecker φαίνεται να μην δουλεύει. Πιο συγκεκριμένα το fst κάνει κάποιες αψυχολόγητες προβλέψεις. π.χ.

cit match is indiscriminately
cwt match is indiscriminately
a match is indiscriminately

Αναζητώντας απάντηση στο documentation του openfst, κατέληξα στο συμπέρασμα ότι τα βάρη πρέπει να ανήκουν στο R+ αν χρησιμοποιούμε τα κανονικά arc types. Άρα θα πρέπει να χρησιμοποιήσουμε λογαριθμικά για να πετύχουμε το αποτέλεσμα που θέλουμε. Αλλά αν χρησιμοποιήσουμε λογαριθμικά βάρη, τότε δεν μπορούμε να χρησιμοποιήσουμε πια το fstshortestpath. Έχω καταλάβει κάτι λάθος; Μήπως απά έχω κάποιο bug στον κώδικα; 😕

andretri commented 3 years ago

Όταν λες "των λαθών", τι εννοείς; Βασικά σε αυτή την άσκηση, υπολογίζουμε τη σχετική συχνότητα των edits (e.g. insert, delete, etc.) ή των μεταβάσεων (e.g. -> a, a -> b, etc.);

LoniasGR commented 3 years ago

Υπολογίζουμε την σχετική συχνότητα κάθε edit/λαθους σύμφωνα με τις λέξεις στο αρχείο της Wikipedia. Όταν είπα λαθων αυτό εννοούσα το τελικό edit που προτείνει το fast για κάθε λέξη.

andretri commented 3 years ago

Οπότε αυτό με το οποίο καταλήγουμε είναι το L, με μη μηδενικά βάρη στις μεταβάσεις

και μηδενικό βάρος στις μεταβάσεις:

Σωστά;

georgepar commented 3 years ago

Σωστά.

On Mon, Nov 16, 2020 at 12:25 PM andretri notifications@github.com wrote:

Οπότε αυτό με το οποίο καταλήγουμε είναι το L, με μη μηδενικά βάρη στις μεταβάσεις

  • -> character
  • character -> , και
  • character_i -> character_j, με character_i =/= character_j

και μηδενικό βάρος στις μεταβάσεις:

  • character_i -> character_i

Σωστά;

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/slp-ntua/slp-labs/issues/12#issuecomment-727886941, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABM7JDL5RFRQEVJPWKRWBG3SQD42RANCNFSM4TPQLNYQ .