slp-ntua / patrec-labs

Helper scripts for Pattern Recognition NTUA Course
8 stars 20 forks source link

Βήμα 4 #192

Open E1en1 opened 10 months ago

E1en1 commented 10 months ago

Ακολουθώντας τις οδηγίες, το 1ο MFCC για κάθε αρχείο ήχου είναι διάνυσμα και μάλιστα μεταβαλλόμενης διάστασης για κάθε αρχείο. Το ίδιο και για το 2ο MFCC. Υπάρχει κάποια προεπεξεργασία που μπορούμε να κάνουμε για να το μετατρέψουμε σε αριθμητική τιμή ή μήπως πρόκειται περί δικού μου λάθους; Διαφορετικά γίνεται να κάνουμε ιστόγραμμα από διανύσματα;

(πώς προσθέτουμε label?)

georgepar commented 10 months ago

Σε ποιο ερώτημα αναφέρεστε; Τα χαρακτηριστικά εξάγονται σε παράθυρα χρόνου, οπότε είναι διάστασης (number of timesteps x number of features).

Στα παρακάτω ερωτήματα προτείνονται διάφοροι μέθοδοι για να διαχειριστείτε ακολουθιακά δεδομένα, από απλό averaging μέχρι χρήση ακολουθιακών μοντέλων (HMMs / RNNs)

E1en1 commented 10 months ago

Στο βήμα 4 αναφέρομαι

georgepar commented 10 months ago

Πιστεύω δεν χρειάζεται να τα μειώσετε για να γίνουν ένα διάνυσμα. Μπορείτε να χρησιμοποιήσετε το np.corrcoef και το np.histogram, ή κάποια αντίστοιχη συνάρτηση του scipy. Και οι δύο συναρτήσεις διαχειρίζονται δισδιάστατα διανύσματα.