Closed eleannavali closed 1 year ago
Το sort το κάνατε έχοντας κάνει export LC_ALL=C πριν?
Επίσης βεβαιωθειτε ότι περιέχουν τον ίδιο αριθμό γραμμών, σε περίπτωση που έχει γίνει Append σε κάποιο από τα utt2spk, wav.scp
Τέλος δεν είναι utt2sp είναι utt2spk
Ναι το σορταρισμα έχει γίνει με το export LC_ALL=C:
export KALDI_ROOT="/home/usr/Desktop/master/nlp/nlp-labs/kaldi" [ -f $KALDI_ROOT/tools/env.sh ] && . $KALDI_ROOT/tools/env.sh export PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PWD:$PATH [ ! -f $KALDI_ROOT/tools/config/common_path.sh ] && echo >&2 "The standard file $KALDI_ROOT/tools/config/common_path.sh is not present -> Exit!" && exit 1 . $KALDI_ROOT/tools/config/common_path.sh export LC_ALL=C
Επίσης τα utt2spk και wav.scp έχουν τον ίδιο αριθμό γραμμών σε κάθε φάκελο (train,test,dev). Το όνομα του αρχείου είναι όντως utt2spk, έγινε typo παραπάνω.
Τι άλλο θα μπορούσαμε να ελέγξουμε?
Ευχαριστούμε.
Lengths are /tmp/kaldi.KkjF/utts=1320 versus /tmp/kaldi.KkjF/utts.wav=0
Αυτό υποδεικνύει ότι το wave.scp μπορεί να είναι malformed. Ελέγξτε το και δείτε αν υπάρχουν και κενές γραμμές που το χαλανε
Καλησπέρα σας.
Στο ερώτημα 4.2.7 καθως τρέχουμε το script timit_format_data.sh μας εμφανίζεται το εξής error:
Preparing train, dev and test data utils/validate_data_dir.sh: Error: in data/train, utterance lists extracted from utt2spk and wav.scp utils/validate_data_dir.sh: differ, partial diff is: --- /tmp/kaldi.KkjF/utts 2022-05-09 17:44:51.578480683 +0300 +++ /tmp/kaldi.KkjF/utts.wav 2022-05-09 17:44:51.658481140 +0300 @@ -1,1320 +0,0 @@ -f1_003 -f1_004 -f1_005 ... -m3_454 -m3_455 -m3_457 -m3_458 -m3_459 -m3_460 [Lengths are /tmp/kaldi.KkjF/utts=1320 versus /tmp/kaldi.KkjF/utts.wav=0]
Χρησιμοποιήσαμε το script timit_format_data.sh που δίνεται στο lab2 αλλάζοντας μόνο τα paths, αντικαθιστόντας τα με τα absolute path μας δηλ: lmdir=/home/usr/Desktop/master/nlp/nlp-labs/lab2/kaldi_process/data/local/nist_lm tmpdir=/home/usr/Desktop/master/nlp/nlp-labs/lab2/kaldi_process/data/local/lm_tmp lexicon=/home/usr/Desktop/master/nlp/nlp-labs/lab2/kaldi_process/data/local/dict/lexicon.txt
Επιπλέον έχουμε σορτάρει τα αρχεία wav.scp, text και utt2sp με το flag -k1 (αλλά και χωρίς κανένα flag παραμένει το ίδιο λάθος).
dev/wav.scp: f1_002 /home/usr/Desktop/master/nlp/nlp-labs/kaldi/egs/usc/wav/f1_002.wav f1_014 /home/usr/Desktop/master/nlp/nlp-labs/kaldi/egs/usc/wav/f1_014.wav f1_027 /home/usr/Desktop/master/nlp/nlp-labs/kaldi/egs/usc/wav/f1_027.wav ...
dev/text: f1_002 sil jh ey n m ey er n m ao r m ah n iy b ay w er k ih ng hh aa r d sil f1_014 sil ah r ow l ah v w ay er l ey n ih r dh iy w ao l sil f1_027 sil hh eh l p s eh l ah b r ey t y ao r b r ah dh er z s ah k s eh s sil ...
dev/utt2sp: f1_002 f1 f1_014 f1 f1_027 f1 ...
Δεν μπορούμε να καταλάβουμε τι φταίει. Το error δεν είναι κατατοπιστικό. Θα μπορούσατε να δώσετε ορισμένες διευκρινίσεις ή να μας υποδείξετε που υπάρχει λάθος σε αυτά που αναρτήσαμε παραπάνω?
Ευχαριστούμε.