Open luoluyao opened 6 years ago
原文先采集不同的特征(mfcc\cqcc等),然后使用极大似然法和逻辑回归进行简单的分类。
为获得EER,需要进行以下步骤: 1.给每一个样本计算一个可信度的值。 2.计算阈值。该阈值由实际情况得到。 该阈值要使得FP=FN。 3.由阈值决定出最后的EER
距离 | FN | FP |
---|---|---|
10cm | 0% | 0% |
20cm | 0% | 0% |
30cm | 0% | 0% |
40cm | 5% | 0% |
50cm | 5% | 0% |
不使用音素切割时:测试80%:Accuracy = 100% (1728/1728) (classification)
使用音素切割时:测试80%:Accuracy = 99.9038% (6234/6240) (classification)
svm_type\kernel_type | 0 | 1 | 2 | 3 |
---|---|---|---|---|
0 | 35.21% | 39.68% | 32.95%* | 61.71% |
1 | 36.83% | 37.52% | 31.39%* | 61.25% |
3 | 34.67% | 54.39% | 27.82%* | 42.75% |
4 | 35.52% | 53.62% | 28.32%* | 40.06% |
svm_type\kernel_type | 0 | 1 | 2 | 3 |
---|---|---|---|---|
0 | 31.79% | 32.57% | - | 46.51% |
1 | 35.68% | 38.78% | - | 46.5% |
3 | 37.87% | 33.32% | - | 57.15% |
4 | 33.32% | 32.46% | - | 56.72% |
sentence id | EER |
---|---|
0 | 37.71% |
1 | 37.21% |
2 | 39.24% |
3 | 36.95% |
4 | 36.91% |
5 | 35.67% |
7 | 35.39% |
8 | 39.32% |
9 | 38.83% |
svm_type\kernel_type | 0 | 1 | 2 | 3 |
---|---|---|---|---|
0 | 28.25% | 35.55% | 31.47%* | 69.76% |
1 | 22.12% | 26.62% | 29.69%* | 67.89% |
3 | 30.12% | 37.95% | 25.70%* | 49.73% |
4 | 29.42% | 54.29% | 26.39%* | 45.13% |
接下来,我要运行一下:asvspoof中获取TextGrid文件的代码。 运行get_phoneme_data_script_asvspoof.py,在caochenhong@cch-emnets:~/security2017/MAUS-phoneme-sgementation/pi/sound_dev$文件目录下。
origin method | dev | eval |
---|---|---|
MFCCs | 20.89% | 26.13% |
My MFCCs | 22.12% | 27.82% |
其实一般刚才开始的时候,可以对噪声进行过滤可以提高准确性!!!
人声的频率:100Hz(男低音)到10000Hz(女高音)
ccs2016年论文。一半的数据是:手机静止的时播放,一半的数据是:手机是移动的。 还有一个是双声道的。这个实验是在10cm内做的。
如果语速很快,也不行吧。
replace attacks是什么意思? 他在录制声音的时候,是选择不同距离的?
每个用户要开始时说10次那个单词。然后验证的时候说3次那个单词。
他这个好像还是同一个人?还是同一个人进行认证。
为什么我之前没有用句子分类后,再进行分类!!!
音素切割:每个音素+整个句子,完全作为一个输入进去
值处理一组,进行数据获得把。
基于该模型:model = svm_train(label, data, '-s 0 -t 2 -n 0.5')
eval:Accuracy = 90.2518% (12008/13305) (classification) dev:Accuracy = 56.1588% (962/1713) (classification) all: Accuracy = 86.363% (12970/15018) (classification)