使用asvspoof2017数据集

luoluyao commented 6 years ago

基于该模型：model = svm_train(label, data, '-s 0 -t 2 -n 0.5')

eval：Accuracy = 90.2518% (12008/13305) (classification) dev：Accuracy = 56.1588% (962/1713) (classification) all: Accuracy = 86.363% (12970/15018) (classification)

luoluyao commented 6 years ago

原文先采集不同的特征（mfcc\cqcc等），然后使用极大似然法和逻辑回归进行简单的分类。

luoluyao commented 6 years ago

为获得EER，需要进行以下步骤： 1.给每一个样本计算一个可信度的值。 2.计算阈值。该阈值由实际情况得到。该阈值要使得FP=FN。 3.由阈值决定出最后的EER

luoluyao commented 6 years ago

我们的数据

距离	FN	FP
10cm	0%	0%
20cm	0%	0%
30cm	0%	0%
40cm	5%	0%
50cm	5%	0%

注：固定角度，已知距离

我们的数据，对于混杂在一起的数据

不使用音素切割时：测试80%：Accuracy = 100% (1728/1728) (classification)

使用音素切割时：测试80%：Accuracy = 99.9038% (6234/6240) (classification)

eval data set : EER

svm_type\kernel_type	0	1	2	3
0	35.21%	39.68%	32.95%*	61.71%
1	36.83%	37.52%	31.39%*	61.25%
3	34.67%	54.39%	27.82%*	42.75%
4	35.52%	53.62%	28.32%*	40.06%

注：*表示FN与FP差距较大

音素切割（句子1）

svm_type\kernel_type	0	1	2	3
0	31.79%	32.57%	-	46.51%
1	35.68%	38.78%	-	46.5%
3	37.87%	33.32%	-	57.15%
4	33.32%	32.46%	-	56.72%

在svm_type = 1, kernel_type = 0时， eval data set 的 EER

sentence id	EER
0	37.71%
1	37.21%
2	39.24%
3	36.95%
4	36.91%
5	35.67%
7	35.39%
8	39.32%
9	38.83%

luoluyao commented 6 years ago

develope data set : EER

svm_type\kernel_type	0	1	2	3
0	28.25%	35.55%	31.47%*	69.76%
1	22.12%	26.62%	29.69%*	67.89%
3	30.12%	37.95%	25.70%*	49.73%
4	29.42%	54.29%	26.39%*	45.13%

luoluyao commented 6 years ago

接下来，我要运行一下：asvspoof中获取TextGrid文件的代码。运行get_phoneme_data_script_asvspoof.py，在caochenhong@cch-emnets:~/security2017/MAUS-phoneme-sgementation/pi/sound_dev$文件目录下。

luoluyao commented 6 years ago

origin method	dev	eval
MFCCs	20.89%	26.13%
My MFCCs	22.12%	27.82%

luoluyao commented 6 years ago

其实一般刚才开始的时候，可以对噪声进行过滤可以提高准确性！！！

luoluyao commented 6 years ago

人声的频率：100Hz（男低音）到10000Hz（女高音）

luoluyao commented 6 years ago

ccs2016年论文。一半的数据是：手机静止的时播放，一半的数据是：手机是移动的。还有一个是双声道的。这个实验是在10cm内做的。

如果语速很快，也不行吧。

luoluyao commented 6 years ago

replace attacks是什么意思？他在录制声音的时候，是选择不同距离的？

luoluyao commented 6 years ago

每个用户要开始时说10次那个单词。然后验证的时候说3次那个单词。

luoluyao commented 6 years ago

他这个好像还是同一个人？还是同一个人进行认证。

luoluyao commented 6 years ago

完全进行切割，识别，然后对所有的进行均分。
或者每段音频都得到一个值，然后在依据大多数原则进行判断。

luoluyao commented 6 years ago

为什么我之前没有用句子分类后，再进行分类！！！

luoluyao commented 6 years ago

音素切割：每个音素+整个句子，完全作为一个输入进去

luoluyao commented 6 years ago

值处理一组，进行数据获得把。

luoluyao / VoiceReplayAttack