Closed shinmura0 closed 3 years ago
2400個くらい聞いた感想 ・secondary labelは精度高い印象 ・鳴き声がほとんど聞こえないものがあり、何らかの標準化が必要 ・※1短い音源(10秒とか)でも最初と最後の1秒くらいしか鳴いておらず、真ん中をクリップしてくると無音の音源になってしまう ・※2あるいは、真ん中ではsecondaryしか鳴いていない場面もある ・虫っぽい鳥の鳴き声もあるので、それは環境音と錯覚しがち ・ノイズはあったりなかったりなので、ある意味MixUpするとAugmentation効果が倍増するかも ・鳴き声よりノイズの方が大きいものもあるので、それらは外して学習した方が良い ・人の足音や息遣い、川の音、雨の音が入っている ・飛行機の音はあまりしない ・連番の音源は同じ記録者?なのか、似たような音が多い(過学習の原因になる?)
一番の問題は※1と2で、どうやってprimary labelの部分を切り取ってこれるのかが焦点。 無音かどうかはヒューリスティックな方法で検出できるかもしれないが、secondaryしか 鳴いていない音源の検出は難しい。やるとすれば、psuedo labelのような方法になるのか?
2400個くらい聞いた感想 ・secondary labelは精度高い印象 ・鳴き声がほとんど聞こえないものがあり、何らかの標準化が必要 ・※1短い音源(10秒とか)でも最初と最後の1秒くらいしか鳴いておらず、真ん中をクリップしてくると無音の音源になってしまう ・※2あるいは、真ん中ではsecondaryしか鳴いていない場面もある ・虫っぽい鳥の鳴き声もあるので、それは環境音と錯覚しがち ・ノイズはあったりなかったりなので、ある意味MixUpするとAugmentation効果が倍増するかも ・鳴き声よりノイズの方が大きいものもあるので、それらは外して学習した方が良い ・人の足音や息遣い、川の音、雨の音が入っている ・飛行機の音はあまりしない ・連番の音源は同じ記録者?なのか、似たような音が多い(過学習の原因になる?)
一番の問題は※1と2で、どうやってprimary labelの部分を切り取ってこれるのかが焦点。 無音かどうかはヒューリスティックな方法で検出できるかもしれないが、secondaryしか 鳴いていない音源の検出は難しい。やるとすれば、psuedo labelのような方法になるのか?