Open egolearner opened 3 years ago
http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic03.pdf
google ICCV2003关于视频搜索的论文,主要是将文本检索中创建索引的思想推广到了视频搜索中。
对原始视频创建视角无关的描述,同时使用了Shape Adapted和Maximally Stable的方式来生成visual words(论文后面提到这两种方式是互补的,SA+MS效果更好),然后对这两种区域使用SIFT方法提取特征。对于出现不超过3帧的区域认为是噪声直接丢掉。
对每个区域使用K-means来做量化(vector quantization),使用Mahalanobis distance来度量距离。
SA和MS独立计算,它们可以看作是描述同一场景的不同词汇。
文本检索中使用tf-idf来定义权重
$$ti = (n{id}/n_d)*log(N/N_i)$$
公式前半部分是词频,单词在文档中出现的频率;后半部分是逆文档频率,文档个数与出现单词的文档个数的商再取log。
出现最高的5%和最低的10%的visual word定义为stop list。
空间一致性(类似于文本检索中的单词顺序),针对匹配点/区域,检查附近是否有15个已匹配的点/区域,少于则rejected。
The visual words learnt for Lola are used unchanged for the Groundhog Day retrieval.
不同电影可以使用相同的visual words,这是普适的还是特例?貌似是后者?
http://www.robots.ox.ac.uk/~vgg/publications/papers/sivic03.pdf
google ICCV2003关于视频搜索的论文,主要是将文本检索中创建索引的思想推广到了视频搜索中。
2 定义单词
对原始视频创建视角无关的描述,同时使用了Shape Adapted和Maximally Stable的方式来生成visual words(论文后面提到这两种方式是互补的,SA+MS效果更好),然后对这两种区域使用SIFT方法提取特征。对于出现不超过3帧的区域认为是噪声直接丢掉。
3 生成词表
对每个区域使用K-means来做量化(vector quantization),使用Mahalanobis distance来度量距离。
SA和MS独立计算,它们可以看作是描述同一场景的不同词汇。
4 visual indexing
文本检索中使用tf-idf来定义权重
$$ti = (n{id}/n_d)*log(N/N_i)$$
公式前半部分是词频,单词在文档中出现的频率;后半部分是逆文档频率,文档个数与出现单词的文档个数的商再取log。
6 object retrieval
出现最高的5%和最低的10%的visual word定义为stop list。
空间一致性(类似于文本检索中的单词顺序),针对匹配点/区域,检查附近是否有15个已匹配的点/区域,少于则rejected。
不同电影可以使用相同的visual words,这是普适的还是特例?貌似是后者?
take way/感想
参考资料