Video Google: A Text Retrieval Approach to Object Matching in Videos[3]

google ICCV2003关于视频搜索的论文，主要是将文本检索中创建索引的思想推广到了视频搜索中。

2 定义单词

对原始视频创建视角无关的描述，同时使用了Shape Adapted和Maximally Stable的方式来生成visual words（论文后面提到这两种方式是互补的，SA+MS效果更好），然后对这两种区域使用SIFT方法提取特征。对于出现不超过3帧的区域认为是噪声直接丢掉。

对每个区域使用K-means来做量化（vector quantization），使用Mahalanobis distance来度量距离。

SA和MS独立计算，它们可以看作是描述同一场景的不同词汇。

文本检索中使用tf-idf来定义权重

$$ti = (n{id}/n_d)*log(N/N_i)$$

公式前半部分是词频，单词在文档中出现的频率；后半部分是逆文档频率，文档个数与出现单词的文档个数的商再取log。

出现最高的5%和最低的10%的visual word定义为stop list。

空间一致性（类似于文本检索中的单词顺序），针对匹配点/区域，检查附近是否有15个已匹配的点/区域，少于则rejected。

The visual words learnt for Lola are used unchanged for the Groundhog Day retrieval.

不同电影可以使用相同的visual words，这是普适的还是特例？貌似是后者？