willard-yuan / flask-keras-cnn-image-retrieval

🚀CNN-based image retrieval built on Keras
517 stars 175 forks source link

关于索引的问题 #12

Closed Paul0629 closed 6 years ago

Paul0629 commented 6 years ago

图像特征求出来之后,普遍的做法是遍历所有的特征求余弦距离,如果特征特别多效率是不是不够高,如何用哈希索引之类来帮助我们在保持精度的情况下更高效的进行检索呢? @

willard-yuan commented 6 years ago

可以使用哈希、PQ/OPQ、基于图结构的索引比如HNSW、树等方法做索引

Paul0629 commented 6 years ago

使用这些索引方法相比直接遍历,精度会有影响吗? 另外大神你有索引这块的相关资料推荐吗?@willard-yuan

willard-yuan commented 6 years ago

精度肯定是有损失的。我个人比如推荐OPQ,如果需要很高的召回,可以使用hnsw。我博客上面介绍了一些ANN方法,可以看看再叙ANN Search

willard-yuan commented 6 years ago

@Paul0629 如果没有什么问题了,我就把这个issue关闭了。这个项目,如果有时间的话,我会给它添加召回率很高的HNSW索引。