Google1234 / Information_retrieva_Projectl-

新闻检索:爬虫定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。可以实现:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果, 能预览)功能
MIT License
128 stars 36 forks source link

需要建立一个正排索引 #13

Open Google1234 opened 8 years ago

Google1234 commented 8 years ago

正排索引维护了文档ID和文档中出现的词项之间的一一映射关系,也就是说一篇文档中出现了哪些词项以及各个词项在文档中出现的词频tf均维护在正排索引表中,表结构用HashMap进行维护,词项集合用ArrayList进行维护。值得注意的是为了降低词项字符串重复的内存开销,在此用HashSet新维护了一个字典表,索引为该词项,正排表以及后续的倒排表中所有出现过的词项均是对该字典表中的词项的一份引用。故大大降低了词项重复所导致的内存空间占用,经测试内存开销降低了约30%。