Google1234 / Information_retrieva_Projectl-

新闻检索:爬虫定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。可以实现:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果, 能预览)功能
MIT License
128 stars 36 forks source link

Bug:merge_file()中buff_size 设置较大1024*1024*10 ,长时间无文件输出 #7

Open Google1234 opened 8 years ago

Google1234 commented 8 years ago

检查合并索引文件,是否内存溢出?处理速度太慢,10万条新闻的索引合并需要16小时。。。。