01joy / news-search-engine

新闻搜索引擎
http://news.bitjoy.net/
432 stars 128 forks source link

/code/setup.py 更新之后搜索不到更新的 #1

Open zhy0313 opened 7 years ago

zhy0313 commented 7 years ago

/code/setup.py 更新之后搜索不到更新的

chinobing commented 6 years ago

我测试过没有问题

iamBenson13 commented 5 years ago

我测试过没有问题

我测试了怎么更新不了,可以加个qq或微信请教下?

iamBenson13 commented 5 years ago

/code/setup.py 更新之后搜索不到更新的

我也是更新不了,如何解决?可以加个qq或微信 请教下?

chinobing commented 5 years ago

主要因为sohu那个网址对应页码改了,你要先登录网址再根据页码更新xml,我明天帮你找找

iamBenson13 commented 5 years ago

主要因为sohu那个网址对应页码改了,你要先登录网址再根据页码更新xml,我明天帮你找找

老哥,给个联系方式,好沟通。最近在搞毕业论文,不懂的还要向你请教下

wangyujiewj commented 4 years ago

还是更新不了,请问有解决的方法吗

chinobing commented 4 years ago

应该没有问题吖,你先检查一下sohu那个网址是不是变了

wangyujiewj commented 4 years ago

应该没有问题吖,你先检查一下sohu那个网址是不是变了

应该是变了,更新时出现很多条如下错误 -----<class 'AttributeError'>: http://www.sohu.com/a/148716065_260616----- 请问一下这种情况该如何解决呢?

chinobing commented 4 years ago

最近比较忙,要有空才能研究研究。 或者你改用其他数据源也可以,不一定用sohu的

chinobing commented 4 years ago

https://www.showdoc.cc/43850461454244?page_id=613287497192633

你改用这个,原理都一样

wangyujiewj commented 4 years ago

https://www.showdoc.cc/43850461454244?page_id=613287497192633

你改用这个,原理都一样

非常感谢!我换了其他的数据源,问题解决了

01joy commented 4 years ago

大家好,搜狐那个新闻很久不更新了,我换了中国新闻网,并且将搜索引擎部署到线上了:http://news.bitjoy.net/,感兴趣的可以看看我的新博文

chinobing commented 4 years ago

大家好,搜狐那个新闻很久不更新了,我换了中国新闻网,并且将搜索引擎部署到线上了:http://news.bitjoy.net/,感兴趣的可以看看我的[新博文](https://bitjoy.net/2020/04/05/introduction-to-building-a-search-engine-8/)。

老铁, 你“推荐阅读”部分需要计算k邻居矩阵,这部分有更好的方法不? 数据量太大就容易gg。

01joy commented 4 years ago

对,“推荐阅读”部分确实写得不够好,我直接调用了sklearn的pairwise_distances函数计算两两相似度,但是因为文档词项矩阵是一个稀疏矩阵,数据量大之后很容易爆内存。解决方法有两个:

  1. 不用pairwise_distances,而是手动计算两两相似度,对于每一条新闻,计算它和其他新闻的相似度,维护一个top-k的堆保留相似度排名前k的新闻。因为每条新闻是独立计算的,所以内存峰值会很低。

  2. 更好一点的做法是用深度学习计算句子的稠密向量表示,以解决稀疏矩阵的问题,但是要用深度学习对硬件要求很高啊。

chinobing commented 4 years ago

在“构建索引”中, 请问 AVG_L 在里面的作用是什么? 我打算更改sqlite为mongodb

01joy commented 4 years ago

AVG_L算的是所有新闻的平均长度,用在BM25打分中做归一化的,具体可以看这篇博客

说实话我对数据库这方面不是很了解,mongodb是专门针对文本存储的数据库吗,相比于sqlite有什么优势?另外,如何高效存储倒排项也是一个值得思考的问题,我这里直接把文档列表序列化存储到一起肯定不是最优的方案,不知道改用mongodb会不会有更好的解决方案。

chinobing commented 4 years ago

sqlite对于数据量不大的情况下用确实很方便, 但数据量多的时候并不是很好。 我现在在爬sina的研报,预计数据量大概有几十万条,xml文件对我来说并不是最优,所以现在打算将所有数据转移到VPS的mongodb上,不过先要慢慢搞清楚你的实现原理。不懂再请教老铁=)

syuichihann commented 3 years ago

想请教一下,所有文件都成功运行了,但是无论搜索什么词条都会报“search error”是为什么呢?下面是报错的提示。 127.0.0.1 - - [19/Dec/2020 22:36:49] "GET / HTTP/1.1" 200 - search error [2020-12-19 22:36:53,079] ERROR in app: Exception on /search/ [POST] Traceback (most recent call last): File "D:\software\python release\lib\site-packages\flask\app.py", line 2447, in wsgi_app response = self.full_dispatch_request() File "D:\software\python release\lib\site-packages\flask\app.py", line 1953, in full_dispatch_request return self.finalize_request(rv) File "D:\software\python release\lib\site-packages\flask\app.py", line 1968, in finalize_request response = self.make_response(rv) File "D:\software\python release\lib\site-packages\flask\app.py", line 2097, in make_response raise TypeError( TypeError: The view function did not return a valid response. The function either returned None or ended without a return statement. 127.0.0.1 - - [19/Dec/2020 22:36:53] "POST /search/ HTTP/1.1" 500 -

sunbuhui commented 3 years ago

@syuichihann 我也遇到了这个问题,请问你是怎么解决的呀。

更新,莫名起码又能跑了,我也没改过代码啊

Plugless commented 3 years ago

想请教一下,所有文件都成功运行了,但是无论搜索什么词条都会报“search error”是为什么呢?下面是报错的提示。 127.0.0.1 - - [19/Dec/2020 22:36:49] "GET / HTTP/1.1" 200 - search error [2020-12-19 22:36:53,079] ERROR in app: Exception on /search/ [POST] Traceback (most recent call last): File "D:\software\python release\lib\site-packages\flask\app.py", line 2447, in wsgi_app response = self.full_dispatch_request() File "D:\software\python release\lib\site-packages\flask\app.py", line 1953, in full_dispatch_request return self.finalize_request(rv) File "D:\software\python release\lib\site-packages\flask\app.py", line 1968, in finalize_request response = self.make_response(rv) File "D:\software\python release\lib\site-packages\flask\app.py", line 2097, in make_response raise TypeError( TypeError: The view function did not return a valid response. The function either returned None or ended without a return statement. 127.0.0.1 - - [19/Dec/2020 22:36:53] "POST /search/ HTTP/1.1" 500 -

朋友,我也是完全一样的search error,更新新闻试过了,依然报错,你最后怎么解决的?@sunbuhui @syuichihann

sunbuhui commented 3 years ago

个人认为代码肯定没问题,要不创一个新的python环境吧,venv试试?