Open appmlk opened 2 weeks ago
还有一个,SEMENTIC_SEARCH_API_KEY还蛮难弄的,可以考虑在SEMENTIC_SEARCH_API_KEY为空时,请求SEMENTIC加一个小sleep,防止429 Too Many Requests
还有一个,SEMENTIC_SEARCH_API_KEY还蛮难弄的,可以考虑在SEMENTIC_SEARCH_API_KEY为空时,请求SEMENTIC加一个小sleep,防止429 Too Many Requests
仔细看了看,原来有这样的代码,疏忽了
代码中包含两个注释# search before和# search after,感觉和直觉不符,因为# search before是在搜索未来的论文,但是before似乎是在描述过去。建议的修改: 将 # search before 修改为 # Forward search: search future papers (citations) 将 # search after 修改为 # Backward search: search past papers (references)
尝试在本机运行了,好棒的工作,一些改进的建议:
1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;
2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;
3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?
4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?
谢谢建议,欢迎加入进来一起开发
尝试在本机运行了,好棒的工作,一些改进的建议:
1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;
2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;
3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?
4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?
很好的建议: 1.我后续有时间会进行改进,这也是我们之后想要继续深入的方向。 2.这个因为我们是采用引用关系,到最新的论文可能就没有被引了。 3.这个我后面会进行错误排查 4.这个我现在添加了一些简单的代理,谢谢你的建议
尝试在本机运行了,好棒的工作,一些改进的建议:
1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;
2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;
3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?
4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?