DAMO-NLP-SG / CoI-Agent

Official code for paper: Chain of Ideas: Revolutionizing Research via Novel Idea Development with LLM Agents
Apache License 2.0
373 stars 20 forks source link

一些小小的建议 #5

Open appmlk opened 2 weeks ago

appmlk commented 2 weeks ago

尝试在本机运行了,好棒的工作,一些改进的建议:

1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;

2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;

3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?

4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?

appmlk commented 2 weeks ago

还有一个,SEMENTIC_SEARCH_API_KEY还蛮难弄的,可以考虑在SEMENTIC_SEARCH_API_KEY为空时,请求SEMENTIC加一个小sleep,防止429 Too Many Requests

appmlk commented 2 weeks ago

还有一个,SEMENTIC_SEARCH_API_KEY还蛮难弄的,可以考虑在SEMENTIC_SEARCH_API_KEY为空时,请求SEMENTIC加一个小sleep,防止429 Too Many Requests

仔细看了看,原来有这样的代码,疏忽了

appmlk commented 2 weeks ago

代码中包含两个注释# search before和# search after,感觉和直觉不符,因为# search before是在搜索未来的论文,但是before似乎是在描述过去。建议的修改: 将 # search before 修改为 # Forward search: search future papers (citations) 将 # search after 修改为 # Backward search: search past papers (references)

LidongBing commented 2 weeks ago

尝试在本机运行了,好棒的工作,一些改进的建议:

1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;

2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;

3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?

4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?

谢谢建议,欢迎加入进来一起开发

jianghuyihei commented 2 weeks ago

尝试在本机运行了,好棒的工作,一些改进的建议:

1、增加一些爬虫,分析论文的分区或者影响因子,优先选择高水平论文来分析;

2、增加新论文的循环次数,例如当最新年份(如2024年)的论文累积到一定数量时才停止循环;

3、is_azure : False 似乎不起作用,可能改成数字的判断会更好?

4、pdf下载容易报错(特别是IEEE),但是实际上浏览器能够打开,或许考虑在这部分加入代理,或者使用selenium来下载?

很好的建议: 1.我后续有时间会进行改进,这也是我们之后想要继续深入的方向。 2.这个因为我们是采用引用关系,到最新的论文可能就没有被引了。 3.这个我后面会进行错误排查 4.这个我现在添加了一些简单的代理,谢谢你的建议