IAAR-Shanghai / PGRAG

PGRAG
Other
34 stars 2 forks source link

数据集加载 #2

Closed 540930 closed 1 month ago

540930 commented 1 month ago

请问数据集加载在哪个文件哪个语句,我没找到,谢谢!

siminniu commented 1 month ago

您好!感谢您对本项目的关注,评估的数据集加载文件为eval_data_with_qe_and_qdse_file = 'data/eval/eval_data_with_qe_and_qdse.json',里面包含,评估的问题集、对应的查询重写集、以及问题的嵌入,查询重写集的嵌入,然后在pgrag/seed_context_recall.py中的https://github.com/IAAR-Shanghai/PGRAG/blob/62ecff0519a61ba8166bccace09db7d9aaa64807/pgrag/seed_context_recall.py#L127中我们进行了数据的加载,并在'data/eval/'目录下提供了评估问题集的样例

540930 commented 1 month ago

好的,谢谢,我还想问下,是不是还要在下面四个路径下分别创建一个.txt格式空文件呀 raw_news_files_dir = 'data/raw_news/batch0' title_files_dir = 'data/pg_gen/batch0/title' fcis_files_dir = "data/pg_gen/batch0/textToVerificationText/" mindmaps_str_files_dir = "data/pg_gen/batch0/mindmap_str/"

540930 commented 1 month ago

还有我的第一个问题是训练数据集加载,恳请解答

siminniu commented 1 month ago

不用不用,只需要创建目录就行

@. @.

---- 回复的原邮件 ---- 发件人 @.> 日期 2024年07月15日 09:16 收件人 @.> 抄送至 @.>@.> 主题 Re: [IAAR-Shanghai/PGRAG] 数据集加载 (Issue #2)

好的,谢谢,我还想问下,是不是还要在下面四个路径下分别创建一个.txt格式空文件呀 raw_news_files_dir = 'data/raw_news/batch0' title_files_dir = 'data/pg_gen/batch0/title' fcis_files_dir = "data/pg_gen/batch0/textToVerificationText/" mindmaps_str_files_dir = "data/pg_gen/batch0/mindmap_str/" — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

siminniu commented 1 month ago

这个项目没有训练数据集呀,只需要把待存的文章一篇一篇的用txt存到原始新闻目录下就可以啦

---- 回复的原邮件 ---- 发件人 @.> 日期 2024年07月15日 09:33 收件人 @.> 抄送至 @.>@.> 主题 Re: [IAAR-Shanghai/PGRAG] 数据集加载 (Issue #2)

还有我的第一个问题是训练数据集加载,恳请解答 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

540930 commented 1 month ago

谢谢解答。就是说,把我自己的txt格式文章存在raw_news_files_dir = 'data/raw_news/batch0'这个文件夹下,对吗

siminniu commented 1 month ago

是的,您的理解是对的

---- 回复的原邮件 ---- 发件人 @.> 日期 2024年07月15日 09:49 收件人 @.> 抄送至 @.>@.> 主题 Re: [IAAR-Shanghai/PGRAG] 数据集加载 (Issue #2)

谢谢解答。就是说,把我自己的txt格式文章存在raw_news_files_dir = 'data/raw_news/batch0'这个文件夹下,对吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

540930 commented 1 month ago

好的,谢谢您

siminniu commented 1 month ago

不用客气,再次感谢您对本项目的关注