openreasoner / openr

OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
https://openreasoner.github.io/
MIT License
1.08k stars 79 forks source link

Data generation issues #23

Open ccp123456789 opened 1 month ago

ccp123456789 commented 1 month ago

extracted_problems_and_answers.json 这个文件,python data/gen_data.py

生成的结果质量很差

caihuaiguang commented 1 month ago

顺着想问一下,运行默认的python data/gen_data.py大概花了多长时间?我的十几分钟没似乎没有文件生成 @ccp123456789

caihuaiguang commented 1 month ago

顺着想问一下,运行默认的python data/gen_data.py大概花了多长时间?我的十几分钟没似乎没有文件生成 @ccp123456789

等了1小时看了一下,终于生成1条数据了,但内容不太相关,确实有点差。

ccp123456789 commented 1 month ago

顺着想问一下,运行默认的python data/gen_data.py大概花了多长时间?我的十几分钟没似乎没有文件生成 @ccp123456789

等了1小时看了一下,终于生成1条数据了,但内容不太相关,确实有点差。

怎么都没人提这个问题,这个运行的结果真的好差,压根就拟合不到正确路径。

mengfn commented 3 weeks ago

The content quality depends on the LLM model you use. For example, with Qwen2.5-Math-7B-Instruct, you can review the dataset here: MATH-APS on Hugging Face.

wenhancao commented 3 weeks ago

顺着想问一下,运行默认的python data/gen_data.py大概花了多长时间?我的十几分钟没似乎没有文件生成 @ccp123456789

等了1小时看了一下,终于生成1条数据了,但内容不太相关,确实有点差。

怎么都没人提这个问题,这个运行的结果真的好差,压根就拟合不到正确路径。

我跑了一下结果也很差,基本没法用,6k条估计得跑一个多月。。。我感觉release的像是一个示意性的代码,而不是最终的代码,希望把最终的代码release一下