Closed xiafeng-nb closed 1 month ago
嗨 @xiafeng-nb ,感谢你对 Data-Juicer 的关注与使用!
我们本地没能复现这种情况,请问这里会卡多久?这个现象是能够稳定复现的吗?以及在卡住的时候你的机器的各项资源占用是否有达到满负荷或者接近满负荷的状态吗?
去重大概会卡半个小时才会往后进行,其余算子也都会变慢很多,用新版的代码和7月17号之前的版本去处理同一个jsonl文件,同一个算子最慢的会比之前慢10倍,两张图都是5个np,用的是https://data.together.xyz/redpajama-data-1T/v1.0.0/urls.txt的2023-06的jsonl文件
嗨 @xiafeng-nb ,感谢你对 Data-Juicer 的关注与使用!
我们本地没能复现这种情况,请问这里会卡多久?这个现象是能够稳定复现的吗?以及在卡住的时候你的机器的各项资源占用是否有达到满负荷或者接近满负荷的状态吗?
不同算子卡住时间不一样,最慢的能卡快1小时,这期间机器资源占用变小,没有满负荷的状态,使用小文件处理时候没有这个问题,但是用5g大小的jsonl文件,可以稳定复现
有个问题想请教下,针对redpajama这些数据集的“菜谱”,从文档里看是使用3sigma方法对数据分布观察计算,得到每个超参数值,这是怎么确定上调或者下调如语言评分过滤算子的超参数值会对模型训练更好的呢,是每次调完超参数处理数据,再训练模型然后评估下性能,然后再调再评估,直到最高点就停止吗。
嗨 @xiafeng-nb ,感谢你对 Data-Juicer 的关注与使用! 我们本地没能复现这种情况,请问这里会卡多久?这个现象是能够稳定复现的吗?以及在卡住的时候你的机器的各项资源占用是否有达到满负荷或者接近满负荷的状态吗?
不同算子卡住时间不一样,最慢的能卡快1小时,这期间机器资源占用变小,没有满负荷的状态,使用小文件处理时候没有这个问题,但是用5g大小的jsonl文件,可以稳定复现
我们使用与您相同的 yaml 配置,在 CC/2023-06/head_0000.jsonl 文件上仍然没能复现卡住较长时间的问题;每个算子结束之后通常只有几秒钟的缓存同步时间。建议关闭 tracer 和 cache,观察是否有改善,检查是否磁盘读写较慢?
去重大概会卡半个小时才会往后进行,其余算子也都会变慢很多,用新版的代码和7月17号之前的版本去处理同一个jsonl文件,同一个算子最慢的会比之前慢10倍,两张图都是5个np,用的是https://data.together.xyz/redpajama-data-1T/v1.0.0/urls.txt的2023-06的jsonl文件
感谢反馈!我们在7月17号后的版本中加入了容错机制,避免因为单个样本异常导致处理进程终止;这不可避免地增加了开销,对计算轻量的 OP 影响尤为显著。我们在 PR #402 中增加了开关,通过关闭容错机制恢复原来的速度,欢迎测试反馈~
Before Reporting 报告之前
[X] I have pulled the latest code of main branch to run again and the bug still existed. 我已经拉取了主分支上最新的代码,重新运行之后,问题仍不能解决。
[X] I have read the README carefully and no error occurred during the installation process. (Otherwise, we recommend that you can ask a question using the Question template) 我已经仔细阅读了 README 上的操作指引,并且在安装过程中没有错误发生。(否则,我们建议您使用Question模板向我们进行提问)
Search before reporting 先搜索,再报告
OS 系统
Ubuntu
Installation Method 安装方式
pip
Data-Juicer Version Data-Juicer版本
latest
Python Version Python版本
3.10
Describe the bug 描述这个bug
昨天用7月份的代码处理redpajama的cc数据还能正常运行,今天拉了版最新代码后再运行会一直卡在document_simhash_deduplicator_compute_hash (num_proc=10): 100%|##########| 776770/776770 [04:52<00:00, 358.93 examples/s] 我处理的数据是单个jsonl文件,开启了10个np
To Reproduce 如何复现
python tools/process_data.py --config configs/data_juicer_recipes/redpajama-cc-2023-06-refine.yaml
Configs 配置信息
Logs 报错日志
No response
Screenshots 截图
No response
Additional 额外信息
No response