jiahe7ay / MINI_LLM

This is a repository used by individuals to experiment and reproduce the pre-training process of LLM.
348 stars 53 forks source link

优化 gen_sky 函数以处理整个文件夹的 JSONL 文件,并增强项目文档说明Update generate_data.py #10

Closed keesh0410 closed 7 months ago

keesh0410 commented 7 months ago

描述: 本次 Pull Request 不仅对 gen_sky 函数进行了重要的优化,使其能够处理整个文件夹中的 JSONL 文件,而且还针对一些项目文档中不够明确的部分添加了必要的注释和说明。

主要改进:

批量处理能力: 通过优化 gen_sky 函数,现在可以批量处理输入目录中的 .jsonl 文件,并将处理后的 .parquet 文件输出到指定目录。这大幅提高了处理效率,特别是对于大型数据集。 自动化和易用性增强: 更新后的函数简化了操作,用户只需指定输入和输出的文件夹路径,无需额外脚本。 项目文档补充: 明确指出了对于 gen_sky 函数,用户应如何操作,包括如何设置输入和输出路径(喵德注释)。 强调了 gen_aplca_sft 函数需要的 self_cognition.json 文件位置和下载指南(喵德注释)。 提醒用户关于 563w_baidubaike 数据需要从7z压缩文件解压后才能使用(喵德注释)。 注释和说明补充:

对于gen_sky函数的改进,现已支持文件夹批量处理,无需重复复制函数来处理多个文件,同时确保输出文件以.parquet结尾(喵德注释)。 指明了gen_aplca_sft函数所需的self_cognition.json文件的确切位置,以便用户下载(喵德注释)。 提示用户在使用gen_baike函数之前需要解压563w_baidubaike数据集的7z压缩文件(喵德注释)。 理由: 原始的 gen_sky 函数处理效率低下,且项目文档在某些部分缺乏明确的操作指南,给用户带来了不便。此次更新旨在提升用户体验,通过简化数据处理流程并增强项目文档的清晰度,使得项目更加易用、高效。

我相信这些改进和补充将大大有益于项目,通过提高其处理效率和用户易用性,进一步增强项目的实用价值。期待您的反馈和建议,以便我们共同进步。