llm-jp / scripts

Apache License 2.0
1 stars 1 forks source link

Update high qulaity cpt scripts (fix scripts and add exp C, D and E) #58

Closed YumaTsuta closed 1 month ago

YumaTsuta commented 1 month ago

This PR add script of experiment C. (use taken and warp dataset only as Ja dataset) This PR also includes script fix that disable replica nodes to create data config.

YumaTsuta commented 1 month ago

当初は安全面に振り切って TOTAL_TOKEN_SIZEまでチェックしてましたが、コードやノードが正しく動くことを前提にしてレプリカノードで $DATA_CONFIGを作成しないようにするだけなら sleepするだけでも良い気はしてきました

if [ "$OMPI_COMM_WORLD_RANK" -eq 0 ]; then
  # Prepare data config to load
  python3 "${SCRIPT_ROOT}/megatron_data_formatter.py" "${SCRIPT_DIR}/data_config.yaml" >"$DATA_CONFIG" 2>"$DATA_SUMMARY"
else
  sleep 3
fi