Open patchie opened 10 months ago
I ran it again, and now it seemed to successfully finish.
Adding the last lines of the log while running again, if it will help in any troubleshooting?
{'loss': 1.0238, 'learning_rate': 1.2462789068320016e-05, 'epoch': 0.42} {'loss': 1.013, 'learning_rate': 1.1702435557223988e-05, 'epoch': 0.44} {'loss': 1.022, 'learning_rate': 1.0931792674840718e-05, 'epoch': 0.47} {'loss': 1.0153, 'learning_rate': 1.0155518119203511e-05, 'epoch': 0.49} {'loss': 1.0143, 'learning_rate': 9.378303625685196e-06, 'epoch': 0.52} {'loss': 1.0191, 'learning_rate': 8.604846610560771e-06, 'epoch': 0.54} {'loss': 1.0176, 'learning_rate': 7.839821780235168e-06, 'epoch': 0.57} {'loss': 1.0169, 'learning_rate': 7.0878528777274814e-06, 'epoch': 0.59} {'loss': 1.0168, 'learning_rate': 6.35348473717345e-06, 'epoch': 0.62} {'loss': 1.0117, 'learning_rate': 5.64115581524629e-06, 'epoch': 0.64} {'loss': 1.0106, 'learning_rate': 4.955171365513603e-06, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [150:33:44<70:43:02, 3857.31s/it][INFO|trainer.py:3158] 2023-12-10 17:22:46,485 >> Running Evaluation [INFO|trainer.py:3160] 2023-12-10 17:22:46,486 >> Num examples = 23110 [INFO|trainer.py:3163] 2023-12-10 17:22:46,486 >> Batch size = 1 {'eval_loss': 1.0159717798233032, 'eval_runtime': 19243.2251, 'eval_samples_per_second': 1.201, 'eval_steps_per_second': 1.201, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [156:04:41<70:43:02, 3857.31s/it[INFO|trainer.py:1955] 2023-12-10 22:43:29,715 >>
Training completed. Do not forget to share your model on huggingface.co/models =)
{'train_runtime': 561882.257, 'train_samples_per_second': 0.37, 'train_steps_per_second': 0.0, 'train_loss': 1.0438810963841045, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [156:04:41<75:44:37, 4131.48s/it] train metrics epoch = 0.67 train_loss = 1.0439 train_runtime = 6 days, 12:04:42.25 train_samples = 207865 train_samples_per_second = 0.37 train_steps_per_second = 0.0 2023-12-10 22:43:29 - INFO - main - Evaluate [INFO|trainer.py:3158] 2023-12-10 22:43:29,739 >> Running Evaluation [INFO|trainer.py:3160] 2023-12-10 22:43:29,739 >> Num examples = 23110 [INFO|trainer.py:3163] 2023-12-10 22:43:29,739 >> Batch size = 1 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 15431/23110 [5:22:04<2:40:16, 1.25s/it] eval metrics epoch = 0.67 eval_loss = 1.016 eval_runtime = 5:22:05.99 eval_samples = 23110 eval_samples_per_second = 1.196 eval_steps_per_second = 1.196 2023-12-11 04:05:35 - INFO - main - Save model [INFO|trainer.py:2881] 2023-12-11 04:05:35,784 >> Saving model checkpoint to data/zephyr-7b-sft-lora [INFO|tokenization_utils_base.py:2428] 2023-12-11 04:05:39,111 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json [INFO|tokenization_utils_base.py:2437] 2023-12-11 04:05:39,115 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json [INFO|trainer.py:2881] 2023-12-11 04:05:39,299 >> Saving model checkpoint to data/zephyr-7b-sft-lora [INFO|tokenization_utils_base.py:2428] 2023-12-11 04:05:41,961 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json [INFO|tokenization_utils_base.py:2437] 2023-12-11 04:05:41,966 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json events.out.tfevents.1702263935.17694.1: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 359/359 [00:01<00:00, 189B/s]events.out.tfevents.1701096113.9499.0: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8.50k/8.50k [00:01<00:00, 4.45kB/s]events.out.tfevents.1701681021.4007.0: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.65k/4.65k [00:01<00:00, 2.40kB/s]events.out.tfevents.1701682727.17694.0: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9.59k/9.59k [00:01<00:00, 4.94kB/s]training_args.bin: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.66k/4.66k [00:00<00:00, 27.4kB/s]tokenizer.model: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 493k/493k [00:00<00:00, 692kB/s]adapter_model.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 218M/218M [00:19<00:00, 11.2MB/s]Upload 7 LFS files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:20<00:00, 2.87s/it]2023-12-11 04:06:06 - INFO - main - Model saved to data/zephyr-7b-sft-lora████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 217M/218M [00:18<00:00, 10.9MB/s][INFO|modelcard.py:452] 2023-12-11 04:06:06,770 >> Dropping the following result as it does not have all the necessary fields: {'dataset': {'name': 'HuggingFaceH4/ultrachat_200k', 'type': 'HuggingFaceH4/ultrachat_200k'}} [INFO|configuration_utils.py:461] 2023-12-11 04:06:06,779 >> Configuration saved in data/zephyr-7b-sft-lora/config.json 2023-12-11 04:06:06 - INFO - main - Pushing to hub... [INFO|trainer.py:2881] 2023-12-11 04:06:06,779 >> Saving model checkpoint to data/zephyr-7b-sft-lora [INFO|tokenization_utils_base.py:2428] 2023-12-11 04:06:09,653 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json [INFO|tokenization_utils_base.py:2437] 2023-12-11 04:06:09,659 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json
Just wanted to report a crash while training.
Error message:
[process exited with code 1 (0x00000001)]
Command i used to start the process:
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/multi_gpu.yaml --num_processes=1 scripts/run_sft.py recipes/zephyr-7b-beta/sft/config_lora.yaml --load_in_4bit=true --gradient_accumulation_steps=1024 --per_device_eval_batch_size=1 --per_device_train_batch_size=1
Explanation: Ran the process for several days, then my wife disconnected my laptop from the power source and moved the pc from the livingroom to another room(as the pc was so noisy), and then it seemed to crash. Not sure if it was triggered by the power source disconnect, or if it just happened around that time.
I will just try to run it again.
Log: