Open patchie opened 1 year ago
just wanted to update with the result of the training, if it will help anyone:
{'loss': 1.0238, 'learning_rate': 1.2462789068320016e-05, 'epoch': 0.42} {'loss': 1.013, 'learning_rate': 1.1702435557223988e-05, 'epoch': 0.44} {'loss': 1.022, 'learning_rate': 1.0931792674840718e-05, 'epoch': 0.47} {'loss': 1.0153, 'learning_rate': 1.0155518119203511e-05, 'epoch': 0.49} {'loss': 1.0143, 'learning_rate': 9.378303625685196e-06, 'epoch': 0.52} {'loss': 1.0191, 'learning_rate': 8.604846610560771e-06, 'epoch': 0.54} {'loss': 1.0176, 'learning_rate': 7.839821780235168e-06, 'epoch': 0.57} {'loss': 1.0169, 'learning_rate': 7.0878528777274814e-06, 'epoch': 0.59} {'loss': 1.0168, 'learning_rate': 6.35348473717345e-06, 'epoch': 0.62} {'loss': 1.0117, 'learning_rate': 5.64115581524629e-06, 'epoch': 0.64} {'loss': 1.0106, 'learning_rate': 4.955171365513603e-06, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [150:33:44<70:43:02, 3857.31s/it][INFO|trainer.py:3158] 2023-12-10 17:22:46,485 >> Running Evaluation [INFO|trainer.py:3160] 2023-12-10 17:22:46,486 >> Num examples = 23110 [INFO|trainer.py:3163] 2023-12-10 17:22:46,486 >> Batch size = 1 {'eval_loss': 1.0159717798233032, 'eval_runtime': 19243.2251, 'eval_samples_per_second': 1.201, 'eval_steps_per_second': 1.201, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [156:04:41<70:43:02, 3857.31s/it[INFO|trainer.py:1955] 2023-12-10 22:43:29,715 >>
Training completed. Do not forget to share your model on huggingface.co/models =)
{'train_runtime': 561882.257, 'train_samples_per_second': 0.37, 'train_steps_per_second': 0.0, 'train_loss': 1.0438810963841045, 'epoch': 0.67} 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 136/202 [156:04:41<75:44:37, 4131.48s/it] train metrics epoch = 0.67 train_loss = 1.0439 train_runtime = 6 days, 12:04:42.25 train_samples = 207865 train_samples_per_second = 0.37 train_steps_per_second = 0.0 2023-12-10 22:43:29 - INFO - main - Evaluate [INFO|trainer.py:3158] 2023-12-10 22:43:29,739 >> Running Evaluation [INFO|trainer.py:3160] 2023-12-10 22:43:29,739 >> Num examples = 23110 [INFO|trainer.py:3163] 2023-12-10 22:43:29,739 >> Batch size = 1 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 15431/23110 [5:22:04<2:40:16, 1.25s/it] eval metrics epoch = 0.67 eval_loss = 1.016 eval_runtime = 5:22:05.99 eval_samples = 23110 eval_samples_per_second = 1.196 eval_steps_per_second = 1.196 2023-12-11 04:05:35 - INFO - main - Save model [INFO|trainer.py:2881] 2023-12-11 04:05:35,784 >> Saving model checkpoint to data/zephyr-7b-sft-lora [INFO|tokenization_utils_base.py:2428] 2023-12-11 04:05:39,111 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json [INFO|tokenization_utils_base.py:2437] 2023-12-11 04:05:39,115 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json [INFO|trainer.py:2881] 2023-12-11 04:05:39,299 >> Saving model checkpoint to data/zephyr-7b-sft-lora [INFO|tokenization_utils_base.py:2428] 2023-12-11 04:05:41,961 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json [INFO|tokenization_utils_base.py:2437] 2023-12-11 04:05:41,966 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json events.out.tfevents.1702263935.17694.1: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 359/359 [00:01<00:00, 189B/s]events.out.tfevents.1701096113.9499.0: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8.50k/8.50k [00:01<00:00, 4.45kB/s]events.out.tfevents.1701681021.4007.0: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.65k/4.65k [00:01<00:00, 2.40kB/s]events.out.tfevents.1701682727.17694.0: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9.59k/9.59k [00:01<00:00, 4.94kB/s]training_args.bin: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.66k/4.66k [00:00<00:00, 27.4kB/s]tokenizer.model: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 493k/493k [00:00<00:00, 692kB/s]adapter_model.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 218M/218M [00:19<00:00, 11.2MB/s]Upload 7 LFS files: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:20<00:00, 2.87s/it]2023-12-11 04:06:06 - INFO - main - Model saved to data/zephyr-7b-sft-lora████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 217M/218M [00:18<00:00, 10.9MB/s][INFO|modelcard.py:452] 2023-12-11 04:06:06,770 >> Dropping the following result as it does not have all the necessary fields: {'dataset': {'name': 'HuggingFaceH4/ultrachat_200k', 'type': 'HuggingFaceH4/ultrachat_200k'}} [INFO|configuration_utils.py:461] 2023-12-11 04:06:06,779 >> Configuration saved in data/zephyr-7b-sft-lora/config.json 2023-12-11 04:06:06 - INFO - main - Pushing to hub... [INFO|trainer.py:2881] 2023-12-11 04:06:06,779 >> Saving model checkpoint to data/zephyr-7b-sft-lora [INFO|tokenization_utils_base.py:2428] 2023-12-11 04:06:09,653 >> tokenizer config file saved in data/zephyr-7b-sft-lora/tokenizer_config.json [INFO|tokenization_utils_base.py:2437] 2023-12-11 04:06:09,659 >> Special tokens file saved in data/zephyr-7b-sft-lora/special_tokens_map.json
Hi,
What is the best way to run this on my high performance laptop? Should this somehow work? Can i calculate how many days/weeks it will run?
Thanks in advance
Specs:
I found that this command would work on my laptop it seems:
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/multi_gpu.yaml --num_processes=1 scripts/run_sft.py recipes/zephyr-7b-beta/sft/config_lora.yaml --load_in_4bit=true --gradient_accumulation_steps=1024 --per_device_eval_batch_size=1 --per_device_train_batch_size=1
how now run it for 1-2 hours ish: