Closed qinghaojun closed 2 weeks ago
在加载模型以及训练数据的时候cpu使用率升高到800%以上然后进程就被kill了 [2024-08-28 08:55:13,160] [INFO] [launch.py:319:sigkill_handler] Killing subprocess 385459 [2024-08-28 08:55:14,016] [INFO] [launch.py:319:sigkill_handler] Killing subprocess 385460 [2024-08-28 08:55:14,017] [ERROR] [launch.py:325:sigkill_handler] ['/opt/conda/envs/pissa/bin/python', '-u', 'pissa.py', '--local_rank=1', '--model_name_or_path', '/home/xx/work/xxx/PiSSA/model/llma3', '--use_lora', 'True', '--adapter_name_or_path', 'pissa_init', '--data_path', '/home/mw/work/yqh/PiSSA/data', '--dataset_field', 'query', 'response', '--dataset_split', 'train[:50000]', '--output_dir', 'output/PiSSA-Llama-3-8B-r128', '--num_train_epochs', '1', '--model_max_length', '512', '--per_device_train_batch_size', '1', '--gradient_accumulation_steps', '1', '--save_strategy', 'steps', '--save_steps', '100', '--bf16', '--save_total_limit', '100', '--learning_rate', '2e-5', '--weight_decay', '0.', '--warmup_ratio', '0.03', '--logging_steps', '1', '--lr_scheduler_type', 'cosine', '--report_to', 'tensorboard', '--merge', 'True', '--deepspeed', 'configs/ds_config_zero2_no_offload.json'] exits with return code = -9
在加载模型以及训练数据的时候cpu使用率升高到800%以上然后进程就被kill了 [2024-08-28 08:55:13,160] [INFO] [launch.py:319:sigkill_handler] Killing subprocess 385459 [2024-08-28 08:55:14,016] [INFO] [launch.py:319:sigkill_handler] Killing subprocess 385460 [2024-08-28 08:55:14,017] [ERROR] [launch.py:325:sigkill_handler] ['/opt/conda/envs/pissa/bin/python', '-u', 'pissa.py', '--local_rank=1', '--model_name_or_path', '/home/xx/work/xxx/PiSSA/model/llma3', '--use_lora', 'True', '--adapter_name_or_path', 'pissa_init', '--data_path', '/home/mw/work/yqh/PiSSA/data', '--dataset_field', 'query', 'response', '--dataset_split', 'train[:50000]', '--output_dir', 'output/PiSSA-Llama-3-8B-r128', '--num_train_epochs', '1', '--model_max_length', '512', '--per_device_train_batch_size', '1', '--gradient_accumulation_steps', '1', '--save_strategy', 'steps', '--save_steps', '100', '--bf16', '--save_total_limit', '100', '--learning_rate', '2e-5', '--weight_decay', '0.', '--warmup_ratio', '0.03', '--logging_steps', '1', '--lr_scheduler_type', 'cosine', '--report_to', 'tensorboard', '--merge', 'True', '--deepspeed', 'configs/ds_config_zero2_no_offload.json'] exits with return code = -9