Haidra-Org / AI-Horde

A crowdsourced distributed cluster for AI art and text generation
GNU Affero General Public License v3.0
1.06k stars 127 forks source link

RPC errors swallowed #108

Closed vadi2 closed 1 year ago

vadi2 commented 1 year ago

Using 67028769c8375261468a8170871c43381c306111, it runs for a bit and then quits the worker process without giving details on the actual error:

Iteration: 1/1
  7%|██████████████████▊                                                                                                                                                                                                                                                                       | 2/30 [00:00<00:05,  5.02it/s]DiffusionWrapper has 859.52 M params.
 13%|█████████████████████████████████████▌                                                                                                                                                                                                                                                    | 4/30 [00:00<00:03,  7.20it/s]making attention of type 'vanilla' with 512 in_channels
Working with z of shape (1, 4, 32, 32) = 4096 dimensions.
making attention of type 'vanilla' with 512 in_channels
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 30/30 [00:03<00:00,  8.74it/s]
INFO       | 2023-01-03 06:43:53.571343 | worker.job:get_job_from_server:140 - Server https://stablehorde.net has no valid generations for us to do.
INFO       | 2023-01-03 06:43:55.349790 | worker.job:get_job_from_server:140 - Server https://stablehorde.net has no valid generations for us to do.
INFO       | 2023-01-03 06:43:56.793141 | worker.job:get_job_from_server:140 - Server https://stablehorde.net has no valid generations for us to do. Skipped Info: {'untrusted': 1}.
Iteration: 1/1
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  9.66it/s]
(raylet) [2023-01-03 06:44:04,394 E 214058 214058] (raylet) local_object_manager.cc:360: Failed to send object spilling request: GrpcUnavailable: RPC Error message: Socket closed; RPC Error details: 
INFO       | 2023-01-03 06:44:05.165446 | worker.job:get_job_from_server:140 - Server https://stablehorde.net has no valid generations for us to do.
Iteration: 1/1
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 30/31 [00:03<00:00,  9.89it/s](raylet) [2023-01-03 06:44:10,976 E 214058 214058] (raylet) local_object_manager.cc:360: Failed to send object spilling request: GrpcUnavailable: RPC Error message: Socket closed; RPC Error details: 
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31/31 [00:03<00:00,  7.95it/s]
INFO       | 2023-01-03 06:44:12.018385 | worker.job:get_job_from_server:140 - Server https://stablehorde.net has no valid generations for us to do.
INFO       | 2023-01-03 06:44:13.788720 | worker.job:get_job_from_server:140 - Server https://stablehorde.net has no valid generations for us to do. Skipped Info: {'untrusted': 1}.

nataili on  main via 🐍 v3.9.12 took 6m10s 
✦ ❯ 
db0 commented 1 year ago

Wrong repository. Please open worker bug reports here: https://github.com/db0/AI-Horde-Worker/