OpenTalker / SadTalker

[CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
https://sadtalker.github.io/
Other
11.65k stars 2.17k forks source link

Errors with SD Extension on Mac #107

Closed jet3004 closed 1 year ago

jet3004 commented 1 year ago

I am on a Mac, SD Web UI running perfectly, SadTalker extension seen and successfully loaded with all models. No matter if I select crop or full, my animation with generate and I’ll watch “Face Renderer” tick up to 100% only to get this error…Now, I know CUDA is not supported, yada, yada, but how do I solve this for Mac users? I am a longtime Wav2Lip user and this is what I’ve been looking for for ages – want to make it work! Thanks in advance.

Example Error:

AssertionError: Torch not compiled with CUDA enabled /Users/jet/stable-diffusion-webui/extensions/SadTalker/checkpoints/shape_predictor_68_face_landmarks.dat /Users/jet/stable-diffusion-webui/extensions/SadTalker/checkpoints/auido2pose_00140-model.pth /Users/jet/stable-diffusion-webui/extensions/SadTalker/checkpoints/facevid2vid_00189-model.pth.tar /var/folders/f3/nrjf0tzs2jj89dx48mvjw8200000gn/T/tmpv185ia6w.png landmark Det:: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2.21it/s] 3DMM Extraction In Video:: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.14it/s] mel:: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:00<00:00, 140581.25it/s] audio2exp:: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:00<00:00, 28.83it/s] Face Renderer:: 5%|███████ Face Renderer:: 8%|██████████▋ Face Renderer:: 10%|██████████████▏ Face Renderer:: 12%|█████████████████▊ Face Renderer:: 15%|█████████████████████▎ Face Renderer:: 18%|████████████████████████▊ Face Renderer:: 20%|████████████████████████████▍ Face Renderer:: 22%|███████████████████████████████▉ Face Renderer:: 25%|███████████████████████████████████▎ Face Renderer:: 28%|██████████████████████████████████████▊ Face Renderer:: 30%|██████████████████████████████████████████▎ Face Renderer:: 32%|█████████████████████████████████████████████▊ Face Renderer:: 35%|█████████████████████████████████████████████████▎ Face Renderer:: 38%|████████████████████████████████████████████████████▉ Face Renderer:: 40%|████████████████████████████████████████████████████████▍ Face Renderer:: 42%|███████████████████████████████████████████████████████████▉ Face Renderer:: 45%|███████████████████████████████████████████████████████████████▍ Face Renderer:: 48%|██████████████████████████████████████████████████████████████████▉ Face Renderer:: 50%|██████████████████████████████████████████████████████████████████████▌ Face Renderer:: 52%|██████████████████████████████████████████████████████████████████████████ Face Renderer:: 55%|█████████████████████████████████████████████████████████████████████████████▌ Face Renderer:: 57%|█████████████████████████████████████████████████████████████████████████████████ Face Renderer:: 60%|████████████████████████████████████████████████████████████████████████████████████▌ Face Renderer:: 62%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 65%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 68%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 70%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 72%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 75%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 78%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 80%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 82%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 85%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 88%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 90%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 92%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 95%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 98%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 100%|████████████████████████████████████████████████████████████████████████████████████████Face Renderer:: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [07:47<00:00, 11.69s/it] ffmpeg version 5.1.2 Copyright (c) 2000-2022 the FFmpeg developers built with Apple clang version 14.0.0 (clang-1400.0.29.202) configuration: --prefix=/opt/homebrew/Cellar/ffmpeg/5.1.2_6 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libaribb24 --enable-libbluray --enable-libdav1d --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librist --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libsvtav1 --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvmaf --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-libspeex --enable-libsoxr --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack --enable-videotoolbox --enable-neon libavutil 57. 28.100 / 57. 28.100 libavcodec 59. 37.100 / 59. 37.100 libavformat 59. 27.100 / 59. 27.100 libavdevice 59. 7.100 / 59. 7.100 libavfilter 8. 44.100 / 8. 44.100 libswscale 6. 7.100 / 6. 7.100 libswresample 4. 7.100 / 4. 7.100 libpostproc 56. 6.100 / 56. 6.100 Input #0, mov,mp4,m4a,3gp,3g2,mj2, from './results/8b80b002-db66-47cb-9bee-34f9f78d65aa/temp_tmpv185ia6w##allavaialblesynthesized_audio-0-100.mp4': Metadata: major_brand : isom minor_version : 512 compatible_brands: isomiso2avc1mp41 encoder : Lavf59.27.100 Duration: 00:00:03.16, start: 0.000000, bitrate: 66 kb/s Stream #0:0[0x1](und): Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive), 256x256, 61 kb/s, 25 fps, 25 tbr, 12800 tbn (default) Metadata: handler_name : VideoHandler vendor_id : [0][0][0][0] encoder : Lavc59.37.100 libx264 Guessed Channel Layout for Input Stream #1.0 : mono Input #1, wav, from './results/8b80b002-db66-47cb-9bee-34f9f78d65aa/allavaialblesynthesized_audio-0-100.wav': Duration: 00:00:03.16, bitrate: 256 kb/s Stream #1:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, mono, s16, 256 kb/s Stream mapping: Stream #0:0 -> #0:0 (copy) Stream #1:0 -> #0:1 (pcm_s16le (native) -> aac (native)) Press [q] to stop, [?] for help Output #0, mp4, to 'acd19a06-aae5-4439-ab94-3ba7cb494665.mp4': Metadata: major_brand : isom minor_version : 512 compatible_brands: isomiso2avc1mp41 encoder : Lavf59.27.100 Stream #0:0(und): Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive), 256x256, q=2-31, 61 kb/s, 25 fps, 25 tbr, 12800 tbn (default) Metadata: handler_name : VideoHandler vendor_id : [0][0][0][0] encoder : Lavc59.37.100 libx264 Stream #0:1: Audio: aac (LC) (mp4a / 0x6134706D), 16000 Hz, mono, fltp, 69 kb/s Metadata: encoder : Lavc59.37.100 aac frame= 79 fps=0.0 q=-1.0 Lsize= 57kB time=00:00:03.20 bitrate= 144.8kbits/s speed= 157x video:24kB audio:29kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 6.344339% [aac @ 0x152f08830] Qavg: 19873.248 The generated video is named tmpv185ia6w##allavaialblesynthesized_audio-0-100.mp4 in ./results/8b80b002-db66-47cb-9bee-34f9f78d65aa The generated video is named tmpv185ia6w##allavaialblesynthesized_audio-0-100 in ./results/8b80b002-db66-47cb-9bee-34f9f78d65aa Traceback (most recent call last): File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/gradio/routes.py", line 394, in run_predict output = await app.get_blocks().process_api( File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/gradio/blocks.py", line 1075, in process_api result = await self.call_function( File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/gradio/blocks.py", line 884, in call_function prediction = await anyio.to_thread.run_sync( File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/anyio/to_thread.py", line 31, in run_sync return await get_asynclib().run_sync_in_worker_thread( File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 937, in run_sync_in_worker_thread return await future File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 867, in run result = context.run(func, *args) File "/Users/jet/stable-diffusion-webui/modules/call_queue.py", line 15, in f res = func(*args, **kwargs) File "/Users/jet/stable-diffusion-webui/extensions/SadTalker/src/gradio_demo.py", line 131, in test torch.cuda.synchronize() File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/torch/cuda/__init__.py", line 494, in synchronize _lazy_init() File "/Users/jet/stable-diffusion-webui/venv/lib/python3.10/site-packages/torch/cuda/__init__.py", line 211, in _lazy_init raise AssertionError("Torch not compiled with CUDA enabled") AssertionError: Torch not compiled with CUDA enabled

vinthony commented 1 year ago

it already generated the video in The generated video is named tmpv185ia6w##allavaialblesynthesized_audio-0-100 in ./results/8b80b002-db66-47cb-9bee-34f9f78d65aa. It fails because of the final check in gradio_demo.py. we have update the code so it can works on CPU. Just install the lastest version

jet3004 commented 1 year ago

it already generated the video in The generated video is named tmpv185ia6w##allavaialblesynthesized_audio-0-100 in ./results/8b80b002-db66-47cb-9bee-34f9f78d65aa. It fails because of the final check in gradio_demo.py. we have update the code so it can works on CPU. Just install the lastest version

You're right, they were there and had worked! Bravo. I had even looked but didn't see Results, sorry. Ok good to know why, I thought it was something like that re: CPU. It's updated? Cool, I'll install latest -- Thanks so much!