ValueError: cross_attention_dim must be specified for CrossAttnDownBlock2D

When going through the quickstart instructions I'm getting the following error:
python test_stage_2.py --config ./configs/test_stage_2.yaml
/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/models/dual_transformer_2d.py:20: FutureWarning: `DualTransformer2DModel` is deprecated and will be removed in version 0.29. Importing `DualTransformer2DModel` from `diffusers.models.dual_transformer_2d` is deprecated and this will be removed in a future version. Please use `from diffusers.models.transformers.dual_transformer_2d import DualTransformer2DModel`, instead.
  deprecate("DualTransformer2DModel", "0.29", deprecation_message)
Width: 768
Height: 768
Length: 300
Slice: 48
Overlap: 4
Classifier free guidance: 3.5
DDIM sampling steps : 20
skip 1
Traceback (most recent call last):
  File "/home/zzz/software/MusePose/test_stage_2.py", line 237, in <module>
    main()
  File "/home/zzz/software/MusePose/test_stage_2.py", line 76, in main
    vae = AutoencoderKL.from_pretrained(
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
    return fn(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/models/modeling_utils.py", line 650, in from_pretrained
    model = cls.from_config(config, **unused_kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/configuration_utils.py", line 259, in from_config
    model = cls(**init_dict)
            ^^^^^^^^^^^^^^^^
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/configuration_utils.py", line 653, in inner_init
    init(self, *args, **init_kwargs)
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/models/autoencoders/autoencoder_kl.py", line 90, in __init__
    self.encoder = Encoder(
                   ^^^^^^^^
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/models/autoencoders/vae.py", line 103, in __init__
    down_block = get_down_block(
                 ^^^^^^^^^^^^^^^
  File "/home/zzz/software/MusePose/venv/lib/python3.11/site-packages/diffusers/models/unets/unet_2d_blocks.py", line 128, in get_down_block
    raise ValueError("cross_attention_dim must be specified for CrossAttnDownBlock2D")
ValueError: cross_attention_dim must be specified for CrossAttnDownBlock2D
TMElyralab / MusePose

ValueError: cross_attention_dim must be specified for CrossAttnDownBlock2D #48