cross_attention_dim must be specified for CrossAttnDownBlock2D

I'm trying to run the model on MacBook Pro M1 Max

Getting this error:

The config attributes {'decay': 0.9999, 'inv_gamma': 1.0, 'min_decay': 0.0, 'optimization_step': 37000, 'power': 0.6666666666666666, 'update_after_step': 0, 'use_ema_warmup': False} were passed to AutoencoderKL, but are not expected and will be ignored. Please verify your config.json configuration file.
!!! Exception during processing!!! cross_attention_dim must be specified for CrossAttnDownBlock2D
Traceback (most recent call last):
  File "/Users/enuriru/ComfyUI/execution.py", line 151, in recursive_execute
    output_data, output_ui = get_output_data(obj, input_data_all)
                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/execution.py", line 81, in get_output_data
    return_values = map_node_over_list(obj, input_data_all, obj.FUNCTION, allow_interrupt=True)
                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/execution.py", line 74, in map_node_over_list
    results.append(getattr(obj, func)(**slice_dict(input_data_all, i)))
                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/custom_nodes/ComfyUI-IDM-VTON/src/nodes/pipeline_loader.py", line 46, in load_pipeline
    vae = AutoencoderKL.from_pretrained(
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
    return fn(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/diffusers/models/modeling_utils.py", line 650, in from_pretrained
    model = cls.from_config(config, **unused_kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/diffusers/configuration_utils.py", line 259, in from_config
    model = cls(**init_dict)
            ^^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/diffusers/configuration_utils.py", line 653, in inner_init
    init(self, *args, **init_kwargs)
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/diffusers/models/autoencoders/autoencoder_kl.py", line 90, in __init__
    self.encoder = Encoder(
                   ^^^^^^^^
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/diffusers/models/autoencoders/vae.py", line 103, in __init__
    down_block = get_down_block(
                 ^^^^^^^^^^^^^^^
  File "/Users/enuriru/ComfyUI/myenv/lib/python3.11/site-packages/diffusers/models/unets/unet_2d_blocks.py", line 128, in get_down_block
    raise ValueError("cross_attention_dim must be specified for CrossAttnDownBlock2D")
ValueError: cross_attention_dim must be specified for CrossAttnDownBlock2D

there is "cross_attention_dim": 2048, in models/config.json, but it seems it's not passed down.

Any ideas?

Thanks in advance!

TemryL / ComfyUI-IDM-VTON

cross_attention_dim must be specified for CrossAttnDownBlock2D #56