PKU-YuanGroup / Open-Sora-Plan

This project aim to reproduce Sora (Open AI T2V model), we wish the open source community contribute to this project.
MIT License
11.24k stars 1.01k forks source link

hw910B NPU显卡t2v效果复现问题 #230

Open ljrprocc opened 5 months ago

ljrprocc commented 5 months ago

你好!感谢你们为文生视频开源工作的付出!目前我在华为 910B显卡上运行scripts/text_condition/sample_video.sh的推理工作,按examples/prompt_list_0.txt的prompt list上运行推理并复现效果,主要存在以下问题: (1)17x256x256的生成较为正常,可复现结果。 (2)65x256x256随机存在部分Prompt(约2/16)的视频生成失败(即生成单调颜色),且失败的prompt随随机种子的变化而变化。 (3)65x512x512存在更多Prompt(约3/16-4/16)的视频生成失败,且成功的部分视频patch之间的间隙较为明显。 请问大概是什么原因?是权重加载未完全的原因,还是代码框架与NPU底层架构的适应性问题?期待与您的讨论!

walterchenchn commented 5 months ago

借楼问个问题: 当前在910上仅支持推理的原因是计算卡对训练任务支持不佳吗?还是别的原因

stepbystep88 commented 5 months ago

借楼问个问题: 当前在910上仅支持推理的原因是计算卡对训练任务支持不佳吗?还是别的原因

您好,本分支在昇腾上训练和推理上均是支持的。

stepbystep88 commented 5 months ago

你好!感谢你们为文生视频开源工作的付出!目前我在华为 910B显卡上运行scripts/text_condition/sample_video.sh的推理工作,按examples/prompt_list_0.txt的prompt list上运行推理并复现效果,主要存在以下问题: (1)17x256x256的生成较为正常,可复现结果。 (2)65x256x256随机存在部分Prompt(约2/16)的视频生成失败(即生成单调颜色),且失败的prompt随随机种子的变化而变化。 (3)65x512x512存在更多Prompt(约3/16-4/16)的视频生成失败,且成功的部分视频patch之间的间隙较为明显。 请问大概是什么原因?是权重加载未完全的原因,还是代码框架与NPU底层架构的适应性问题?期待与您的讨论!

可以说明一下失败的具体报错细节吗?我目前没有遇到过你这个情况,我初步怀疑可能是CANN和torch_npu的版本没有对齐导致。

wyfwyf556 commented 5 months ago

你好,我也有同样问题,而且更加严重。请问你用的什么版本的CANN呢

ljrprocc commented 4 months ago

你好!感谢你们为文生视频开源工作的付出!目前我在华为 910B显卡上运行scripts/text_condition/sample_video.sh的推理工作,按examples/prompt_list_0.txt的prompt list上运行推理并复现效果,主要存在以下问题: (1)17x256x256的生成较为正常,可复现结果。 (2)65x256x256随机存在部分Prompt(约2/16)的视频生成失败(即生成单调颜色),且失败的prompt随随机种子的变化而变化。 (3)65x512x512存在更多Prompt(约3/16-4/16)的视频生成失败,且成功的部分视频patch之间的间隙较为明显。 请问大概是什么原因?是权重加载未完全的原因,还是代码框架与NPU底层架构的适应性问题?期待与您的讨论!

可以说明一下失败的具体报错细节吗?我目前没有遇到过你这个情况,我初步怀疑可能是CANN和torch_npu的版本没有对齐导致。

你好,我重装了CANN版本(从7.0到8.0),并且与torch版本做匹配之后问题解决了,目前可以正常推理。感谢回复!

wyfwyf556 commented 4 months ago

同样把CANN装到8.0问题解决,感谢

leopeng1995 commented 4 months ago

请问你们是用什么系统使用昇腾芯片的?我在执行pip install -e .的时候,decord安装失败,提示没有对应aarch64的版本,是要手动编译吗?

fallbernana123456 commented 2 months ago

decord安装失败,提示没有对应aarch64的版本

同问,我在910b上也遇到这个问题,有人能解答下吗?

crj1998 commented 1 month ago

请问你们是用什么系统使用昇腾芯片的?我在执行pip install -e .的时候,decord安装失败,提示没有对应aarch64的版本,是要手动编译吗?

decord 包没有 arm平台上的预编译的whl包,需要从源码build