readme 的环境配置指导文件是否存在错误？

robin-human commented 1 year ago

1、你使用了哪个脚本、使用的什么命令:上图所示 2、你的参数是什么（脚本参数、命令参数）：无 3、你是否修改过我们的代码：没有修改 4、你用的哪个数据集：readme中的默认值

finetune 脚本一直无法正常运行，反复提示环境错误，找不到cuda

然后你可以从环境的角度描述你的问题，这些问题我们在readme已经相关的问题及解决可能会有描述： 1、哪个操作系统:windows 10 ,WSL2 2、使用的什么显卡、多少张:nvidian 2080ti,2张 3、python的版本：3.8 4、python各种库的版本：按照readme操作的

然后你也可以从运行的角度来描述你的问题： 1、报错信息是什么，是哪个代码的报错（可以将完整的报错信息都发给我们）一直提示的事cuda错误、找不到GPU之类的，我严格按照readme安装环境，依然不能正常工作，我个人不清楚readme中的torch用1.13.1是否指的是pytorch ?缩写了？ cuda要求12版本的，这个是正确的吗？因为pytorch安装1.13.1的话CUDA应该是11.7版本才对，我按照readme安装的12无法正常工作。

2、GPU、CPU是否工作正常：不正常，未识别出GPU，CPU模式也无法运行

robin-human commented 1 year ago

大家成功运行的能说下自己的cuda,cudnn，pytorch( 还是 torch )版本吗？

Facico commented 1 year ago

@robin-human 1、cuda版本只要和pytorch版本对上一般问题不大（一般一个torch版本在多个cuda版本都能使用，可以按照pytorch官网的命令安装，安装的时候cuda11+的一般torch+cu111,torch+cu113等11开头的问题都不大） 2、torch一般和pytorch互指

robin-human commented 1 year ago

@robin-human 1、cuda版本只要和pytorch版本对上一般问题不大（一般一个torch版本在多个cuda版本都能使用，可以按照pytorch官网的命令安装，安装的时候cuda11+的一般torch+cu111,torch+cu113等11开头的问题都不大） 2、torch一般和pytorch互指

非常感谢您的回复！我想针对环境部分通过实验，给大家再补充完善一下readme。

Facico commented 1 year ago

非常欢迎你的补充

robin-human commented 1 year ago

windows 10 操作系统，wsl 环境配置过程中，总是出现各种的错误，经过将近3天的持续排查，总算把运行环境部署好了！几个问题先列出一个大纲： 1.基础环境配置（显卡驱动、cuda安装、require.txt文件中的工具包安装） 2.GPU显卡不识别问题处理大家如果遇到GPU显卡不识别、文件找不到的问题，请查看这个issue： https://github.com/TimDettmers/bitsandbytes/issues/52#issuecomment-1271481182 3.两个GPU不同，报错的问题 https://github.com/pytorch/pytorch/issues/67978#issuecomment-997172378 这两天总结一下 windows10 下面如何用wsl2环境安装Ubuntu20.04进行vicuna项目的开发，希望项目管理组能够采纳并汇总到readme中，环境构建过程太艰辛，错误层出不穷（和该开源项目无关，主要是wls的用户群相对较少，大家积累的处理问题的知识还比较少，但是wsl用起来真的很方便），不知道阻拦了多少优秀的工程师们。

sightsIndeep commented 1 year ago

python 3.10 cuda 11.7 torch 1.13.1

python3 finetune.py --data_path merge_sample.json --test_size 2

报错，cublasLt ran into an error

Facico commented 1 year ago

@sightsIndeep 需要类似使用CUDA_VISIBLE_DEVICES=0来指定一张卡（仓库里有非常多类似的issue，这种issue就不要在不相关issue下面问了）

sightsIndeep commented 1 year ago

@sightsIndeep 需要类似使用CUDA_VISIBLE_DEVICES=0来指定一张卡（仓库里有非常多类似的issue，这种issue就不要在不相关issue下面问了）

单卡训练，同时也设定了CUDA_VISIBLE_DEVICES=0，一样的错误...

Facico commented 1 year ago

你可以参考一下类似issue的解决方法：https://github.com/Facico/Chinese-Vicuna/issues/41#issuecomment-1498716544

Facico / Chinese-Vicuna

readme 的环境配置指导文件是否存在错误？ #42

Facico / Chinese-Vicuna

readme 的环境配置指导文件是否存在错误 ？ #42

readme 的环境配置指导文件是否存在错误？ #42