Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.14k stars 421 forks source link

readme 的环境配置指导文件是否存在错误 ? #42

Closed robin-human closed 1 year ago

robin-human commented 1 year ago

image

1、你使用了哪个脚本、使用的什么命令:上图所示 2、你的参数是什么(脚本参数、命令参数):无 3、你是否修改过我们的代码:没有修改 4、你用的哪个数据集:readme中的默认值

finetune 脚本一直无法正常运行,反复提示环境错误,找不到cuda

然后你可以从环境的角度描述你的问题,这些问题我们在readme已经相关的问题及解决可能会有描述: 1、哪个操作系统:windows 10 ,WSL2 2、使用的什么显卡、多少张:nvidian 2080ti,2张 3、python的版本:3.8 4、python各种库的版本:按照readme操作的

然后你也可以从运行的角度来描述你的问题: 1、报错信息是什么,是哪个代码的报错(可以将完整的报错信息都发给我们) 一直提示的事cuda错误、找不到GPU之类的,我严格按照readme安装环境,依然不能正常工作,我个人不清楚readme中的torch用1.13.1是否指的是pytorch ?缩写了 ? cuda要求12版本的,这个是正确的吗?因为pytorch安装1.13.1的话CUDA应该是11.7版本才对,我按照readme安装的12无法正常工作。

2、GPU、CPU是否工作正常:不正常,未识别出GPU,CPU模式也无法运行

robin-human commented 1 year ago

大家成功运行的能说下自己的cuda,cudnn,pytorch( 还是 torch )版本吗 ?

Facico commented 1 year ago

@robin-human 1、cuda版本只要和pytorch版本对上一般问题不大(一般一个torch版本在多个cuda版本都能使用,可以按照pytorch官网的命令安装,安装的时候cuda11+的一般torch+cu111,torch+cu113等11开头的问题都不大) 2、torch一般和pytorch互指

robin-human commented 1 year ago

@robin-human 1、cuda版本只要和pytorch版本对上一般问题不大(一般一个torch版本在多个cuda版本都能使用,可以按照pytorch官网的命令安装,安装的时候cuda11+的一般torch+cu111,torch+cu113等11开头的问题都不大) 2、torch一般和pytorch互指

非常感谢您的回复!我想针对环境部分通过实验,给大家再补充完善一下readme。

Facico commented 1 year ago

非常欢迎你的补充

robin-human commented 1 year ago

windows 10 操作系统,wsl 环境配置过程中,总是出现各种的错误,经过将近3天的持续排查,总算把运行环境部署好了! 几个问题先列出一个大纲: 1.基础环境配置(显卡驱动、cuda安装、require.txt文件中的工具包安装) 2.GPU显卡不识别问题处理 大家如果遇到GPU显卡不识别、文件找不到的问题,请查看这个issue: https://github.com/TimDettmers/bitsandbytes/issues/52#issuecomment-1271481182 3.两个GPU不同,报错的问题 https://github.com/pytorch/pytorch/issues/67978#issuecomment-997172378 这两天总结一下 windows10 下面如何用wsl2环境安装Ubuntu20.04进行vicuna项目的开发,希望项目管理组能够采纳并汇总到readme中,环境构建过程太艰辛,错误层出不穷(和该开源项目无关,主要是wls的用户群相对较少,大家积累的处理问题的知识还比较少,但是wsl用起来真的很方便),不知道阻拦了多少优秀的工程师们 。

sightsIndeep commented 1 year ago

python 3.10 cuda 11.7 torch 1.13.1

python3 finetune.py --data_path merge_sample.json --test_size 2

报错,cublasLt ran into an error

Facico commented 1 year ago

@sightsIndeep 需要类似使用CUDA_VISIBLE_DEVICES=0来指定一张卡(仓库里有非常多类似的issue,这种issue就不要在不相关issue下面问了)

sightsIndeep commented 1 year ago

@sightsIndeep 需要类似使用CUDA_VISIBLE_DEVICES=0来指定一张卡(仓库里有非常多类似的issue,这种issue就不要在不相关issue下面问了)

单卡训练,同时也设定了CUDA_VISIBLE_DEVICES=0,一样的错误...

Facico commented 1 year ago

你可以参考一下类似issue的解决方法:https://github.com/Facico/Chinese-Vicuna/issues/41#issuecomment-1498716544