Closed thredreams closed 1 year ago
非常感谢您发布的教程,我们打算把您的教程合并到中文的readme中,并在首页把您加入贡献者名单(请您提供一下需要列github用户名还是真实姓名),您可以对教程直接提交个pr。
用户名就好,谢谢!
求问,re模型训练的时候报错can't allocate memory: you tried to allocate 402653184 bytes,但是查看机器内存还有接近1G可用,事为啥呢
你这是在用cpu跑模型吧,如果是的话,可以降低batch size来减少内存使用,还有这个只是模型需要的内存量,其他线程也需要内存分配,所以你这接近1G不够,最好还是单独提一个issue,该为实践分享,在这提问可能会打扰到原分享者
求问,re模型训练的时候报错can't allocate memory: you tried to allocate 402653184 bytes,但是查看机器内存还有接近1G可用,事为啥呢
Describe the feature
在Docker上部署的时候遇到了很多文档与issues中没有的问题,所以我决定试着使用Docker部署以一下,然后把遇到的问题与 解决方案分享出来,给大家参考一下
Environment :
从“Quick Start”开始
下载并构建镜像
git clone
之后进入docker文件夹,(或许这里可以直接单独下载DeepKE/docker/DockerFile文件) 过程中可能error: RPC failed; curl 56 GnuTLS recv error (-9)
,我觉得是网络问题,如果多次尝试还是不行,参考链接构建过程中可能会报错
failed to create LLB definition: 403 Forbidden
这个大概率是dockers引擎中的buildkit的bug,需要去docker的设置里关闭这个功能。参考链接运行并链接容器
成功构建镜像之后,返回一个镜像ID,
运行容器并连接到一个新的终端。
安装DeepKE
按照“Quick Start”的内容继续执行,因为在构建镜像的时候,已经创建了deepke的虚拟环境。所以直接激活环境
执行完命令行开头的base变成deepke,表示成功切换环境,然后 可以选择pip或者源码构建,我是源码构建,因为在docker里使用pip还要重新配置pip的镜像源。 依次执行
在这个过程中会遇到几个依赖问题
144 这个issue里提到的,在Docker环境下,
python setup.py install
过程中失败,提示是cachetools 5.2.0 is installed but cachetools<5.0,>=2.0.0 is required by {'google-auth'}
。解决方法是回退cachetools
到5.0.0以前的最新版本4.2.4不建议手动升级
google-auth
,会破坏tensorboard2.4.1的依赖。参考链接google.protobuf库
的问题 ,解决方法是重装google
和protobuf
库,其中protobuf
可能需要安装指定版本的库。参考链接1 参考链接2ipdb 和tensorboardX,有可能会报错缺少这两个库。
开始训练
下载解压数据集,开始训练
在开始训练之前建议好好的看一下你所选择的示例库中的
conf
文件夹(Quick Start
举的例子对应的配置文件夹是~/DeepKE/example/re/standard/conf
)下的各个配置文件中的内容,例如,config.yaml
中有默认的模型、train.yaml
中有是否使用gpu,epoch数量和batch_size等等影响训练速度的因素,以及是否输出绘图,使用什么绘图库等等,predict.yaml
中必须指定训练好的模型所处位置在这一个阶段主要有三个问题,一个是
wandb
会跳出一个登录提示(1注册登录、2 登录、3 跳过),建议注册一个账号并登录,因为是在docker中部署这个项目,项目中的绘图库matplot默认是直接输出到可视化的窗口的,所以你在终端是看不到可视化的过程的,如果这里选择了跳过,就看不到很多内容了。使用wandb的好处是自动上传训练过程数据,可以登录网站在线查看图片第二个是
Getting error RuntimeError: unexpected EOF, expected 5253807 more bytes. The file might be corrupted
报错,这个大概率是网速和磁盘内存问题,第一次运行的时候是要下载一些模型基础数据的,如果挂着代理,建议把代理关闭掉。 如果仍然不行,可能就是之前下载的文件损坏了,建议修改对应模型的代码要求其重新下载,例如Quick Start
举例的re算法使用的就是LM模型,修改~/DeepKE/src/deepke/relation_extraction/standard/models/LM.py
处的代码,添加一个可选参数force_down
,注意这个版本的系统镜像没有文本编辑工具,需要自己使用apt安装nano或者vim之类的文本编辑器,而且,这样每次训练或者预测的时候都会重新下载一次。所以记得及时改回来。 参考链接 第三个问题比较麻烦,就是模型训练的时间,我是核显轻薄本,所以是使用cpu跑的模型,再加上docker容器内的性能消耗,一共训练了8个半小时才跑出来。epoch数量是默认的50,其他相关的参数也没调,都是默认值。 实际上,这一步是可以跳过的,因为项目实体抽取和关系抽取任务提供了训练好的模型,但这个我还没用,所以也不是很清楚。预测
在模型训练完之后,终端会输出一个最优的模型,告诉你他的保存位置(每个epoch对应的模型都保存在了checkpoints下),把这个位置复制粘贴到之前提到的predict.yaml文件中才能顺利运行预测代码,所以这里要么安装文本编辑器,要么覆盖重写这个配置文件,文件内容很简单,就一行,(注意是LM的小写,而不是im或者1m)。
修改完就可以开始体验了
注意,中间会提示你是否使用范例,如果你对相关概念不熟悉,建议使用范例,因为不使用范例的话,会要求你指定文本中的头实体,尾实体以及各自对应的类别
Additional context