LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer
1k stars 178 forks source link

论文复现的硬件需求(显存需求) #96

Open lankunyao opened 2 years ago

lankunyao commented 2 years ago

大家好,我在尝试复现代码的时候使用的是RTX 2080Ti的显卡,10G左右的显存,但是模型在训练的过程中对于显存的需求不断提高,最终超过了显卡的显存。请问针对这一问题,有过复现经历的大家有什么经验吗?

报错信息如下: RuntimeError: CUDA out of memory. Tried to allocate 740.00 MiB (GPU 0; 10.76 GiB total capacity; 8.53 GiB already allocated; 236.62 MiB free; 1.19 GiB cached)

再次感谢大家!

lankunyao commented 2 years ago

补充一下,我这边利用V0版本的FLAT,即不用BERT的版本是可以正常训练的,但是利用V1版本的FLAT,即使用BERT后,显存会爆

xuli19 commented 2 years ago

我在v1上进行训练,也提示相同错误。目前没有找到解决办法。

LeeSureman commented 2 years ago

可以试试梯度累计

hasakikiki commented 2 years ago

补充一下,我这边利用V0版本的FLAT,即不用BERT的版本是可以正常训练的,但是利用V1版本的FLAT,即使用BERT后,显存会爆

遇到了一样的问题,不过我用的是自己的数据集,有解决方法了吗?

LeeSureman commented 2 years ago

补充一下,我这边利用V0版本的FLAT,即不用BERT的版本是可以正常训练的,但是利用V1版本的FLAT,即使用BERT后,显存会爆

遇到了一样的问题,不过我用的是自己的数据集,有解决方法了吗?

可以试试把训练集的长句分为多个短句

hasakikiki commented 2 years ago

补充一下,我这边利用V0版本的FLAT,即不用BERT的版本是可以正常训练的,但是利用V1版本的FLAT,即使用BERT后,显存会爆

遇到了一样的问题,不过我用的是自己的数据集,有解决方法了吗?

可以试试把训练集的长句分为多个短句

已经解决了,谢谢!