ValueError: Input contains NaN, infinity or a value too large for dtype('float32')

nju-websoft / OpenEA

A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs, VLDB 2020

GNU General Public License v3.0

522 stars 81 forks source link

ValueError: Input contains NaN, infinity or a value too large for dtype('float32') #42

Closed Arios-29 closed 2 years ago

Arios-29 commented 2 years ago

使用MTranse跑EN-FR-15K-V1，为什么会出现这么大的loss?

sunzequn commented 2 years ago

同学你好，感谢你对我们工作的关注。

请问你用的tf版本和显卡型号是什么？或者是不是某些参数比如学习率的影响？我好来debug一下。

MilesPoupart commented 2 years ago

同学你好，感谢你对我们工作的关注。

请问你用的tf版本和显卡型号是什么？或者是不是某些参数比如学习率的影响？我好来debug一下。

我在实验室的Sophia服务器上也复现了这个问题 tensorflow版本是1.12.0 显卡型号是3*3090+2*RTX Titan，就是直接用 python main_from_args.py ./args/mtranse_args_15K.json EN_FR_15K_V1 721_5fold/1/ 运行的。也是到epoch 100就报错退出了 eb4a23febdeffe96ecd1c50b65ca155

Arios-29 commented 2 years ago

同学你好，感谢你对我们工作的关注。

请问你用的tf版本和显卡型号是什么？或者是不是某些参数比如学习率的影响？我好来debug一下。 tf版本为1.12.0 显卡为3090 学习率都是按照默认的，也是直接运行python main_from_args.py ./args/mtranse_args_15K.json EN_FR_15K_V1 721_5fold/1/，在epoch=100的时候出现ValueError

Arios-29 commented 2 years ago

显卡问题，更换显卡型号就可以解决。