nju-websoft / OpenEA

A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs, VLDB 2020
GNU General Public License v3.0
522 stars 81 forks source link

ValueError: Input contains NaN, infinity or a value too large for dtype('float32') #42

Closed Arios-29 closed 2 years ago

Arios-29 commented 2 years ago

image 使用MTranse跑EN-FR-15K-V1,为什么会出现这么大的loss?

sunzequn commented 2 years ago

同学你好,感谢你对我们工作的关注。

请问你用的tf版本和显卡型号是什么?或者是不是某些参数比如学习率的影响?我好来debug一下。

MilesPoupart commented 2 years ago

同学你好,感谢你对我们工作的关注。

请问你用的tf版本和显卡型号是什么?或者是不是某些参数比如学习率的影响?我好来debug一下。

我在实验室的Sophia服务器上也复现了这个问题 tensorflow版本是1.12.0 显卡型号是3*3090+2*RTX Titan,就是直接用 python main_from_args.py ./args/mtranse_args_15K.json EN_FR_15K_V1 721_5fold/1/ 运行的。 也是到epoch 100就报错退出了 eb4a23febdeffe96ecd1c50b65ca155

Arios-29 commented 2 years ago

同学你好,感谢你对我们工作的关注。

请问你用的tf版本和显卡型号是什么?或者是不是某些参数比如学习率的影响?我好来debug一下。 tf版本为1.12.0 显卡为3090 学习率都是按照默认的,也是直接运行python main_from_args.py ./args/mtranse_args_15K.json EN_FR_15K_V1 721_5fold/1/,在epoch=100的时候出现ValueError

Arios-29 commented 2 years ago

显卡问题,更换显卡型号就可以解决。