中文模型 - Githubissues

FangShancheng / ABINet

Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

Other

420 stars 72 forks source link

中文模型 #64

Open lyc728 opened 2 years ago

lyc728 commented 2 years ago

你好，能进行训练中文的模型吗？字典是需要修改吗？数据会去索引对应的字典中的索引吗？

FangShancheng commented 2 years ago

可以进行中文训练，得换字典以及修改对应的dataset.py（参照此处#20 ）,数据会通过索引去对应字典中的索引

lyc728 commented 2 years ago

换字典以及

你好，我就是按照你得issue去索引，然后修改dataset，就是测试阶段出错了

FangShancheng commented 2 years ago

截图中的测试阶段的错误，是由于测试数据集中的一些样本，不符合数据校验的规则（比如像素太小等被丢了，如https://github.com/FangShancheng/ABINet/blob/680989478bcd648fcba98f44fe73ecc6b36aafd8/dataset.py#L101 https://github.com/FangShancheng/ABINet/blob/680989478bcd648fcba98f44fe73ecc6b36aafd8/dataset.py#L113），可以修改数据校验规则，或者修正数据

lyc728 commented 2 years ago

截图中的测试阶段的错误，是由于测试数据集中的一些样本，不符合数据校验的规则（比如像素太小等被丢了，如https://github.com/FangShancheng/ABINet/blob/680989478bcd648fcba98f44fe73ecc6b36aafd8/dataset.py#L101 https://github.com/FangShancheng/ABINet/blob/680989478bcd648fcba98f44fe73ecc6b36aafd8/dataset.py#L113），可以修改数据校验规则，或者修正数据

你好，我已经按照你前面进行修改，或者注释某些规则，但是还是报这类型错误https://github.com/FangShancheng/ABINet/issues/20

FangShancheng commented 2 years ago

报以上错只可能是测试阶段调用了self._next_image(idx)

截图中的测试阶段的错误，是由于测试数据集中的一些样本，不符合数据校验的规则（比如像素太小等被丢了，如https://github.com/FangShancheng/ABINet/blob/680989478bcd648fcba98f44fe73ecc6b36aafd8/dataset.py#L101 https://github.com/FangShancheng/ABINet/blob/680989478bcd648fcba98f44fe73ecc6b36aafd8/dataset.py#L113），可以修改数据校验规则，或者修正数据

你好，我已经按照你前面进行修改，或者注释某些规则，但是还是报这类型错误#20

lyc728 commented 2 years ago

你好，中文的语言模型没有相应的csv，应该怎么生成呢？

wu-yz commented 2 months ago

请问训练中文识别模型的步骤是什么呢？科研小白求解答