tongpi / synthtext100kCH

佟派中文合成文本数据集是一个用来训练自然场景文本识别模型的数据集。
https://tongpi.github.io/synthtext100kCH/
44 stars 14 forks source link

font_px2pt.cp怎么产生? #2

Closed clscy closed 7 years ago

clscy commented 7 years ago

你好,请问我更新了中文的TTF之后,该怎样生成对应的font_px2pt.cp文件呢? 望多多指教, 谢谢。

doudoubean commented 7 years ago

你可以参考invert_font_size.py文件,https://github.com/ankush-me/SynthText/blob/master/invert_font_size.py

clscy commented 7 years ago

谢谢你的帮助。我按您提供的readData.py和char_frequency.py生成了相应文件,也用invert_font_size.py生成了font_px2pt.cp。运行gen.py时报出如下错误:

Traceback (most recent call last): File "/home/chengls/data/SynthText_06.05/synthgen.py", line 661, in render_text regions['homography_inv'][ireg]) File "/home/chengls/data/SynthText_06.05/synthgen.py", line 501, in place_text render_res = self.text_renderer.render_sample(font,collision_mask) File "/home/chengls/data/SynthText_06.05/text_utils.py", line 366, in render_sample text = self.text_source.sample(nline,nchar,text_type) File "/home/chengls/data/SynthText_06.05/text_utils.py", line 606, in sample return self.fdictkind File "/home/chengls/data/SynthText_06.05/text_utils.py", line 652, in sample_para lines = self.get_lines(nline, nword, nchar_max, f=0.35) File "/home/chengls/data/SynthText_06.05/text_utils.py", line 584, in get_lines lines = h_lines(niter=100) File "/home/chengls/data/SynthText_06.05/text_utils.py", line 576, in h_lines line_start = np.random.choice(len(self.txt)-nline) File "mtrand.pyx", line 1391, in mtrand.RandomState.choice (numpy/random/mtrand/mtrand.c:14900) ValueError: a must be greater than 0

感觉需要对里面的源码修改才能支持中文,本人刚刚接触python,对脚本不是很熟,所以请教您该如何调试,非常谢谢。

doudoubean commented 7 years ago

这个项目使用的是Python2.x版本,所以里面所有涉及到中文的地方,都需要对编码另行处理。Python2.x对于中文支持做的不够友好。

ghost commented 7 years ago

@doudoubean 请问readData.py中stopwords.dat 文件是什么啊? 怎么得到这个文件啊

doudoubean commented 7 years ago

@songwendong stopwords.dat是一个停止词文件,停止词是自然语言处理中的一个术语,该文件作用是去除分词结果中不需要保留的词语,该文件内容格式如下: { | } ~ ¡ ¦ « ­ ¯ ´ ¸ » ¿ ˇ ˉ ˊ ˋ ˜ ‐ —  ― ‖ ‘ ’ “ ” • … ‹ › ∕ 、 。 〈 〉 《 》 「 」 『 』 【 】 〔 〕 〖 〗 〝 〞 一 一些 一何 一切 一则 一方面 一旦 一来 一样 一般 一转眼 万一 上 上下 下 不 不仅 不但 不光 不单 不只 不外乎 ……