Closed kFoodie closed 5 years ago
不是的,src表示源语言的语种,tgt表示目标语的语种。您要训练英翻中的系统,src应该填英文,tgt填中文。
src填英文,tgt填中文,在做对齐的时候一直报这个错…… 如果反过来的话,就没错…… 不知道是啥原因……麻烦大神帮忙解答一下。感激不尽。
我用自带的sample-data跑了一下英中方向的词对齐,暂时没发现您说的这个问题,我建议您可以确定几个事情:1. 代码是否更新到git上最新的版本;2. 输入数据是否有问题,如行数、文件格式等。如果依旧没发现问题的话不知道您是否方便将您输入给词对齐的数据提供给我们,这样我们可以复现一下您的报错。
行数都是100W行。格式都是txt。
数据怎么提供给你们呀……
发我邮箱吧,li.yin.qiao.2012@hotmail.com,谢谢
已发。感谢~
您的邮件大小超出收件人(li.yin.qiao.2012@hotmail.com)所在服务商的限制,对方不予接收。 host hotmail-com.olc.protection.outlook.com[104.47.13.33] said: 552 Data size must not exceed 48128K bytes. (in reply to EHLO command)
发送失败了。
那你传网盘一下?然后把链接发给我?
请问您有遇到同样的问题吗?
你好,我这边用github上最新的代码跑你的数据,没有遇到你说的问题,建议你把代码从github上更新一下,看看还有没有遇到问题。
你有一直等到生成了alignment文件吗?我用的是gzip,链接是:https://github.com/moses-smt/giza-pp。 然后我在到最后一步的时候,总是出现上面那个错。 最后一步的指令是:../bin/NiuTrans.SymAlignment ../work/wordalignment/tgt2src.A3.final ../work/wordalignment/src2tgt.A3.final ../work/wordalignment/alignment.txt 我把两个final文件上传到网盘了。不知道您会不会出现这个错?
链接:https://pan.baidu.com/s/1fdKP_-Au6x0G58I-PD7zog 密码:0wzm
方便留一下您的qq号吗?交流方便一点。。 感谢您的回复~
我用的是ubuntu16
抱歉,前段时间有事情没倒开空,您说的是我们系统的一个bug,我们更新了代码,您再试一下,谢谢~
可以了。非常感谢!!
示例里面用的是中翻英系统,src填中文语料路径,tgt填英文语料路径。 如果我想训练英翻中系统,src也是填中文,tgt也是填英文吗?