Closed ysn7 closed 5 years ago
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
恩,我明白了,还有关于代码中的batch_size为什么设为1呀?修改会出错,原因是什么?
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
恩,我明白了,还有关于代码中的batch_size为什么设为1呀?修改会出错,原因是什么?
在模型中,每个数据对应的结构可能是不统一的,因此没法用batch去训练,所以batch_size=1。如果您有兴趣优化这方面,可以自行研究
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
恩,我明白了,还有关于代码中的batch_size为什么设为1呀?修改会出错,原因是什么?
在模型中,每个数据对应的结构可能是不统一的,因此没法用batch去训练,所以batch_size=1。如果您有兴趣优化这方面,可以自行研究
恩恩,真的非常感谢,我是刚入自然语言处理的小白,可否方便留个扣扣或邮箱,不懂时向您请教。
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
恩,我明白了,还有关于代码中的batch_size为什么设为1呀?修改会出错,原因是什么?
在模型中,每个数据对应的结构可能是不统一的,因此没法用batch去训练,所以batch_size=1。如果您有兴趣优化这方面,可以自行研究
恩恩,真的非常感谢,我是刚入自然语言处理的小白,可否方便留个扣扣或邮箱,不懂时向您请教。
我们的邮箱在论文中,祝你研究顺利:)
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
恩,我明白了,还有关于代码中的batch_size为什么设为1呀?修改会出错,原因是什么?
在模型中,每个数据对应的结构可能是不统一的,因此没法用batch去训练,所以batch_size=1。如果您有兴趣优化这方面,可以自行研究
恩恩,真的非常感谢,我是刚入自然语言处理的小白,可否方便留个扣扣或邮箱,不懂时向您请教。
我们的邮箱在论文中,祝你研究顺利:)
好的
一般来说是不用重新预训练的,直接在configure中指定你要用的新数据集就行;如果一定要针对新的数据集预训练embedding,只要把预训练好的字向量和词义向量放在指定位置即可,其中字向量可以用常用的gensim预训练,而词义向量可以用SAT预训练得到
恩恩,感谢回答,您的意思是我只用改变test/train/relation2id.txt 这三个文件么,sense.txt,sense_map.txt,vec.txt这三个文件不需要重新训练是吗。还有请问在进行标注关系类别的时候有用到一些工具么,还是全部需要人工标注?
嗯,替换掉test/train/relation2id.txt就直接可以跑;至于标注关系类别,意思是如何对plain text标注得到训练集吗?一般都是人工标注的,也可以使用远程监督(distant supervision)的方法,但就要考虑如何降噪
恩恩好的,还有一个问题,在一个句子中往往会出现多个关系,这个是不是只能预测出一种关系,比如“我和同学在教室读书”,那么就会出现,我和同学的关系,在教室代表位置关系,两个人与读书这件事是动作关系,如果我想同时预测这三种关系,应该怎么做,在训练的时候要输入三遍相同的句子分别标注三种不同的关系么,但是在预测的时候,它应该只能预测出一种关系吧,还是预测的时候,第一列和第二列的实体是事先确定好的,根据不同的实体就能预测出相应的关系。
嗯,预测的时候第一和第二列选定要抽取的两个实体,就会针对性预测这两个实体在句子中的关系。(head,tail,sentence)对应一种关系,比如你的例子中(我,同学,我和同学在教室读书)对应同学的关系,而(我,教室,我和同学在教室读书)对应位置关系,这是两个不同的instances
恩,我明白了,还有关于代码中的batch_size为什么设为1呀?修改会出错,原因是什么?
在模型中,每个数据对应的结构可能是不统一的,因此没法用batch去训练,所以batch_size=1。如果您有兴趣优化这方面,可以自行研究
恩恩,真的非常感谢,我是刚入自然语言处理的小白,可否方便留个扣扣或邮箱,不懂时向您请教。
我们的邮箱在论文中,祝你研究顺利:)
好的,再次感谢。
您好,请问如果是一个新的数据集怎么进行预训练