131250208 / TPlinker-joint-extraction

438 stars 94 forks source link

中英文混合文本token处理 #63

Closed xdnjust closed 2 years ago

xdnjust commented 2 years ago

大佬你好,我是新手,在研究你的工作,超级棒!

有个问题,在用LSTM时,你提供的tokenize代码:tokenize = lambda text: text.split(" ") 这个应该只是针对英文数据集吧,请问中英文混合的数据集应该怎么使用tokenize啊?

我希望能够分开每个中文,但是英文不要每个字符都分开 例子:库里是NBA球星, 希望的结果分词:“库”, “里”, “是”, "NBA", “球”, “星”, 而不是:“库”, “里”, “是”, "N", "B", "A", “球”, “星”,

另外:还会有一些数字,如2019年,也希望“2019”作为一个token

131250208 commented 2 years ago

word_pattern = "[0-9]+|[[A-Z]+]|[a-zA-Z]+|[^0-9a-zA-Z]" word_list = re.findall(word_pattern, text)