中英文混合文本token处理

大佬你好，我是新手，在研究你的工作，超级棒！

有个问题，在用LSTM时，你提供的tokenize代码：tokenize = lambda text: text.split(" ") 这个应该只是针对英文数据集吧，请问中英文混合的数据集应该怎么使用tokenize啊？

我希望能够分开每个中文，但是英文不要每个字符都分开例子：库里是NBA球星，希望的结果分词：“库”, “里”, “是”, "NBA", “球”, “星”，而不是：“库”, “里”, “是”, "N", "B", "A", “球”, “星”，

另外：还会有一些数字，如2019年，也希望“2019”作为一个token

131250208 / TPlinker-joint-extraction