Open fdzgithub opened 3 hours ago
Windows
=3.11
main
[X] Installation From Source
[ ] Docker Installation
[ ] Docker Compose Installation
[ ] Cluster Installation
[ ] AutoDL Image
[ ] Other
excel_reader.py中is_chinese函数 会导致一些非预期的结果或者性能问题
excel_reader.py中is_chinese函数 问题见附件
修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题
【PR】 https://github.com/fdzgithub/DB-GPT/blob/main/dbgpt/app/scene/chat_data/chat_excel/excel_reader.py
Search before asking
Operating system information
Windows
Python version information
DB-GPT version
main
Related scenes
Installation Information
[X] Installation From Source
[ ] Docker Installation
[ ] Docker Compose Installation
[ ] Cluster Installation
[ ] AutoDL Image
[ ] Other
Device information
excel_reader.py中is_chinese函数 会导致一些非预期的结果或者性能问题
Models information
excel_reader.py中is_chinese函数 问题见附件
修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题
What happened
excel_reader.py中is_chinese函数 问题见附件
修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题
What you expected to happen
excel_reader.py中is_chinese函数 问题见附件
修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题
How to reproduce
excel_reader.py中is_chinese函数 会导致一些非预期的结果或者性能问题
Additional context
excel_reader.py中is_chinese函数 问题见附件
修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题
Are you willing to submit PR?