eosphoros-ai / DB-GPT

AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents
http://docs.dbgpt.cn
MIT License
13.57k stars 1.82k forks source link

【已提交PR】excel_reader.py中函数会导致一些非预期的结果或者性能问题 #2092

Open fdzgithub opened 3 hours ago

fdzgithub commented 3 hours ago

Search before asking

Operating system information

Windows

Python version information

=3.11

DB-GPT version

main

Related scenes

Installation Information

Device information

excel_reader.py中is_chinese函数 会导致一些非预期的结果或者性能问题

Models information

excel_reader.py中is_chinese函数 问题见附件

lQLPKH7upOxgsG_NAZnNBtawKDCHR9EY8pgG_58nLAgGAA_1750_409

修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题

What happened

excel_reader.py中is_chinese函数 问题见附件

lQLPKH7upOxgsG_NAZnNBtawKDCHR9EY8pgG_58nLAgGAA_1750_409

修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题

What you expected to happen

excel_reader.py中is_chinese函数 问题见附件

lQLPKH7upOxgsG_NAZnNBtawKDCHR9EY8pgG_58nLAgGAA_1750_409

修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题

How to reproduce

excel_reader.py中is_chinese函数 会导致一些非预期的结果或者性能问题

Additional context

excel_reader.py中is_chinese函数 问题见附件

lQLPKH7upOxgsG_NAZnNBtawKDCHR9EY8pgG_58nLAgGAA_1750_409

修改建议: 1、如果只是想快速检查 BMP 中的常用汉字,并且接受可能的限制, 可以稍作修改以提高效率(避免在找到第一个汉字后仍然遍历整个字符串) 2、之前代码存在一个潜在问题,这种字符比较方式可能不太符合 Unicode 编码的标准判断方式,而且"鿿"这个字符在 Unicode 编码中的位置比较靠后,可能会导致一些非预期的结果或者性能问题

Are you willing to submit PR?

fdzgithub commented 3 hours ago

【PR】 https://github.com/fdzgithub/DB-GPT/blob/main/dbgpt/app/scene/chat_data/chat_excel/excel_reader.py