crimx / ext-saladict

🥗 All-in-one professional pop-up dictionary and page translator which supports multiple search modes, page translations, new word notebook and PDF selection searching.
https://saladict.crimx.com/
MIT License
12.07k stars 741 forks source link

PDF单词识别增强 #1143

Open cyberbug2077 opened 3 years ago

cyberbug2077 commented 3 years ago

设备信息

请描述目前使用沙拉查词遇到什么不便

在pdf模式下阅读英文文档,遇到单词识别不理想的情况。例如单词‘identification’在pdf中‘fi'为一个单独的符号,单词就变成了'identi?cation'。当然这并不是软件本身的问题,不过这种情况在pdf文档中挺常见的,能在识别环节解决这个问题,用起来就更方便了。

理想情况下,沙拉查词应该怎么做

在pdf模式下增加一个菜单选项,将某个符号识别成指定的字符。

替代方案

额外信息

这种额外的符号使文档看起来更顺眼,所以没有替换掉。希望只在查单词的阶段换成正确的字符。

hqyyqh commented 3 years ago

fl → fl,ff → ff,ffi → ffi,ffl → ffl这些字符常出现在LaTeX生成的文档里面。

我测试了一下,发现沙拉查词内置的PDF阅读器似乎可以处理一些连字了。参考下图,只有ffi → ffi 没有识别出来

测试环境:

image

cyberbug2077 commented 3 years ago

你这个文档确实可以识别, 但是这个里面的识别不了sicpjs.pdf

hqyyqh commented 3 years ago

你这个文档确实可以识别, 但是这个里面的识别不了 sicpjs.pdf

我在Acrobat中复制出来都不行,变成了 0x1b(查了下是 Esc 的转义??)。应该是文档本身不支持的问题了。 image

crimx commented 3 years ago

我再看看怎么兼容这类情况。