Open n6333373 opened 6 years ago
最近發現有個簡體字幕裡把 开 打成了 幵 ,應該是來自 OCR 的錯誤。 由於 幵 極度不常用,繁化時強行轉換為 開 不會時常造成問題。
开
幵
開
類似問題在繁體字幕中也有 千 被打成了 干 ,並且可能不容易被看出來。
千
干
上述兩者現歸類於 錯別字修正 模組中。
錯別字修正
i
l
I
1
例如:子音 + l(小寫L) + 子音 應可轉換為 子音 + i(小寫I) + 子音 ,英文因為發音的關係,不會三個子音(並且中間是小寫L)連在一起。
子音 + l(小寫L) + 子音
子音 + i(小寫I) + 子音
上述則未實裝。
我幾乎不做 OCR 的工作,因此不知道 OCR 有那些常見的錯誤,如果自動修正一些常見錯誤應該會很有用(?)
https://zhconvert.org/#comment-3899694601
井非=並非 朱來=未來 恐泊=恐怕 環表=懷錶 父易=交易 農服=衣服 (非OCR?) 障藏=隱藏 事倩=事情 他門=他們 只身=單身 (非OCR?) 邪路=洩露 (非OCR?) 聽慬=聽懂 蚱蝦=炸蝦
最近發現有個簡體字幕裡把
开
打成了幵
,應該是來自 OCR 的錯誤。 由於幵
極度不常用,繁化時強行轉換為開
不會時常造成問題。類似問題在繁體字幕中也有
千
被打成了干
,並且可能不容易被看出來。上述兩者現歸類於
錯別字修正
模組中。i
(小寫I) /l
(小寫L) /I
(大寫i) /1
(數字1) 混用。例如:
子音 + l(小寫L) + 子音
應可轉換為子音 + i(小寫I) + 子音
,英文因為發音的關係,不會三個子音(並且中間是小寫L)連在一起。上述則未實裝。
我幾乎不做 OCR 的工作,因此不知道 OCR 有那些常見的錯誤,如果自動修正一些常見錯誤應該會很有用(?)