Open nasheqlbrm opened 1 year ago
0_preprocess.ipynb
with a dpi of 220 (instead of 200) to see if a higher dpi image can help fix the issue with first three characters here.A higher dpi = 220 did not help with getting a better outcome with respect to the incorrect first character in the example above. I will try an experiment where I zoom into the image a bit more to see if it helps PyTesseract.
I tried an experiment where I was zooming into the image before text extraction and the result seemed mixed.
Later I realized that maybe I should create the images as .png rather than .jpg. I redid the text extraction based on .png images in c3571e1
For the example in the issue now we get the following text:
1 深
e
マト コン な トー
人
三
っ
-
四
】
ショ ン が 行 は 刀 英 貸 が 全 賠 的 に ポイ ョ ツ ト さ れい 民生 も 反 政 府 的 ス ョ ー ガ ン を 提げ 大 未成 天 和
を 展開 し 、 ボ ー ス 料 放 を 昌 ぶ に 至 つ た 。
背く 大 の 反 英介 運 の 謝 ま る と 共に 七 月 六 日 周 民 合議 委員 合 は 五 日 に 豆 る 合議 の 結果 印度 問
由 を 解決 する に は 完全 尾 立 の 外 方 途 な き 導 を 決議 し 、 中 央 立法 護 合 員 が 完全 に 信任 する 印度 放
立 人 政 府 知 織 を 必要 と し た 。
皮 委 員 全 の 決 難 は 七 月 二 十 七 日 プ ー ナ 1 に 開か れる 周 兵 合議 大 剣 に 於 て 可決 せら れる で あら
う 然し | 方 に 災 て 英 享 は 印度 人 の 兵士 、 技 術 家 、 符 働 者 の 張 制 後 集 を 行い 、 大 が 反 針 を 居 放
する 絡 全 園 に 互 め 示 捕 家宅 揚 索 が 行 は れ 、 公 印 を 不安 に 路 れ て わる 。
勿論 今後 の 情 益 は 験 言 を 計 さ な い が 、 英 剛 に し て 印度 の 完全 指 立 を 認め な い 限 り 前 送 の 如く
武力 革命 の 可能 性 も ある わけ で ある 、 只 問 題 は 今日 の 印度 人 が 何等 武器 を 有 し な い 臣 で ある が
世 困 情勢 の 愛 化 に 信 つ て は 印度 も 武器 を 有 し 得る の で ある 。 准 ほ 現在 西北 賠 考 用 の トラ イプ の
み は 武 二 解 除 を 受け て 居 ら ちず 今 表 大 隊 該 勤 北 後 各地 に 反 英 抗 を 行 つ て わる が 、 是 等 と 連絡 す
る 攻 に 依 つ て も 武器 を 獲得 し 得る で あら う 。
So we see that:
Taking a deeper look using Simon Willison's tokenizer notebook. We can further see that the text extraction is not quite correct.
Correct:
Incorrect: here I manually removed spaces to make the problem obvious. The first line is the incorrect text, the bottom is the correct text.
[TO TEST]: It's possible that the slight skew of each page is leading to a degradation in the text that is being extracted.
Take doii-rsb-0001-100-01.txt we see that the text extracted using PyTesseract is as follows:
However if we use Google Translate on the image then the extracted text can be seen to be:
We can see that the first set of text has:
ション
instead ofォ ョ ン
)These lead to a substantial drop in the quality of the translation. Pasting the first bit of text into Google Translate results in gibberish namely,
Contrast this to the results when we paste in the second Japanese text (I have slighlty altered the translation by adding line breaks):
There are some issues here too (Boris instead of Bose) but the second translation reads much better.