能為圖片做OCR嗎？

pulipulichen / Blogger-Editor

An editor for Blogger writer

MIT License

1 stars 3 forks source link

能為圖片做OCR嗎？ #224

Closed pulipulichen closed 5 years ago

pulipulichen commented 5 years ago

https://tesseract.projectnaptha.com/

如果檔案名稱是數字，或是刪去screenshot之後是數字，或者是說只有橫線、底線 (主要是paste的檔名) 那樣圖片檔案名稱就改用OCR 最高取出30個字

pulipulichen commented 5 years ago

https://github.com/naptha/tesseract.js/blob/master/examples/browser/basic.html 我需要先做測試

pulipulichen commented 5 years ago

<script src="/dist/tesseract.dev.js"></script>

<input type="file" onchange="const worker = new Tesseract.TesseractWorker({ 
corePath: '../../node_modules/tesseract.js-core/tesseract-core.wasm.js' 
});
worker.recognize(this.files[0])
.progress(function(data){console.log(data)})
.then(function(data){console.log(data)})">

pulipulichen commented 5 years ago

還要在Editor的圖片上傳處加上選項，預測開啟

pulipulichen commented 5 years ago

OCR採用延遲的方式進行

圖片上傳後持續編輯
判斷圖片的檔名是否需要OCR，否則就是進行OCR
標記圖片，data-ocr="true"，表示OCR處理中
OCR處理完後，要確認抽取出來的文字，是否有足夠數量只保留二字以上的英文字，不要亂碼如果全部都沒有，那就使用原來的檔名
將檔案改名，記得改title跟alt
取消標記

如果在ocr中，則給他藍色的框線

pulipulichen commented 5 years ago

ocr字數允許到30字

ocr要以中文為主取得全文後，把資訊放到alt裡面

pulipulichen commented 5 years ago

還需要略過檔案名字檢查只為了給