pulipulichen / Blogger-Editor

An editor for Blogger writer
MIT License
1 stars 3 forks source link

能為圖片做OCR嗎? #224

Closed pulipulichen closed 5 years ago

pulipulichen commented 5 years ago

https://tesseract.projectnaptha.com/

如果檔案名稱是數字,或是刪去screenshot之後是數字,或者是說只有橫線、底線 (主要是paste的檔名) 那樣圖片檔案名稱就改用OCR 最高取出30個字

pulipulichen commented 5 years ago

https://github.com/naptha/tesseract.js/blob/master/examples/browser/basic.html 我需要先做測試

pulipulichen commented 5 years ago
<script src="/dist/tesseract.dev.js"></script>

<input type="file" onchange="const worker = new Tesseract.TesseractWorker({ 
corePath: '../../node_modules/tesseract.js-core/tesseract-core.wasm.js' 
});
worker.recognize(this.files[0])
.progress(function(data){console.log(data)})
.then(function(data){console.log(data)})">
pulipulichen commented 5 years ago

還要在Editor的圖片上傳處加上選項,預測開啟

pulipulichen commented 5 years ago

OCR採用延遲的方式進行

  1. 圖片上傳後持續編輯
  2. 判斷圖片的檔名是否需要OCR,否則就是進行OCR
  3. 標記圖片,data-ocr="true",表示OCR處理中
  4. OCR處理完後,要確認抽取出來的文字,是否有足夠數量 只保留二字以上的英文字,不要亂碼 如果全部都沒有,那就使用原來的檔名
  5. 將檔案改名,記得改title跟alt
  6. 取消標記

如果在ocr中,則給他藍色的框線

pulipulichen commented 5 years ago

ocr字數允許到30字

ocr要以中文為主 取得全文後,把資訊放到alt裡面

pulipulichen commented 5 years ago

還需要略過檔案名字檢查 只為了給