PaddlePaddle / PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
https://paddlepaddle.github.io/PaddleOCR/
Apache License 2.0
43.55k stars 7.77k forks source link

PSENet #9737

Closed yang-chenyu104 closed 5 months ago

yang-chenyu104 commented 1 year ago

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

07571026 commented 1 year ago

PSENet模型是對於彎曲文本設計的檢測模型,為了偵測幾何形狀的文本,它採用像素級別(pixel-level)的方式預測,也就是判斷一個像素是否為文本,而它的輸出結果是一個只有0跟1的遮罩圖(mask image),並不是yolo那樣輸出座標點位。

因此在你訓練模型的時候,比較有效的方式就是請你上下標記八個點當作label,然後再透過opencv繪製出遮罩圖。而不是要你自己用小畫家畫出遮罩圖或者上下標記兩百個點來產生超級精準的遮照圖。

最後當你在推論的時候,產生的遮罩圖會因為你想要呈現的方式有不同的後處理方法,因為你想要在原圖上繪製出幾何形的框 ,所以透過opencv的findContours把屬於文本區域的輪廓依照座標順序標記出來,你就可以藉由polylines把這些點全部連起來並在原圖框出文本。

結論: 上下標記八個點是為了產生遮罩圖,預測的結果不是上下八個點座標,而是遮罩圖。 你說的一系列的曲線點是表示遮罩圖範圍的方法,而opencv的findContours就是以座標來表示遮罩圖範圍的演算法(也就是你在問的問題),讓你能夠依靠座標繪製框出文本範圍的幾何框

yang-chenyu104 commented 1 year ago

谢谢解答,懂了如何进行后处理

---Original--- From: @.> Date: Mon, Sep 11, 2023 13:23 PM To: @.>; Cc: @.**@.>; Subject: Re: [PaddlePaddle/PaddleOCR] PSENet (Issue #9737)

PSENet模型是對於彎曲文本設計的檢測模型,為了偵測幾何形狀的文本,它採用像素級別(pixel-level)的方式預測,也就是判斷一個像素是否為文本,而它的輸出結果是一個只有0跟1的遮罩圖(mask image),並不是yolo那樣輸出座標點位。

因此在你訓練模型的時候,比較有效的方式就是請你上下標記八個點當作label,然後再透過opencv繪製出遮罩圖。而不是要你自己用小畫家畫出遮罩圖或者上下標記兩百個點來產生超級精準的遮照圖。

最後當你在推論的時候,產生的遮罩圖會因為你想要呈現的方式有不同的後處理方法,因為你想要在原圖上繪製出幾何形的框 ,所以透過opencv的findContours把屬於文本區域的輪廓依照座標順序標記出來,你就可以藉由polylines把這些點全部連起來並在原圖框出文本。

結論: 上下標記八個點是為了產生遮罩圖,預測的結果不是上下八個點座標,而是遮罩圖。 你說的一系列的曲線點是表示遮罩圖範圍的方法,而opencv的findContours就是以座標來表示遮罩圖範圍的演算法(也就是你在問的問題),讓你能夠依靠座標繪製框出文本範圍的幾何框

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

UserWangZz commented 5 months ago

该issue长时间未更新,暂将此issue关闭,如有需要可重新开启。