PSENet - Githubissues

yang-chenyu104 commented 1 year ago

请提供下述完整信息以便快速定位问题/Please provide the following information to quickly locate the problem

系统环境/System Environment：
版本号/Version：Paddle： PaddleOCR：问题相关组件/Related components：
运行指令/Command Code：
完整报错/Complete Error Message：检测印章，标注是上下八个点，为啥选择后处理Poly，得到一系列曲线点，[[[95, 35], [93, 37], [93, 39], [91, 41], [89, 41], [89, 51], [90, 52], [96, 52], [97, 51], [99, 51], [100, 50], [102, 50], [103, 49], [104, 49], [108, 45], [110, 45], [111, 46], [111, 47], [112, 48], [114, 48], [114, 47], [113, 46], [113, 45], [114, 44], [115, 45], [119, 45], [118, 44], [118, 43], [117, 42], [116, 42], [115, 41], [114, 41], [113, 40], [112, 40], [111, 39], [110, 39], [109, 38], [108, 38], [106, 36], [101, 36], [100, 35]], [[161, 143], [160, 144], [159, 144], [157, 146], [155, 146], [154, 147], [151, 147], [150, 146], [148, 146], [147, 145], [140, 145], [139, 146], [135, 146], [134, 147], [130, 147], [129, 148], [108, 148], [107, 147], [103, 147], [102, 148], [101, 148], [100, 147], [77, 147], [76, 148], [71, 148], [70, 149], [68, 149], [67, 150], [65, 150], [62, 153], [61, 153], [60, 154], [58, 154], [56, 156], [56, 157], [55, 158], [54, 157], [51, 157], [47, 161], [46, 161], [46, 162], [44, 163], [44, 164], [46, 165], [46, 166], [54, 174], [55, 174], [57, 176], [58, 176], [59, 177], [62, 177], [63, 178], [64, 178], [65, 177], [77, 177], [78, 178], [79, 178], [80, 179], [92, 179], [93, 180], [95, 180], [96, 179], [97, 180], [99, 180], [100, 179], [104, 179], [105, 178], [108, 178], [109, 179], [118, 179], [119, 178], [125, 178], [126, 179], [141, 179], [142, 180], [145, 180], [146, 179], [149, 179], [150, 178], [152, 178], [153, 177], [164, 177], [165, 176], [166, 176], [168, 174], [169, 174], [172, 171], [172, 169], [173, 168], [173, 164], [172, 163], [172, 160], [171, 159], [172, 158], [172, 154], [171, 153], [171, 151], [170, 150], [170, 149], [167, 146], [167, 145], [165, 143]]]这些点坐标是根据什么算法来的？

07571026 commented 1 year ago

PSENet模型是對於彎曲文本設計的檢測模型，為了偵測幾何形狀的文本，它採用像素級別(pixel-level)的方式預測，也就是判斷一個像素是否為文本，而它的輸出結果是一個只有0跟1的遮罩圖(mask image)，並不是yolo那樣輸出座標點位。

因此在你訓練模型的時候，比較有效的方式就是請你上下標記八個點當作label，然後再透過opencv繪製出遮罩圖。而不是要你自己用小畫家畫出遮罩圖或者上下標記兩百個點來產生超級精準的遮照圖。

最後當你在推論的時候，產生的遮罩圖會因為你想要呈現的方式有不同的後處理方法，因為你想要在原圖上繪製出幾何形的框，所以透過opencv的findContours把屬於文本區域的輪廓依照座標順序標記出來，你就可以藉由polylines把這些點全部連起來並在原圖框出文本。

結論: 上下標記八個點是為了產生遮罩圖，預測的結果不是上下八個點座標，而是遮罩圖。你說的一系列的曲線點是表示遮罩圖範圍的方法，而opencv的findContours就是以座標來表示遮罩圖範圍的演算法(也就是你在問的問題)，讓你能夠依靠座標繪製框出文本範圍的幾何框

yang-chenyu104 commented 1 year ago

谢谢解答，懂了如何进行后处理

---Original--- From: @.> Date: Mon, Sep 11, 2023 13:23 PM To: @.>; Cc: @.**@.>; Subject: Re: [PaddlePaddle/PaddleOCR] PSENet (Issue #9737)

PSENet模型是對於彎曲文本設計的檢測模型，為了偵測幾何形狀的文本，它採用像素級別(pixel-level)的方式預測，也就是判斷一個像素是否為文本，而它的輸出結果是一個只有0跟1的遮罩圖(mask image)，並不是yolo那樣輸出座標點位。

因此在你訓練模型的時候，比較有效的方式就是請你上下標記八個點當作label，然後再透過opencv繪製出遮罩圖。而不是要你自己用小畫家畫出遮罩圖或者上下標記兩百個點來產生超級精準的遮照圖。

最後當你在推論的時候，產生的遮罩圖會因為你想要呈現的方式有不同的後處理方法，因為你想要在原圖上繪製出幾何形的框，所以透過opencv的findContours把屬於文本區域的輪廓依照座標順序標記出來，你就可以藉由polylines把這些點全部連起來並在原圖框出文本。

結論: 上下標記八個點是為了產生遮罩圖，預測的結果不是上下八個點座標，而是遮罩圖。你說的一系列的曲線點是表示遮罩圖範圍的方法，而opencv的findContours就是以座標來表示遮罩圖範圍的演算法(也就是你在問的問題)，讓你能夠依靠座標繪製框出文本範圍的幾何框

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

UserWangZz commented 5 months ago

该issue长时间未更新，暂将此issue关闭，如有需要可重新开启。

PaddlePaddle / PaddleOCR

PSENet #9737