haisland0909 / Denoising-Dirty-Documents

for kaggle competition
Apache License 2.0
0 stars 0 forks source link

Clean Imageはバイナリで #3

Closed haisland0909 closed 9 years ago

haisland0909 commented 9 years ago

今Cleanなイメージもグレースケールで出力してるのでラベルデータとしてほしいのでバイナリにしてもらいたいです

guruttosekai2011 commented 9 years ago

そこについて相談させていただきたかったのですが、正解ラベルの閾値をどうしましょうか? ちゃんと見てみると境界部分などにおいて、文字のエッジ部分などで中間色があり、255で切ると確実に答えラベルで精度が変わるような気がします。

2.png とかの画像をみると、文字まわりがうっすらと薄い灰色で枠取られていたりするのですが、これを無視する領域だとすると150とか128(半分)くらいなのかな?と考えるのですが、いかがですか?

guruttosekai2011 commented 9 years ago

img_to_pickle.py にバイナリで作る部分を一応実装したので、closeします。