e4exp / paper_manager_abstract

0 stars 0 forks source link

An Empirical Comparison of Web Page Segmentation Algorithms #282

Open e4exp opened 3 years ago

e4exp commented 3 years ago

過去20年間にわたり、ウェブページを意味的に一貫したユニットに分割するためのアルゴリズムがいくつか開発されてきました。 これは、ウェブコンテンツ解析にいくつかの応用があります。 しかし、これらのアルゴリズムは、ほとんど経験的に比較されていないため、どのアルゴリズムが、というよりも、どのパラダイムが最も優れているのかが明らかになっていない。 このギャップを埋めるために、我々は、ウェブページのセグメンテーションのための大規模で標準化されたベンチマークデータセットを用いて、5つのセグメンテーションアルゴリズムを再現し、比較評価したことを報告する。 3つのアルゴリズムは、ウェブページ用に開発されたもので、このタスクに対するパラダイム的に異なるアプローチを代表するものとして選択されているが、残りの2つのアプローチは、それぞれ写真と印刷文書のセグメンテーションに由来するものである。 公平に比較するために、各アルゴリズムのパラメータをデータセットに合わせて調整しました(該当する場合)。 その結果、古典的なルールベースのVIPSアルゴリズムが最も高い性能を示し、Cormierらの純粋に視覚的なアプローチがそれに続いた。再現性を高めるために、アルゴリズムの再実装を詳細な手順とともに示した。

e4exp commented 3 years ago

結論

アトミックページ要素の種類ごとに評価した結果を対比して議論すると、下流のタスクがピクセルベースのセグメントを必要とする場合を除き、古典的なVIPSアルゴリズムが依然として総合的に最適な選択肢であることが明らかになりました。 その場合、純粋に視覚的なページのセグメンテーションの方が良い結果となりますが、そうでない場合はVIPSに近い結果となります。 MMDetectionは、写真画像用に設計・学習されたことで、特に優れた性能を発揮しました。 興味深いことに、このような画像や新聞ページのセグメンテーションのための最先端のアプローチは、どちらも深層学習を採用していますが、ウェブページのセグメンテーションのためのアプローチは、ほとんどが手作りのヒューリスティックと観察に依存しています。 この違いは、ウェブページのセグメンテーションのための大規模なデータセットがこれまで存在しなかったことが主な原因だと考えています。 本論文では、長年のチャンピオンであるVIPSを凌駕する新たなアプローチを開発するための基礎を築きます。