rainit2006 / Artificial-Intelligence

1 stars 0 forks source link

Decision Tree #8

Open rainit2006 opened 6 years ago

rainit2006 commented 6 years ago

決定木分析(ディシジョン・ツリー)

rainit2006 commented 6 years ago

https://www.hulinks.co.jp/support/cart/whitepaper.html GINI (ジニ) 分岐ルール データベースの中から最も大きなクラス (例:クラス A) を捜し出して、他のすべてのクラスからそれを分離しようとします。 gini

最终效果 gini2

ほとんどの場合は、データベースの各フィールドをきれいにクラス分けしようとしても難しいでしょう。 GINI は、この理想にできるだけ近づけようとするのです。GINI を使って成長させた現実的な決定木は、次の図のようになります。不完全ですが、それでも非常に正確なツリーです。 gini3

GINI の神髄は何でしょうか? GINI は、その都度 1つのクラスに注目して分類を行います。 注目するクラスは、ノードの中で最大のもの、あるいは重みづけ (コスト) をした場合は最も重要なクラスとなります。この方法は非常に単純だと思えるかもしれませんが、しばしば非常によい結果を導き出しますので、ぜひお試しください。最良の分岐ルールであることが非常に多いので、CART は GINI をデフォルト設定の分岐ルールとしています。


Twoing、エントロピー分岐ルール Twoing の考え方は、GINI のそれとまったく異なります。最初に1つののクラスを取出そうとするのではなく、合計するとデータの 50%になる 2つのグループにクラスを分けようとします。Twoing は、2つのサブグループに分けるための分岐の仕方を見つけ出します。 gini4

Twoing のバリエーション Twoing 分岐ルールの一種で注目すべきものに、加重 Twoing 法があります。 それはノードの中のデータを 2つのグループに分割する際、重み付けする方法です。 上図のような完璧な分岐ができれば、Twoing と加重 Twoing は同じ結果となります。 完璧に分類できない場合は、加重 Twoing の方がより 50% 対 50% に近い分類を実現します


通信、銀行、市場調査で得られたノウハウを以下に示します。他の分野とはデータセットが異なるかもしれません。しかしながら、他の領域でもこれは十分有効であると考えられます。 •2水準の目的変数で相対誤差 0.50 以下の場合は、GINI 分岐ルールが基本的に最良である •2水準の目的変数で相対誤差 0.80 以上の場合は、加重 Twoing 分岐ルールが最良を示す傾向がある •4 から 9 水準の目的変数の場合は、Twoing 分岐ルールが最良である場合がある •10 水準以上の目的変数の場合は、Twoing および加重 Twoing 分岐ルールの方が GINI よりもしばしば正確である

rainit2006 commented 6 years ago

Twoing、エントロピー分岐ルール Twoing の考え方は、GINI のそれとまったく異なります。最初に1つののクラスを取出そうとするのではなく、合計するとデータの 50%になる 2つのグループにクラスを分けようとします。Twoing は、2つのサブグループに分けるための分岐の仕方を見つけ出します。 gini4

Twoing のバリエーション Twoing 分岐ルールの一種で注目すべきものに、加重 Twoing 法があります。 それはノードの中のデータを 2つのグループに分割する際、重み付けする方法です。 上図のような完璧な分岐ができれば、Twoing と加重 Twoing は同じ結果となります。 完璧に分類できない場合は、加重 Twoing の方がより 50% 対 50% に近い分類を実現します