Open rainit2006 opened 6 years ago
https://www.hulinks.co.jp/support/cart/whitepaper.html GINI (ジニ) 分岐ルール データベースの中から最も大きなクラス (例:クラス A) を捜し出して、他のすべてのクラスからそれを分離しようとします。
最终效果
ほとんどの場合は、データベースの各フィールドをきれいにクラス分けしようとしても難しいでしょう。 GINI は、この理想にできるだけ近づけようとするのです。GINI を使って成長させた現実的な決定木は、次の図のようになります。不完全ですが、それでも非常に正確なツリーです。
GINI の神髄は何でしょうか? GINI は、その都度 1つのクラスに注目して分類を行います。 注目するクラスは、ノードの中で最大のもの、あるいは重みづけ (コスト) をした場合は最も重要なクラスとなります。この方法は非常に単純だと思えるかもしれませんが、しばしば非常によい結果を導き出しますので、ぜひお試しください。最良の分岐ルールであることが非常に多いので、CART は GINI をデフォルト設定の分岐ルールとしています。
Twoing、エントロピー分岐ルール Twoing の考え方は、GINI のそれとまったく異なります。最初に1つののクラスを取出そうとするのではなく、合計するとデータの 50%になる 2つのグループにクラスを分けようとします。Twoing は、2つのサブグループに分けるための分岐の仕方を見つけ出します。
Twoing のバリエーション Twoing 分岐ルールの一種で注目すべきものに、加重 Twoing 法があります。 それはノードの中のデータを 2つのグループに分割する際、重み付けする方法です。 上図のような完璧な分岐ができれば、Twoing と加重 Twoing は同じ結果となります。 完璧に分類できない場合は、加重 Twoing の方がより 50% 対 50% に近い分類を実現します
通信、銀行、市場調査で得られたノウハウを以下に示します。他の分野とはデータセットが異なるかもしれません。しかしながら、他の領域でもこれは十分有効であると考えられます。 •2水準の目的変数で相対誤差 0.50 以下の場合は、GINI 分岐ルールが基本的に最良である •2水準の目的変数で相対誤差 0.80 以上の場合は、加重 Twoing 分岐ルールが最良を示す傾向がある •4 から 9 水準の目的変数の場合は、Twoing 分岐ルールが最良である場合がある •10 水準以上の目的変数の場合は、Twoing および加重 Twoing 分岐ルールの方が GINI よりもしばしば正確である
Twoing、エントロピー分岐ルール Twoing の考え方は、GINI のそれとまったく異なります。最初に1つののクラスを取出そうとするのではなく、合計するとデータの 50%になる 2つのグループにクラスを分けようとします。Twoing は、2つのサブグループに分けるための分岐の仕方を見つけ出します。
Twoing のバリエーション Twoing 分岐ルールの一種で注目すべきものに、加重 Twoing 法があります。 それはノードの中のデータを 2つのグループに分割する際、重み付けする方法です。 上図のような完璧な分岐ができれば、Twoing と加重 Twoing は同じ結果となります。 完璧に分類できない場合は、加重 Twoing の方がより 50% 対 50% に近い分類を実現します
決定木分析(ディシジョン・ツリー)
応用場面: 自社の商品(サービス)を購入する見込みが一番高い人はどんな人なのかを知りたい 満足度やロイヤリティの高い生活者がどのような特性を持っているのかを知りたい 商品が持つ要素のうち、生活者の満足度やロイヤリティに最も影響を及ぼしているものを知りたい
特長 -- SA(単一回答)、MA(複数回答)、数値回答など、様々な設問タイプの調査結果から分析が可能です。 -- 最も【目的変数】に影響すると考えられる【説明変数】を、何度もクロス集計を繰り返すことなく明らかにすることができます。 -- 対象者を分割していくにあたり、利用される基準は以下のようなものがあり、それぞれ異なる分析名称で呼ばれています。
活用事例 現在ゴルフをやっていない人たちにおいて、【「ゴルフをやってみたい」見込みが一番高いのはどのような集団か?】を把握するために決定木分析を実施します。