rainit2006 / Artificial-Intelligence

1 stars 0 forks source link

Data Mining #7

Open rainit2006 opened 7 years ago

rainit2006 commented 7 years ago
rainit2006 commented 7 years ago

default

rainit2006 commented 7 years ago

クラス判別用の手法 k最近傍法 下記の図のように黒い点を識別対象データとすると、そこからの距離が近いk個の教師データを探し出し、多数決で一番多いラベルを推測値として選択します。この例の場合、"5"が3個、"8"が2個なので、"5"が推測値として採用されることになります。 image

”近い”の概念として普通の距離(ユークリッド距離)、マハラノビスの距離(分散を利用する)等幾つかあります.

Euclidean distance(ユークリッド距離) is: image

rainit2006 commented 7 years ago

In our case, the magnitude of a is 5.

2つのクラスの2次元データxnxnが複数あるとして平面上に y=wx+w0y=wx+w0 という直線を引くことで、その直線を境界線にしたいというのが線形識別器です。

マージン最大化なる考え方 マージンとは、引いた境界線と、データの最短距離のことを言います。 つまり今から引く境界線は、2つのクラスのデータからそれぞれなるべく離れている場所に引きますというのがマージン最大化の考え方です。 image

右の線の方がより良さそう。 直線に最も近いそれぞれのデータ点と直線との距離が、右の絵の方が遠いからです。

計算公式 http://s0sem0y.hatenablog.com/entry/2016/08/08/061746

非線形な基底関数z=φ(x)z=φ(x)を準備することで y=wTφ(x)+w0=wTz+w0y=wTφ(x)+w0=wTz+w0 を境界線とします。これは、データ点xxを非線形変換した先の空間で線形識別を行うという発想になります。 image

rainit2006 commented 7 years ago

TF-IDF 算法 TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆向文件频率(Inverse Document Frequency)。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。