Liaro / Liaro_ML_Learning

This is a tutorial for learning ML in Liaro.
2 stars 1 forks source link

学んで貰う #1

Open hanaken opened 8 years ago

hanaken commented 8 years ago
  1. 自然言語処理系
  2. 画像認識系
  3. 機械学習系

それぞれで(被るものもあるが)学んでもらうアルゴリズムを列挙して、それぞれの興味に応じてやってもらう。 アルゴリズムも、最初はアルゴリズムの用途と大まかな動きだけであとから理論を。 理論ははじパタでいいかも。 最終的には、簡単なプロダクトを作ってもらう。

hanaken commented 8 years ago

参考 http://scikit-learn.org/stable/tutorial/machine_learning_map/

hanaken commented 8 years ago

12810105_992834547474552_1967561323_o 12842449_992836574141016_2106378151_o

KazukiYoshii commented 8 years ago

候補になるアルゴリズムとそれについての資料まとめ

機械学習  ・SVM(SVR)   - http://qiita.com/nokomitch/items/00c1f0330253d022b32a   - http://home.hiroshima-u.ac.jp/tkurita/lecture/svm.pdf

 ・ロジスティック回帰   - http://gihyo.jp/dev/serial/01/machine-learning/0018   - http://qiita.com/nokomitch/items/40fb63c40baa0239fb83   - http://qiita.com/hik0107/items/9b6e1e989f4eaefdc31d   - http://sinhrks.hatenablog.com/entry/2014/11/24/205305

 ・ナイーブベイズ   - http://aidiary.hatenablog.com/entry/20100613/1276389337   - http://qiita.com/aflc/items/13fe52243c35d3b678b0   - http://qiita.com/katryo/items/6a2266ffafb7efa9a46c

 ・Kmeans   - http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/   - http://aidiary.hatenablog.com/entry/20100515/1273888686

 ・パーセプトロン(MLP)   - http://qiita.com/tkazusa/items/2460b4761cb76f57e657   - http://hokuts.com/2015/11/25/ml2_perceptron/   - http://tjo.hatenablog.com/entry/2013/05/01/190247

 ・決定木   - https://enterprisezine.jp/iti/detail/6323   - http://todoa2c.github.io/blog/2014/08/12/writing-decision-tree/

 ・kNN法   - http://compsci.world.coocan.jp/OUJ/2012PR/pr_13_a.pdf

NLP  ・bag-of-wards   - https://en.wikipedia.org/wiki/Bag-of-words_model   - http://sucrose.hatenablog.com/entry/2015/11/08/234133

 ・tf-idf   - http://takuti.me/note/tf-idf/   - http://qiita.com/ynakayama/items/300460aa718363abc85c

 ・N-gramモデル   - http://www.shuiren.org/chuden/teach/n-gram/index-j.html   - http://gihyo.jp/dev/serial/01/make-findspot/0005

 ・word2vec   - http://tjo.hatenablog.com/entry/2014/06/19/233949   - http://aial.shiroyagi.co.jp/2015/12/word2vec/

 ・LDA   - http://d.hatena.ne.jp/a_bicky/20130312/1363097267   - http://www.phontron.com/slides/nlp-programming-ja-07-topic.pdf

CV  ・SIFT(特徴点検出)   - http://www.slideshare.net/lawmn/siftsurf   - http://www.hci.iis.u-tokyo.ac.jp/~ysato/class14/supplements/sift_tutorial-Fujiyoshi.pdf

 ・HOG   - http://www.pro-s.co.jp/engineerblog/opencv/post_6338.html

 ・bag-of-visual-wards   - http://aidiary.hatenablog.com/entry/20100227/1267277731   - http://www.vision.cs.chubu.ac.jp/ssii08/ssii08-yanai.pdf

 ・カラーヒストグラム   - http://aidiary.hatenablog.com/entry/20091003/1254574041

 ・Local Binary Pattern   - http://www.pro-s.co.jp/engineerblog/opencv/post_6256.html

KazukiYoshii commented 8 years ago

タスクとしてのアルゴリズムの分類

 ・分類   - SVM   - ナイーブベイズ   - パーセプトロン   - 決定木   - kNN法

 ・回帰   - SVR   - ロジスティック回帰   - パーセプトロン   - 決定木

 ・クラスタリング   - Kmeans   - kNN法

CV系では  ・画像認識   - SIFT + bag-of-visual-wards   - HOG   - Local Binary Pattern

 ・類似画像判定   - カラーヒストグラム

KazukiYoshii commented 8 years ago

使えそうなデータセットまとめ

分類系  ・花の種別判定   - https://archive.ics.uci.edu/ml/datasets/Iris

 ・ニュースのカテゴリ判定   - http://www.rondhuit.com/download.html#ldcc

 ・ツイートの極性判定   - https://github.com/satwantrana/CharSCNN   - 上記リンクのtweets_clean.txt

 ・ライブドアグルメ(料理店のカテゴリ分類?)   - http://blog.livedoor.jp/techblog/archives/65836960.html

・libSVMで公開されてる2値分類用データセットまとめ   - https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

 ・超簡単な分類問題用データセット2種   - http://next.rikunabi.com/tech_souken/entry/ct_s03600p002315

 ・MNIST(手書き数字認識データセット)   - http://yann.lecun.com/exdb/mnist/

 ・ImageNet(画像分類用データセット)

回帰系  ・ワインの品質予測   - https://archive.ics.uci.edu/ml/datasets/Wine+Quality

 ・ライブドアグルメ(評判予測?)

 ・CTR予測(KDD Cup 2012)   - http://www.kddcup2012.org/c/kddcup2012-track2/data   - ただしデータがワヤでかい

 ・タイタニックの生存者予測   - https://www.kaggle.com/c/titanic/data

クラスタリング  ・分類系のものは大抵使える

hanaken commented 8 years ago

難易度もわかるといいね

hanaken commented 8 years ago

Deep Learningも一応入れておこう

KazukiYoshii commented 8 years ago

吉井の主観で手法毎の難易度と重要度を追加した。 Deep Learningは言葉の意味が広すぎるので、機械学習系ではMLP、NLP系ではRNN、CV系ではCNNとした。 最も使われているものというだけで、CV系でRNNが使われることも、NLP系でCNNが使われることもある

機械学習  ・SVM(SVR)   難易度:☆☆☆☆   重要度:☆☆☆☆☆   - http://qiita.com/nokomitch/items/00c1f0330253d022b32a   - http://home.hiroshima-u.ac.jp/tkurita/lecture/svm.pdf

 ・ロジスティック回帰   難易度:☆☆   重要度:☆☆☆☆   - http://gihyo.jp/dev/serial/01/machine-learning/0018   - http://qiita.com/nokomitch/items/40fb63c40baa0239fb83   - http://qiita.com/hik0107/items/9b6e1e989f4eaefdc31d   - http://sinhrks.hatenablog.com/entry/2014/11/24/205305

 ・ナイーブベイズ   難易度:☆☆☆☆   重要度:☆☆☆☆   - http://aidiary.hatenablog.com/entry/20100613/1276389337   - http://qiita.com/aflc/items/13fe52243c35d3b678b0   - http://qiita.com/katryo/items/6a2266ffafb7efa9a46c

 ・Kmeans   難易度:☆   重要度:☆☆☆☆☆   - http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/   - http://aidiary.hatenablog.com/entry/20100515/1273888686

 ・パーセプトロン(MLP)   難易度:☆☆☆   重要度:☆☆☆☆   - http://qiita.com/tkazusa/items/2460b4761cb76f57e657   - http://hokuts.com/2015/11/25/ml2_perceptron/   - http://tjo.hatenablog.com/entry/2013/05/01/190247

 ・決定木   難易度:☆☆☆   重要度:☆☆☆☆☆   - https://enterprisezine.jp/iti/detail/6323   - http://todoa2c.github.io/blog/2014/08/12/writing-decision-tree/

 ・kNN法   難易度:☆☆   重要度:☆☆☆   - http://compsci.world.coocan.jp/OUJ/2012PR/pr_13_a.pdf   - http://qiita.com/ysekky/items/3ce4627f7c57726cf5b7

NLP  ・bag-of-wards   難易度:☆   重要度:☆☆☆☆   - https://en.wikipedia.org/wiki/Bag-of-words_model   - http://sucrose.hatenablog.com/entry/2015/11/08/234133

 ・tf-idf   難易度:☆☆   重要度:☆☆☆☆☆   - http://takuti.me/note/tf-idf/   - http://qiita.com/ynakayama/items/300460aa718363abc85c

 ・N-gramモデル   難易度:☆☆☆   重要度:☆☆☆☆   - http://www.shuiren.org/chuden/teach/n-gram/index-j.html   - http://gihyo.jp/dev/serial/01/make-findspot/0005

 ・word2vec   難易度:☆☆☆   重要度:☆☆☆   - http://tjo.hatenablog.com/entry/2014/06/19/233949   - http://aial.shiroyagi.co.jp/2015/12/word2vec/

 ・LDA   難易度:☆☆☆☆☆   重要度:☆☆☆   - http://d.hatena.ne.jp/a_bicky/20130312/1363097267   - http://www.phontron.com/slides/nlp-programming-ja-07-topic.pdf

 ・RNN(リカレント、リカーシブ)   難易度:☆☆☆☆☆   重要度:☆☆☆☆☆   - http://www.slideshare.net/unnonouno/ss-43844132

CV  ・SIFT(特徴点検出)   難易度:☆☆☆☆☆   重要度:☆☆☆☆   - http://www.slideshare.net/lawmn/siftsurf   - http://www.hci.iis.u-tokyo.ac.jp/~ysato/class14/supplements/sift_tutorial-Fujiyoshi.pdf

 ・HOG   難易度:☆☆☆☆   重要度:☆☆☆☆   - http://www.pro-s.co.jp/engineerblog/opencv/post_6338.html

 ・bag-of-visual-wards   難易度:☆☆   重要度:☆☆☆☆   - http://aidiary.hatenablog.com/entry/20100227/1267277731   - http://www.vision.cs.chubu.ac.jp/ssii08/ssii08-yanai.pdf

 ・カラーヒストグラム   難易度:☆   重要度:☆☆   - http://aidiary.hatenablog.com/entry/20091003/1254574041

 ・Local Binary Pattern   難易度:☆☆   重要度:☆☆☆   - http://www.pro-s.co.jp/engineerblog/opencv/post_6256.html

 ・CNN   難易度:☆☆☆☆   重要度:☆☆☆☆☆   - http://qiita.com/icoxfog417/items/5fd55fad152231d706c2   - http://vaaaaaanquish.hatenablog.com/entry/2015/01/26/060622

hanaken commented 8 years ago

@KazukiYoshii 難易度的にナイーブベイズ > w2vになってるけど大丈夫かな? 多項モデルならナイーブベイズはとても簡単な認識 w2vは分散表現とautoencoderを理解する点で難しいかなと

KazukiYoshii commented 8 years ago

@hanaken ただの隠れ層1層のNNだから、w2vは僕的には難易度は低い。 ナイーブベイズは難易度の設定に困った。☆三つくらいに下げようかな

KazukiYoshii commented 8 years ago

ナイーブベイズの難易度を更新

機械学習  ・SVM(SVR)   難易度:☆☆☆☆   重要度:☆☆☆☆☆   - http://qiita.com/nokomitch/items/00c1f0330253d022b32a   - http://home.hiroshima-u.ac.jp/tkurita/lecture/svm.pdf

 ・ロジスティック回帰   難易度:☆☆   重要度:☆☆☆☆   - http://gihyo.jp/dev/serial/01/machine-learning/0018   - http://qiita.com/nokomitch/items/40fb63c40baa0239fb83   - http://qiita.com/hik0107/items/9b6e1e989f4eaefdc31d   - http://sinhrks.hatenablog.com/entry/2014/11/24/205305

 ・ナイーブベイズ   難易度:☆☆☆   重要度:☆☆☆☆   - http://aidiary.hatenablog.com/entry/20100613/1276389337   - http://qiita.com/aflc/items/13fe52243c35d3b678b0   - http://qiita.com/katryo/items/6a2266ffafb7efa9a46c

 ・Kmeans   難易度:☆   重要度:☆☆☆☆☆   - http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/   - http://aidiary.hatenablog.com/entry/20100515/1273888686

 ・パーセプトロン(MLP)   難易度:☆☆☆   重要度:☆☆☆☆   - http://qiita.com/tkazusa/items/2460b4761cb76f57e657   - http://hokuts.com/2015/11/25/ml2_perceptron/   - http://tjo.hatenablog.com/entry/2013/05/01/190247

 ・決定木   難易度:☆☆☆   重要度:☆☆☆☆☆   - https://enterprisezine.jp/iti/detail/6323   - http://todoa2c.github.io/blog/2014/08/12/writing-decision-tree/

 ・kNN法   難易度:☆☆   重要度:☆☆☆   - http://compsci.world.coocan.jp/OUJ/2012PR/pr_13_a.pdf   - http://qiita.com/ysekky/items/3ce4627f7c57726cf5b7

NLP  ・bag-of-wards   難易度:☆   重要度:☆☆☆☆   - https://en.wikipedia.org/wiki/Bag-of-words_model   - http://sucrose.hatenablog.com/entry/2015/11/08/234133

 ・tf-idf   難易度:☆☆   重要度:☆☆☆☆☆   - http://takuti.me/note/tf-idf/   - http://qiita.com/ynakayama/items/300460aa718363abc85c

 ・N-gramモデル   難易度:☆☆☆   重要度:☆☆☆☆   - http://www.shuiren.org/chuden/teach/n-gram/index-j.html   - http://gihyo.jp/dev/serial/01/make-findspot/0005

 ・word2vec   難易度:☆☆☆   重要度:☆☆☆   - http://tjo.hatenablog.com/entry/2014/06/19/233949   - http://aial.shiroyagi.co.jp/2015/12/word2vec/

 ・LDA   難易度:☆☆☆☆☆   重要度:☆☆☆   - http://d.hatena.ne.jp/a_bicky/20130312/1363097267   - http://www.phontron.com/slides/nlp-programming-ja-07-topic.pdf

 ・RNN(リカレント、リカーシブ)   難易度:☆☆☆☆☆   重要度:☆☆☆☆☆   - http://www.slideshare.net/unnonouno/ss-43844132

CV  ・SIFT(特徴点検出)   難易度:☆☆☆☆☆   重要度:☆☆☆☆   - http://www.slideshare.net/lawmn/siftsurf   - http://www.hci.iis.u-tokyo.ac.jp/~ysato/class14/supplements/sift_tutorial-Fujiyoshi.pdf

 ・HOG   難易度:☆☆☆☆   重要度:☆☆☆☆   - http://www.pro-s.co.jp/engineerblog/opencv/post_6338.html

 ・bag-of-visual-wards   難易度:☆☆   重要度:☆☆☆☆   - http://aidiary.hatenablog.com/entry/20100227/1267277731   - http://www.vision.cs.chubu.ac.jp/ssii08/ssii08-yanai.pdf

 ・カラーヒストグラム   難易度:☆   重要度:☆☆   - http://aidiary.hatenablog.com/entry/20091003/1254574041

 ・Local Binary Pattern   難易度:☆☆   重要度:☆☆☆   - http://www.pro-s.co.jp/engineerblog/opencv/post_6256.html

 ・CNN   難易度:☆☆☆☆   重要度:☆☆☆☆☆   - http://qiita.com/icoxfog417/items/5fd55fad152231d706c2   - http://vaaaaaanquish.hatenablog.com/entry/2015/01/26/060622

KazukiYoshii commented 8 years ago

タスクはこんな感じで

 ・ニュースのカテゴリ分類(ライブドアのニュースデータセット)   機械学習(分類)   機械学習(クラスタリング)   NLP(bow, tfidf, N-gram、LDA)

 ・ワインの品質予測(UCIのワインデータセット)   機械学習(回帰)

 ・小規模な画像認識システムの開発(ImageNet)   CV

 ・word2vecで遊ぼう(日本語wikipedia)   NLP(word2vec)