HiromuMasuda commented 6 years ago

期限につきましては、5/1（火）を目処に取り組んで頂き、後ほど指定するGithubアカウントをコラボレーターに追加してください。それを以て課題提出とさせて頂きます。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

課題

Step1: 記事URLを入れると記事カテゴリを返す、ナイーブベイズを使った教師あり文書分類器ウェブアプリの実装
Step2: 文書分類性能の改善

具体的な要件

環境

Python 3.6
Django 1.11
その他ライブラリは自由に使用可能
ナイーブベイズを使った教師あり文書分類器は、scikit-learnやgensimなどの機械学習ライブラリを使用せず、独自実装してください。
- NumpyやScipy、TensorFlowなどの数値計算ライブラリの使用は可能です。
分類性能を改善する際には、機械学習ライブラリを使用しても構いません。

Step1: ウェブアプリの具体的な処理について

ウェブアプリの機能

フォームから記事URLを入力する。
1で入力された記事URLのHTMLを取得し、それを元に、記事カテゴリを判定する。
2で判定したカテゴリを画面に出力する。

ナイーブベイズを使った分類器の作成

2で使用する教師あり文書分類器は、事前に学習しておく必要があります。教師データは、 https://gunosy.com/ の「エンタメ」、「スポーツ」、「おもしろ」、「国内」、「海外」、「コラム」、「IT・科学」、「グルメ」の記事を使用して下さい。
教師データの収集の際には、サイトに必要以上の負荷をかけないように、リクエストの際に適宜sleepを挟んでください。1秒が望ましいです。
学習の際は毎回データを収集するのではなく、収集した教師データをデータベースに保存して利用して学習に利用してください
教師データの収集、分類器の学習はDjangoのカスタムコマンドとして実行できるようにしてください
分類器は何らかの評価指標を用いて、評価をして下さい。

Step2: 分類器の精度向上

どんな方法でもいいので、なんらかの工夫をして精度を向上させる
ナイーブベイズでなくて、異なる手法を用いても良い。
その際に機械学習ライブラリを用いてもよい
Step1で作成した分類器と精度の比較ができるようにしておく

コード規約

PEP8に従っていること
- travis-ciなどを用いて自動でPEP8のチェックを行えるようにしてください
docstringが書かれていること
変数名、関数名が明確であること
マジックナンバーが使われていないこと
- 定数はenumを使って分離することを推奨します
使ったライブラリはrequirements.txtとして記載してください
- setup.pyでも可
不要なファイルは.gitignoreにかかれており、コミットされていない
READMEが書かれている
- 環境構築の方法
- 動作させるための方法
- 作った分類器の精度

成果物

ソースコード（GitHubに上げる）
GitHubはプライベートレポジトリで作成する　　　　- privateリポジトリの利用、及びprivateリポジトリに対するtravis-ciの利用はgithub　student packに登録すれば無料です　　　　- こちらを参照してください: https://education.github.com/pack
精度向上のために、行った工夫と実際の精度についてREADMEに記載してください

期間

5月1日(火)

評価基準

Git、Githubの基本的な使い方を理解している。
Pythonの基本的な実装ができる。
Webアプリケーションフレームワークの仕組みを理解している。
教師あり文書分類器の仕組みを理解している。
教師データとテストデータを分離して、精度を検証しなければならないことを理解している。
精度向上のために、試行錯誤ができている

HiromuMasuda commented 6 years ago

進め方

[x] vectorizer.fit_transform(train_X)のロジックをスクラッチで作る
[x] clf.fit(train_X, train_y)のロジックをスクラッチで作る
[x] コード規約・ルールにしたがってリファクタリングする
[x] viewを整える
[x] travis-ciなどを用いて自動でPEP8のチェックを行えるように
[x] 分類器の精度を向上させる・それぞれのアルゴリズムを学習する（Step2）
[x] README.md/docstringを書く

HiromuMasuda commented 6 years ago

改善点

[x] コンテンツが空の記事がある＆タイトルはカテゴリを示す単語が多そうだから、title + contentをdocとして扱う
[x] 「どのカテゴリをどのカテゴリと間違える傾向にあるか」「実際間違えた記事はどうして間違えられたか」を細かく見てみる
[x] 教師データの最適件数を調べて見る（データ数・処理時間・正解率）
[x] 分類モデルをそれぞれグリッドサーチしてハイパーパラメータをチューニングする
[x] 使う品詞を「名詞」と「動詞」だけにする

HiromuMasuda commented 6 years ago

django

Python

init.pyの役割について

Tf-Idf

大量データの計算

ナイーブベイズ

pep8/docstring

その他

https://dev.classmethod.jp/series/cm-machine-learning-advent-calendar-2017/

HiromuMasuda commented 6 years ago

N: 80
train_X: 64 test_X: 16
time: 0m16s
time: 0m3s
my_naive_bayes: 0.3125
naive_bayes: 0.625
sgd: 0.6875
k-neighbors: 0.25
logistic-reg: 0.625
liner-svg: 0.5625
random_forest: 0.3125
decision_tree: 0.25

N: 160
train_X: 128 test_X: 32
time: 0m33s
time: 0m8s
my_naive_bayes: 0.75
naive_bayes: 0.84375
sgd: 0.625
k-neighbors: 0.0625
logistic-reg: 0.8125
liner-svg: 0.78125
random_forest: 0.4375
decision_tree: 0.625

N: 480
train_X: 384 test_X: 96
time: 2m19s
time: 0m23s
my_naive_bayes: 0.6979166666666666
naive_bayes: 0.8333333333333334
sgd: 0.8229166666666666
k-neighbors: 0.15625
logistic-reg: 0.8541666666666666
liner-svg: 0.8020833333333334
random_forest: 0.625
decision_tree: 0.5520833333333334

N: 800
train_X: 640 test_X: 160
time: 4m4s
time: 0m36s
my_naive_bayes: 0.73125
naive_bayes: 0.81875
sgd: 0.775
k-neighbors: 0.16875
logistic-reg: 0.85625
liner-svg: 0.85
random_forest: 0.65
decision_tree: 0.5375

N: 1600
train_X: 1280 test_X: 320
time: 9m56s
time: 1m15s
my_naive_bayes: 0.709375
naive_bayes: 0.81875
sgd: 0.8
k-neighbors: 0.278125
logistic-reg: 0.840625
liner-svg: 0.81875
random_forest: 0.740625
decision_tree: 0.63125

N: 3200
train_X: 2560 test_X: 640
time: 24m11s
time: 2m35s
my_naive_bayes: 0.8203125
naive_bayes: 0.8890625
sgd: 0.8703125
k-neighbors: 0.2828125
logistic-reg: 0.9046875
liner-svg: 0.9015625
random_forest: 0.7828125
decision_tree: 0.7140625

N: 6400
train_X: 5120 test_X: 1280
time: 58m58s
time: 5m27s
my_naive_bayes: 0.825
naive_bayes: 0.89375
sgd: 0.9015625
k-neighbors: 0.428125
logistic-reg: 0.9359375
liner-svm: 0.92578125
random_forest: 0.8421875
decision_tree: 0.775

HiromuMasuda / category_classifier

課題について #2

課題

具体的な要件

環境

Step1: ウェブアプリの具体的な処理について

ウェブアプリの機能

ナイーブベイズを使った分類器の作成

Step2: 分類器の精度向上

コード規約

成果物

期間

評価基準

精度向上のために、試行錯誤ができている

進め方

改善点

django

Python

Tf-Idf

大量データの計算

ナイーブベイズ

pep8/docstring

その他