habroptilus / lilac

0 stars 0 forks source link

Lilac

データ分析コンペ用ライブラリ.

Install

pip install python-lilacでインストールする

(まだpypiに登録してないのでできない)

SetUp

  1. lilac newコマンドで初期設定をする.
  2. ダウンロードしたデータを1で作成したdata(またはresult/luigi)におく.

Run

をした後、lilac-runコマンドで実行する.

データセット用意

feature/luigi直下にtrain.csvtest.csvがある状態を作る必要がある。

もともとコンペのデータセットの形式が問題なければfeatures/luigi直下におけばよく、相違がある場合はそのdataにオリジナルを置いて変換するスクリプト等を自作してfeatures/luigi直下に変換したデータセットを置くようにする.

設定ファイルの編集

settings.json`の中身を編集する.

settings.jsonの各項目について簡単な説明:

自作特徴量の作成

features/generators以下にlilac.features.features_base.FeaturesBaseを継承して自作する.

自作した特徴量を使うためにfeatures/__init__.pyに登録する.

実行

lilac run キー (オプション)

キーはexperiment.jsonrunのキーを指定する.

-tをつけるとパラメータのチューニングは行う.デフォルトでは予測モデルのハイパーパラメータのみチューニング対象にする. -fsをつけると予測モデルに加えて特徴量選択時のfeature importanceを計算するモデルのハイパーパラメータもチューニングする. -thをつけると、特徴量選択時に使用する特徴量の割合のパラメータもチューニングするようになる.(付けない場合はimportance > 0の特徴量を使用する挙動になっている.)

lilac