データ分析コンペ用ライブラリ.
pip install python-lilac
でインストールする
(まだpypiに登録してないのでできない)
lilac new
コマンドで初期設定をする.data
(またはresult/luigi
)におく.experiment.json
とconfig.yaml
の編集をした後、lilac-run
コマンドで実行する.
feature/luigi
直下にtrain.csv
とtest.csv
がある状態を作る必要がある。
もともとコンペのデータセットの形式が問題なければfeatures/luigi
直下におけばよく、相違がある場合はそのdata
にオリジナルを置いて変換するスクリプト等を自作してfeatures/luigi
直下に変換したデータセットを置くようにする.
settings.json`の中身を編集する.
settings.json
の各項目について簡単な説明:
features/generators
以下にlilac.features.features_base.FeaturesBase
を継承して自作する.
自作した特徴量を使うためにfeatures/__init__.py
に登録する.
lilac run キー (オプション)
キーはexperiment.json
のrun
のキーを指定する.
-t
をつけるとパラメータのチューニングは行う.デフォルトでは予測モデルのハイパーパラメータのみチューニング対象にする.
-fs
をつけると予測モデルに加えて特徴量選択時のfeature importanceを計算するモデルのハイパーパラメータもチューニングする.
-th
をつけると、特徴量選択時に使用する特徴量の割合のパラメータもチューニングするようになる.(付けない場合はimportance > 0の特徴量を使用する挙動になっている.)