Signateによる職種分類コンペのプロジェクト
mkdir dataset
mkdir result
pip install -r requirements.txt
コンペサイトのデータから,trainとtestデータをダウンロードする.
このサイト から 各csvダウンロード
./dataset/
下に保存
result/[日付][実行時刻]/
下に実行結果とログが出力されます.
python main.py
python config.py # parameters.jsonというファイルが出力される.
python -p parameters.json main.py
python main.py -h
python preprocess.py
python gen_finetune.py -p parameters.json
train_generated.csv
が作成される
python gen_finetune.py -p parameters.json -l ./result/[date]/gen_model
nohup python train_BERT.py & # BERT系
nohup python train_RoBERTa.py & # RoBERTa系
nohup python train_BERT.py -p parameters.json > log_gen &
学習済みのモデルを用いて予測を実行
nohup python.py inference.py --load_model result/{結果ディレクトリ名}
指定できるパラメータは以下の通り.
{
}
## Directory Structure
- プロジェクトの構成は以下の通り.
```shell
.
├── dataset # データセット
│ ├── train.csv
│ ├── test.csv
│ └── submit_sample.csv
├── config.py # パラメータ定義
├── parameters.json # パラメータ指定用ファイル
├── requirements.txt # パッケージ情報
├── result # 結果出力ディレクトリ
│ └── 20211026_165841
├── gen_finetune # 生成モデル
├── preprocess.py # 前処理
├── model_BERT.py # BERTモデル
├── train_BERT.py # BERT学習(実行ファイル)
├── inference.py # 推論
└── utils.py # 共有関数群