signate_stu22

検討事項

cv
stemming or lemmatisation
Focal loss(Use Focal Loss To Train Model Using Imbalanced Dataset)
preprocessing
postprocessing
ensamble
stacking

参考

2020:Kaggle のデータ分析コンペ Tweet Sentiment Extraction で『5位 / 2,227チーム』を獲得しました :)

Kaggle ではよく magic と表現をされますが、『何かに気付く』ことで飛躍的にスコアを伸ばせることがしばしばあります
アンサンブル学習の代表的な手法には以下のようなものがあります。
- averaging：各モデルの出力の重み付き（または単純）平均をとり、その値を予測値とする。
- stacking：各モデルの出力を入力とするモデルを作成し、そのモデルの出力値を予測値とする。

Toxic Comment Classification Challenge: 1st place solution overview

Diverse pre-trained embeddings
Translations as train/test-time augmentation (val-dataのleakに注意)
Rough-bore pseudo-labelling (テストデータに擬似ラベルを付与して学習)
Others:　事前学習された埋め込みがモデルの複雑さのほとんどを占めるため些細なアーキテクチャの変更はほとんど効果なし

2021年のKaggle NLPコンペソリューションの共通戦略から学ぶ

事前学習モデルの上にアーキテクチャ的な変更を加えてもスコアが改善されづらいことが経験的に知られている[要出典]。

画像コンペとは違い入力が離散値なので、data augmentation での工夫が難しい。

事前学習モデルを使うため、前処理でテキストのクレンジング・クリーニングなどの効果があまり期待できない。

データ数が少ない場合は学習が不安定になりがちで、本質的な改善を確認しづらい。

HuggingFace Transformers 4.6 : 上級ガイド : 事前訓練モデル
HuggingFace Transformers公式ドキュメントの一部を説明付きで日本語訳

https://huggingface.co/transformers/v3.0.2/model_doc/bert.html

検討事項

cv
stemming or lemmatisation
Focal loss(Use Focal Loss To Train Model Using Imbalanced Dataset)
preprocessing
postprocessing
ensamble
stacking

TODO:

pretrainedの調査
- hugging face(https://huggingface.co/models)
- transformers Docs » Pretrained modelsView Pretrained models

反省

transformersに慣れるのに時間がかかった．公式ドキュメントをもっと早い段階で読むべきだった．評価指標をaccuracyだと勘違いしていた．不均衡データなので気づけた．

ludfgame / signate_stu22

readme

signate_stu22

検討事項

参考

検討事項

TODO:

反省