2020:Kaggle のデータ分析コンペ Tweet Sentiment Extraction で『5位 / 2,227チーム』を獲得しました :)
Toxic Comment Classification Challenge: 1st place solution overview
2021年のKaggle NLPコンペソリューションの共通戦略から学ぶ
- 事前学習モデルの上にアーキテクチャ的な変更を加えてもスコアが改善されづらいことが経験的に知られている[要出典]。
- 画像コンペとは違い入力が離散値なので、data augmentation での工夫が難しい。
- 事前学習モデルを使うため、前処理でテキストのクレンジング・クリーニングなどの効果があまり期待できない。
- データ数が少ない場合は学習が不安定になりがちで、本質的な改善を確認しづらい。
HuggingFace Transformers 4.6 : 上級ガイド : 事前訓練モデル
HuggingFace Transformers公式ドキュメントの一部を説明付きで日本語訳
https://huggingface.co/transformers/v3.0.2/model_doc/bert.html
transformersに慣れるのに時間がかかった.公式ドキュメントをもっと早い段階で読むべきだった. 評価指標をaccuracyだと勘違いしていた.不均衡データなので気づけた.