Open namakemono opened 5 years ago
私のアプローチは、純粋に大規模なBertモデルの微調整と、微調整されたBertモデルの不安定性を利用するための大量のアンサンブルに基づいていました。私はいくつかのタスクで大規模なBertを微調整することから始めました、それらのほとんどは代名詞解決(swag、明確な代名詞、PreCoとWinoBiasの2つのフレーバー)についてです。これらのモデルはそれぞれGAPデータセットに何度も(10回以上)当てはめられます。その後、単純な平均化によって、タスクごとの検証損失による上位50%のモデルをまとめます。この時点で、私はテストの予測(アンサンブルの5種類設定されているswag.csv、アンサンブル WINOのbias.csv、アンサンブル preco.csvを...)。それらを合わせて、やはり単純平均化によって、最終的な予測セットにたどり着きます。
いくつかのトレーニング前のタスク(QA、分類など)が試行されましたが、ほとんどが結果を傷つけます。GAPを直接調整したBert large vanillaも、アンサンブルに追加すると全体的な結果に悪影響を及ぼします。Swagを除いて、直接的に関連した微調整タスクだけが良い結果をもたらしたようです。
一般に、微調整に最適なハイパーパラメータは、学習率= 1e-5、バッチサイズ= 32、ウォームアップ比率= 0.1、エポック= 2です。
アンサンブルがうまく機能した理由はモデルの不安定性にあると思います。シードが異なると0.33から0.40の評価損失が生じる可能性があるため、それらのモデルでは異なることが学習された可能性があります。Ensemblingはステージ1テストの損失を0.33から.296にしました。
conll2012データセットを取得する際に問題が発生しましたが、共参照タスクは他のタスクセットとうまく組み合わされると思います。
概要
私のアプローチは、純粋に大規模なBertモデルの微調整と、微調整されたBertモデルの不安定性を利用するための大量のアンサンブルに基づいていました。私はいくつかのタスクで大規模なBertを微調整することから始めました、それらのほとんどは代名詞解決(swag、明確な代名詞、PreCoとWinoBiasの2つのフレーバー)についてです。これらのモデルはそれぞれGAPデータセットに何度も(10回以上)当てはめられます。その後、単純な平均化によって、タスクごとの検証損失による上位50%のモデルをまとめます。この時点で、私はテストの予測(アンサンブルの5種類設定されているswag.csv、アンサンブル WINOのbias.csv、アンサンブル preco.csvを...)。それらを合わせて、やはり単純平均化によって、最終的な予測セットにたどり着きます。
いくつかのトレーニング前のタスク(QA、分類など)が試行されましたが、ほとんどが結果を傷つけます。GAPを直接調整したBert large vanillaも、アンサンブルに追加すると全体的な結果に悪影響を及ぼします。Swagを除いて、直接的に関連した微調整タスクだけが良い結果をもたらしたようです。
一般に、微調整に最適なハイパーパラメータは、学習率= 1e-5、バッチサイズ= 32、ウォームアップ比率= 0.1、エポック= 2です。
アンサンブルがうまく機能した理由はモデルの不安定性にあると思います。シードが異なると0.33から0.40の評価損失が生じる可能性があるため、それらのモデルでは異なることが学習された可能性があります。Ensemblingはステージ1テストの損失を0.33から.296にしました。
conll2012データセットを取得する際に問題が発生しましたが、共参照タスクは他のタスクセットとうまく組み合わされると思います。