stockmarkteam / bert-book

「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
MIT License
259 stars 80 forks source link

[第9章] 誤字訂正のやり方について #53

Open suchunxie opened 2 years ago

suchunxie commented 2 years ago

こんにちは。現在第九章のところは誤変換のエラータイプに対して、fine-tuningを介して修正できるようになっていると存じております。誤字、脱字の場合を対応できるようには、プログラムをどう修正すればよいのでしょうか。 それに関する資料を見つからずこちらで質問させていただきました。 恐縮ですが、ご教授いただければ幸いです。どうぞよろしくお願いいたします。

omitakahiro commented 2 years ago

ご質問ありがとうございます。本書では誤りのあるtokenを正しいtokenに変換するシンプルな方法のみを扱いましたが、一般の場合には、(Sequence Labelingの方法を用いようとすると)添付の論文のようにtokenの削除や追加などの様々なトークンに対する操作を導入し、tokenごとにどのような操作を行うかを予測するようなモデルを作成するようです。

https://aclanthology.org/2020.bea-1.16/