Closed kyakuno closed 7 months ago
bertsumのリポジトリ https://github.com/nlpyang/BertSum
BERTで固有表現を抽出した後、要約対象に含むかを2値分類する。
@kyakuno 学習済モデルがないようです。 改良後のhttps://github.com/nlpyang/PreSumm では別手法も追加された学習済みモデルが公開されています こちらに変更しますか?
@srpkdyy 検討、ありがとうございます。そうですね、MITのようなので、PreSummをお願いします。
Bertsumextの場合、Bert自体は既存のものをそのまま使うようです。
—- そしてBERTSUMExtはBERTを要約タスク用にファンチューニングすることなく、事前学習のみを行ったBERTを用いて要約タスクを行います。BERT自体は名前の通り、双方向のエンコーダーのみのアーキテクチャです。 BERTSUMExtではBERTの中間層の値からK-means法を用いてクラスタリングを行い、各クラスタのセントロイドに最も近い文章を要約の候補とするということを行います。 https://www.cyberowl.co.jp/blog/technology/1236#04nu18m1
bertsumはbertの中間層の後に要約層を入れていて、要約層を学習しているみたいですね。 https://medium.com/lsc-psd/bert初の文章要約-bertsum-b6945a41bfd 学習不要なbertsumextは別リポジトリかもしれません。
pipで入る bert-extractive-summarizer がbertsumextの実装みたいです。
最終的にやりたいことは、日本語の要約モデルのailia MODELSへの追加となります。
@srpkdyy ちなみに、presummは日本語の要約ってできますでしょうか。もし可能であれば、presummに限らず、日本語の要約モデルのサーベイと、ailiaで動くような再現実装をお願いできないかと考えています。
@kyakuno BERTの後につけるExt_layerが学習されているため、PreSummだと再学習が必要かもしれません。
日本語に対して日本語bertとbert-extractive-summarizerで要約できるか試す ailiaを使ってbert-extractive-summarizerと同様のライブラリを構築できないか実験する
とりあえずはこの方針で大丈夫でしょうか
検討、ありがとうございます。はい、その方針でお願いします
bertを使用した要約 https://tech.retrieva.jp/entry/2020/08/28/113000