A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System. SIGDIAL 2018
Tianyu Zhao and Tatsuya Kawahara
http://aclweb.org/anthology/I17-1071
Joinet Learningは,複数の関連するタスクを並行して行う学習である.例えばNERでPOSタギングを同時で解いたいりするモデルがある.Collobert and Weston (2008)によると,カスケード,シャロー,ディープ,と3種のJoint Learningがあるとのこと.本紙では,カスケードモデル,Joint coding model, joint training modelを呼ぶことにする.
Joint Coding
1つのモデルで同時に2つのタスクを解く(セグメンテーションとDA推定).そのために2つのタスクを結合したタグ(Joint tag coding)を作り出し,それを推定するようにモデルを鍛えた.
文はembedされ,BiLSTMに流される.各シーケンスの出力hはconcatされ,MLPで文ベクトルuに変換される.Tag Inferenceでは,タグのtransition score matrix(A),及び,ビタビアルゴリズムを用いてシーケンスを推測する.タグによっては,考えにくい遷移もあるためpenalizeする.// このスコア行列をどう設定したかはよくわからない.ヒューリスティック?
Cascading Model and Joint Trainign model
Cascading Modelでは下図はバラバラに学習されるのに対して,Joint Trainingに関しては,単語のembeddingコンポーネントは共有し,セグメンテーションとDA推測を枝分かれさせて学習している.
実験
セグメンテーションタスク,レコグニションタスク,ジョイントタスクの3つを行った.
データは日本語雑談android ERICA(Glas et al., 2016; Inoue et al., 2016)を利用.DAは4つのみ(Question, Statement, Response and Other).他の統計情報は下記.// かなり小さいコーパス?
評価メトリクスはe DA Segmentation Error Rate (DSER) in (Zimmermann et al.,2005)を利用.セグメンテーションの終始のいずれかが間違えている率を表す.そしてジョイントタスクに対しては,(DA Error Rate) DERを採用.これはDSERにDAタイプの精度も追加した尺度.これはセグメンテーションとDA推定の両方があっていないといけない.またbase modelsとして2つのCRFを用意.
A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System. SIGDIAL 2018 Tianyu Zhao and Tatsuya Kawahara http://aclweb.org/anthology/I17-1071
概要
対話行動(Dialog Act, DA)のセグメンテーションと認識を同時に行うジョイントモデルの初の提案.提案モデルは1.DA認識のためにコンテキスト情報を取り扱うことができ,2. DAのセグメンテーション及びそのセグメントにおけるDAを同時に認識する.ただ2タスクを扱うモデルをパイプラインでつなげるのではなく,この2タスクは互いに関係しているということを利用する.
下記はIEタグで表される(Iはinside,Eはendの意味)
階層NN
1文は各単語毎のembeddingをBiLSTMに流し,その出力のMax poolingを取ることで分ベクトルsを得る.これを履歴に対して行い文ベクトルのシーケンスを得る.そのシーケンスもBiLSTMに流し,その結果をMLPにかませることで,最終的なラベルyを得る
Joint Learning
Joinet Learningは,複数の関連するタスクを並行して行う学習である.例えばNERでPOSタギングを同時で解いたいりするモデルがある.Collobert and Weston (2008)によると,カスケード,シャロー,ディープ,と3種のJoint Learningがあるとのこと.本紙では,カスケードモデル,Joint coding model, joint training modelを呼ぶことにする.
Joint Coding 1つのモデルで同時に2つのタスクを解く(セグメンテーションとDA推定).そのために2つのタスクを結合したタグ(Joint tag coding)を作り出し,それを推定するようにモデルを鍛えた. 文はembedされ,BiLSTMに流される.各シーケンスの出力hはconcatされ,MLPで文ベクトルuに変換される.Tag Inferenceでは,タグのtransition score matrix(A),及び,ビタビアルゴリズムを用いてシーケンスを推測する.タグによっては,考えにくい遷移もあるためpenalizeする.// このスコア行列をどう設定したかはよくわからない.ヒューリスティック?
Cascading Model and Joint Trainign model Cascading Modelでは下図はバラバラに学習されるのに対して,Joint Trainingに関しては,単語のembeddingコンポーネントは共有し,セグメンテーションとDA推測を枝分かれさせて学習している.
実験
セグメンテーションタスク,レコグニションタスク,ジョイントタスクの3つを行った. データは日本語雑談android ERICA(Glas et al., 2016; Inoue et al., 2016)を利用.DAは4つのみ(Question, Statement, Response and Other).他の統計情報は下記.// かなり小さいコーパス?
評価メトリクスはe DA Segmentation Error Rate (DSER) in (Zimmermann et al.,2005)を利用.セグメンテーションの終始のいずれかが間違えている率を表す.そしてジョイントタスクに対しては,(DA Error Rate) DERを採用.これはDSERにDAタイプの精度も追加した尺度.これはセグメンテーションとDA推定の両方があっていないといけない.またbase modelsとして2つのCRFを用意.
ジョイントタスクの結果は下記.joint trainingが一番良い結果となっている.
コメント