2018: A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System

A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System. SIGDIAL 2018 Tianyu Zhao and Tatsuya Kawahara http://aclweb.org/anthology/I17-1071

概要

対話行動（Dialog Act, DA）のセグメンテーションと認識を同時に行うジョイントモデルの初の提案．提案モデルは1．DA認識のためにコンテキスト情報を取り扱うことができ，2. DAのセグメンテーション及びそのセグメントにおけるDAを同時に認識する．ただ2タスクを扱うモデルをパイプラインでつなげるのではなく，この2タスクは互いに関係しているということを利用する．

下記はIEタグで表される（Iはinside，Eはendの意味）

階層NN

１文は各単語毎のembeddingをBiLSTMに流し，その出力のMax poolingを取ることで分ベクトルsを得る．これを履歴に対して行い文ベクトルのシーケンスを得る．そのシーケンスもBiLSTMに流し，その結果をMLPにかませることで，最終的なラベルyを得る

Joint Learning

Joinet Learningは，複数の関連するタスクを並行して行う学習である．例えばNERでPOSタギングを同時で解いたいりするモデルがある．Collobert and Weston (2008)によると，カスケード，シャロー，ディープ，と３種のJoint Learningがあるとのこと．本紙では，カスケードモデル，Joint coding model, joint training modelを呼ぶことにする．

Joint Coding １つのモデルで同時に２つのタスクを解く（セグメンテーションとDA推定）．そのために２つのタスクを結合したタグ（Joint tag coding）を作り出し，それを推定するようにモデルを鍛えた．文はembedされ，BiLSTMに流される．各シーケンスの出力hはconcatされ，MLPで文ベクトルuに変換される．Tag Inferenceでは，タグのtransition score matrix（A），及び，ビタビアルゴリズムを用いてシーケンスを推測する．タグによっては，考えにくい遷移もあるためpenalizeする．// このスコア行列をどう設定したかはよくわからない．ヒューリスティック？
Cascading Model and Joint Trainign model Cascading Modelでは下図はバラバラに学習されるのに対して，Joint Trainingに関しては，単語のembeddingコンポーネントは共有し，セグメンテーションとDA推測を枝分かれさせて学習している．

実験

セグメンテーションタスク，レコグニションタスク，ジョイントタスクの３つを行った．データは日本語雑談android ERICA(Glas et al., 2016; Inoue et al., 2016)を利用．DAは４つのみ（Question, Statement, Response and Other)．他の統計情報は下記．// かなり小さいコーパス？

評価メトリクスはe DA Segmentation Error Rate (DSER) in (Zimmermann et al.,2005)を利用．セグメンテーションの終始のいずれかが間違えている率を表す．そしてジョイントタスクに対しては，(DA Error Rate) DERを採用．これはDSERにDAタイプの精度も追加した尺度．これはセグメンテーションとDA推定の両方があっていないといけない．またbase modelsとして２つのCRFを用意．

実験結果セグメンテーション結果に関してはCRFが最も良い結果になった．次にjoint trainingがランクイン．図４． DA認識に関しては，Joinct trainingがcascadingよりも，様々な履歴長に対してわずかに良い結果となった．図５．

ジョイントタスクの結果は下記．joint trainingが一番良い結果となっている．

Joint Learningについて参考になる（必ずしもJoinet Learningをしている研究がこのフレーズを使っているとは限らない）
２つのラベルのコンビラベルを学習するのは面白い（ただし今回のデータセットではたった４種類のDAしかないので，組み合わせ爆発を気にしなくて済んでいる）が，性能はかなり低い．joint labelに対して学習データの量が十分あったのかやや疑問．
履歴長10で性能が大きく上がっているが，履歴を10も必要とする対話があまり想像できない．
joint codingでは過去履歴の発話がなぜか使われていない（joint codingはpoorな結果になっている）

jojonki / arXivNotes

2018: A Unified Neural Architecture for Joint Dialog Act Segmentation and Recognition in Spoken Dialog System #105

概要

階層NN

Joint Learning

実験

コメント