Closed yaneura-no-gomi closed 4 years ago
共有ありがとうございます!
推定に使用したデータセットの方か,公開しているデータセット(Comic-Speaker-Dataset)の方のどちらかのミスですね🤔
こちらでも確認しますので,また分かり次第連絡しますね〜
@yaneura-no-gomi
上記2点,確認しました!
id = 000778cf
は対象とするデータに含むcharacter_id=00076b09
およびcharacter_id=00076b2c
の2名のキャラクター名はこちらで確認したところ,
...
<character id="00076b09" name="other"/>
...
<character id="00076b2c" name="横島透"/>
(Manga109自体が更新されていると異なる可能性もありますね...)
となっているため,片方のキャラクター名がother
として省かれた結果,話者が1名として対象のデータに含めています.
しかし,今回は「その他」を除外した上で推定用のデータセットを作成しましたが,上記のように「その他」+「対象キャラクタ」の2名以上が発話者であるデータも対象となってしまい,本来の目的とは異なるセリフが推定に使われていますね😓
このあたり,以前メールで頂いた2名のアノテーションの部分一致・完全一致なども含めて再度検討してみようと思います🙇♂️
id = 0006996d
は対象とするデータに含むこちらはご指摘のとおり,対象とするデータに含むべきものとなります.
データ収集時のアノテーション登録時にindex番号が100で登録され,text_idは同じものの全く別のデータとして扱ってしまったことが原因となります.(約30万に対してこの1件のみのエラーです)
公開用データセットは整形時に正しい情報を改めて付与しているため,index=101が正しい情報であり,対象のデータとなります. 推定用のデータセット(本リポジトリでアップしているデータ)も修正しました.
未発見のミスであったため,大変助かりました!ありがとうございます!
連絡が遅くなり申し訳ありません 対応ありがとうございました! ①については私の確認ミスで、おっしゃる通りid=00076b09のキャラクターはotherとなっていました 申し訳ないです
変更後のデータも確認しました ありがとうございました!
また何かありましたら連絡してください! こちらクローズしますね〜
何度も申し訳ありません
現在、再現実装とみなさんが公開してくださったプログラムでの追試を行っているのですが 対象とするデータについて確認してほしいことがあったのでご連絡しました
1.
UltraEleven
のid = 000778cf
のセリフが対象とするデータに含まれているこのセリフはComic-Speaker-Datasetだと以下のようにアノテーションされている
どっちのキャラクターも名前のあるキャラクター(otherとかではない) よって話者が2人いるとラベル付けされているため、対象データから外すべきデータなのでは?
2.
TapkunNoTanteisitsu
のid = 0006996d
が対象とするデータに含まれていないこのセリフはComic-Speaker-Datasetだと以下のようにアノテーションされている
ラベル付されたキャラクターは名前のあるキャラクター(otherとかではない)ので、対象データに入れるべきデータなのでは?
以上2点が質問です よろしくお願いいたします