対象とするデータの誤差について

yaneura-no-gomi commented 4 years ago

何度も申し訳ありません

現在、再現実装とみなさんが公開してくださったプログラムでの追試を行っているのですが対象とするデータについて確認してほしいことがあったのでご連絡しました

1. `UltraEleven`の`id = 000778cf`のセリフが対象とするデータに含まれている

このセリフはComic-Speaker-Datasetだと以下のようにアノテーションされている

title,index,text_id,character_id,annotator
UltraEleven,60,000778cf,00076b09,010
UltraEleven,60,000778cf,00076b09,039
UltraEleven,60,000778cf,00076b2c,010
UltraEleven,60,000778cf,00076b2c,039

どっちのキャラクターも名前のあるキャラクター(otherとかではない) よって話者が2人いるとラベル付けされているため、対象データから外すべきデータなのでは？

2. `TapkunNoTanteisitsu`の`id = 0006996d`が対象とするデータに含まれていない

このセリフはComic-Speaker-Datasetだと以下のようにアノテーションされている

title,index,text_id,character_id,annotator
TapkunNoTanteisitsu,101,0006996d,00068de5,047
TapkunNoTanteisitsu,101,0006996d,00068de5,035

ラベル付されたキャラクターは名前のあるキャラクター(otherとかではない)ので、対象データに入れるべきデータなのでは？

以上2点が質問ですよろしくお願いいたします

abekzk commented 4 years ago

共有ありがとうございます！

推定に使用したデータセットの方か，公開しているデータセット（Comic-Speaker-Dataset）の方のどちらかのミスですね🤔

こちらでも確認しますので，また分かり次第連絡しますね〜

abekzk commented 4 years ago

@yaneura-no-gomi

上記2点，確認しました！

① `id = 000778cf`は対象とするデータに含む

character_id=00076b09およびcharacter_id=00076b2cの2名のキャラクター名はこちらで確認したところ，

...
<character id="00076b09" name="other"/>
...
<character id="00076b2c" name="横島透"/>

（Manga109自体が更新されていると異なる可能性もありますね...）

となっているため，片方のキャラクター名がotherとして省かれた結果，話者が1名として対象のデータに含めています．しかし，今回は「その他」を除外した上で推定用のデータセットを作成しましたが，上記のように「その他」＋「対象キャラクタ」の2名以上が発話者であるデータも対象となってしまい，本来の目的とは異なるセリフが推定に使われていますね😓

このあたり，以前メールで頂いた2名のアノテーションの部分一致・完全一致なども含めて再度検討してみようと思います🙇‍♂️

② `id = 0006996d`は対象とするデータに含む

こちらはご指摘のとおり，対象とするデータに含むべきものとなります．

データ収集時のアノテーション登録時にindex番号が100で登録され，text_idは同じものの全く別のデータとして扱ってしまったことが原因となります．（約30万に対してこの1件のみのエラーです）

公開用データセットは整形時に正しい情報を改めて付与しているため，index=101が正しい情報であり，対象のデータとなります．推定用のデータセット（本リポジトリでアップしているデータ）も修正しました．

未発見のミスであったため，大変助かりました！ありがとうございます！

yaneura-no-gomi commented 4 years ago

連絡が遅くなり申し訳ありません対応ありがとうございました！ ①については私の確認ミスで、おっしゃる通りid=00076b09のキャラクターはotherとなっていました申し訳ないです

変更後のデータも確認しましたありがとうございました！

abekzk commented 4 years ago

また何かありましたら連絡してください！こちらクローズしますね〜

nkmr-lab / comic-speaker-recognitions