nkmr-lab / comic-speaker-recognitions

0 stars 0 forks source link

対象とするデータの誤差について #7

Closed yaneura-no-gomi closed 4 years ago

yaneura-no-gomi commented 4 years ago

何度も申し訳ありません

現在、再現実装とみなさんが公開してくださったプログラムでの追試を行っているのですが 対象とするデータについて確認してほしいことがあったのでご連絡しました

1. UltraElevenid = 000778cfのセリフが対象とするデータに含まれている

このセリフはComic-Speaker-Datasetだと以下のようにアノテーションされている

title,index,text_id,character_id,annotator
UltraEleven,60,000778cf,00076b09,010
UltraEleven,60,000778cf,00076b09,039
UltraEleven,60,000778cf,00076b2c,010
UltraEleven,60,000778cf,00076b2c,039

どっちのキャラクターも名前のあるキャラクター(otherとかではない) よって話者が2人いるとラベル付けされているため、対象データから外すべきデータなのでは?

2. TapkunNoTanteisitsuid = 0006996dが対象とするデータに含まれていない

このセリフはComic-Speaker-Datasetだと以下のようにアノテーションされている

title,index,text_id,character_id,annotator
TapkunNoTanteisitsu,101,0006996d,00068de5,047
TapkunNoTanteisitsu,101,0006996d,00068de5,035

ラベル付されたキャラクターは名前のあるキャラクター(otherとかではない)ので、対象データに入れるべきデータなのでは?

以上2点が質問です よろしくお願いいたします

abekzk commented 4 years ago

共有ありがとうございます!

推定に使用したデータセットの方か,公開しているデータセット(Comic-Speaker-Dataset)の方のどちらかのミスですね🤔

こちらでも確認しますので,また分かり次第連絡しますね〜

abekzk commented 4 years ago

@yaneura-no-gomi

上記2点,確認しました!

id = 000778cfは対象とするデータに含む

character_id=00076b09およびcharacter_id=00076b2cの2名のキャラクター名はこちらで確認したところ,

...
<character id="00076b09" name="other"/>
...
<character id="00076b2c" name="横島透"/>

(Manga109自体が更新されていると異なる可能性もありますね...)

となっているため,片方のキャラクター名がotherとして省かれた結果,話者が1名として対象のデータに含めています. しかし,今回は「その他」を除外した上で推定用のデータセットを作成しましたが,上記のように「その他」+「対象キャラクタ」の2名以上が発話者であるデータも対象となってしまい,本来の目的とは異なるセリフが推定に使われていますね😓

このあたり,以前メールで頂いた2名のアノテーションの部分一致・完全一致なども含めて再度検討してみようと思います🙇‍♂️

id = 0006996dは対象とするデータに含む

こちらはご指摘のとおり,対象とするデータに含むべきものとなります.

データ収集時のアノテーション登録時にindex番号が100で登録され,text_idは同じものの全く別のデータとして扱ってしまったことが原因となります.(約30万に対してこの1件のみのエラーです)

公開用データセットは整形時に正しい情報を改めて付与しているため,index=101が正しい情報であり,対象のデータとなります. 推定用のデータセット(本リポジトリでアップしているデータ)も修正しました.

未発見のミスであったため,大変助かりました!ありがとうございます!

yaneura-no-gomi commented 4 years ago

連絡が遅くなり申し訳ありません 対応ありがとうございました! ①については私の確認ミスで、おっしゃる通りid=00076b09のキャラクターはotherとなっていました 申し訳ないです

変更後のデータも確認しました ありがとうございました!

abekzk commented 4 years ago

また何かありましたら連絡してください! こちらクローズしますね〜