关于数据集测评 - Githubissues

kongbia commented 4 years ago

您好，我现在做一些改进分别在VOT2018和GOT-10k上测试，然后有些改进对其中一个数据集有增长但是另一个数据集会掉点，请问应该以哪个为标准，还有好像在GOT-10k的val和test上好像差异也挺大的，我试了一些方法在val上涨点但是在test上掉点，反过来的情况也出现过

JudasDie commented 4 years ago

font{
    line-height: 1.6;
}
ul,ol{
    padding-left: 20px;
    list-style-position: inside;
}

    建议以VOT2020和GOT10K为准。VOT2020说明了之前VOT测试方法的缺陷，即restart会导致不公平对比，你可以看下VOT2020数据集新的评测方法文档。GOT10K因为测试集没有给label，所以更方便测试泛化能力。GOT10K的话你可以在VAL上调一下参数，然后再测试集验证泛化能力。

    font{
        line-height: 1.6;
    }

--From: Zhang Zhipeng Institution: National Laboratory of Pattern Recognition Address: 95 Zhongguancun East Road, 100190, BEIJING, CHINA Email: zhangzhipeng2017@ia.ac.cn  Best Wishes

在2020年9月18日 10:07，kongbia<notifications@github.com> 写道：

您好，我现在做一些改进分别在VOT2018和GOT-10k上测试，然后有些改进对其中一个数据集有增长但是另一个数据集会掉点，请问应该以哪个为标准，还有好像在GOT-10k的val和test上好像差异也挺大的，我试了一些方法在val上涨点但是在test上掉点，反过来的情况也出现过

—You are receiving this because you are subscribed to this thread.Reply to this email directly, view it on GitHub, or unsubscribe.

kongbia commented 4 years ago

感谢回复，我去看一下VOT2020的测评，got-10k我碰到的问题是我做的一些改进调参后在val上提升很明显，但是放在test上效果反而掉了一些，有些反过来在test上涨点的但是在val上又会掉了，您在实验中会有这种情况吗

JudasDie commented 4 years ago

font{
    line-height: 1.6;
}
ul,ol{
    padding-left: 20px;
    list-style-position: inside;
}

    会有，毕竟val和test里面object的类别是没有重合的。建议你两次对比时候，都在val把参数调好然后测test对比，两个模型用同一组参数可能没法对比出来。

    font{
        line-height: 1.6;
    }

--From: Zhang Zhipeng Institution: National Laboratory of Pattern Recognition Address: 95 Zhongguancun East Road, 100190, BEIJING, CHINA Email: zhangzhipeng2017@ia.ac.cn  Best Wishes

在2020年9月18日 10:20，kongbia<notifications@github.com> 写道：

感谢回复，我去看一下VOT2020的测评，got-10k我碰到的问题是我做的一些改进调参后在val上提升很明显，但是放在test上效果反而掉了一些，有些反过来在test上涨点的但是在val上又会掉了，您在实验中会有这种情况吗

—You are receiving this because you commented.Reply to this email directly, view it on GitHub, or unsubscribe.

kongbia commented 4 years ago

嗯嗯，我对比的时候都分别在val上调好参数了，还是会有差异，之前确实没考虑到val和test的类别差异，所以最后还是应该以test来验证模型的有效性。感谢您的耐心解答！

researchmm / TracKit

关于数据集测评 #29