主动学习(Active learning)

rainit2006 commented 5 years ago

主要想解决深度学习应用中的一个重要问题：如何使用尽可能少的标注数据集训练一个模型，这个模型的性能可以达到一个由大量的标注数据集按照普通方法（随机选择训练数据）训练得到的模型的性能。

标注数据是一个很棘手的问题，特别是在生物医疗领域：1）需要具有相关专业知识的医生；2）成本很高；3）周期较长。

假如业务需求中，遇到一些场景需要人工标注数据。一般情况下，我们不知道需要多少标注数据才能得到预期的效果，所以希望获得尽可能多的标注样本。但实际上，如下图所示，模型的性能并不是随着标注数据量的增多而无线上升的，模型的性能会有对应的瓶颈，而我们关注的正是如何使用尽可能少的标注数据去达到这个瓶颈。

因此，业务方可以先挑选一定量的数据进行标注，然后训练看看效果如何；性能不能达到预期效果的话，再增加标注样本，直到模型达到预测的效果。这个思路其实跟上述介绍的主动学习算法流程略相似，但却有实质上的区别。 1）一般情况下，业务方挑选样本的准则是随机挑选（相当于 random select），更理想一点的就是挑选一些人为觉得比较复杂的样本； 2）active learning 能够通过一些选择策略挑选出当前模型认为最难区分的样本给相关领域的专家进行标注；

rainit2006 commented 5 years ago

rainit2006 / Artificial-Intelligence

主动学习(Active learning) #18