浅谈小样本学习

机器学习 19 Views

浅谈小样本学习

        在这一次的人工智能浪潮中,深度学习无疑是一股中坚力量;在传统机器学习所涉足的许多领域,深度学习的应用往往对学习模型的性能带来了本质上的提升,例如语音识别、图像分类等任务。

        然而,相较于一系列经典的机器学习方法,深度学习需要大量的数据以满足深度网络中超大量的参数的训练,即使在大数据背景下的今天,想获取具有大量优质的、标识正确数据的数据集,仍是一个令人头疼的问题。并且,虽然神经网络是一种仿照生物学上大脑反应而构造的机器学习模型,但其实际应用中却与大脑的功能相去甚远,比如,一般情况下我们与某个人见面一次,便能够通过相貌辨认他的身份,但一个神经网络却难以通过对一到两张图片的学习,完成一个人脸识别的任务。

        小样本学习便是这样一类更贴近实际的问题,以分类问题为例,这一类问题中,需要预测的类别数往往是很多的(例如数以万计的人脸图库),而每个类别中的带有标签的样本往往又是很少的(每个人的脸部图片只有几张),两相结合使得这一类问题成为机器学习领域中较为复杂的问题,而尤其需要数据的深度学习似乎显得更加与此问题不搭。

        那传统的机器学习方法中,是怎样解决小样本问题的呢?以分类为例,直观来想这个问题,如果我要对一张照片是ABCD中哪个人进行判断,而我手中只有ABCD四人每人的一张照片,那对我来讲,一一比对这张照片和四张照片中哪个人最像就可以了。而在机器学习中,对应的方法便是聚类了,通过聚类,将相同类别和不同类别样本的特征区分成不同的簇,而对需要预测的样本,只需要计算其特征与这些簇之间距离的远近,即可预测样本所属类别。

        回到本文,是不是深度学习真的就无法在小样本学习中展露拳脚呢?

        恰恰相反,以上基于度量的方法,结合神经网络取得了好于传统方法的效果,孪生网络【1】和匹配网络【2】便是很好的例子,在这些模型框架中,(深度)神经网络作为优秀的特征提取工具被使用,在特征提取方面取得了优于传统人工定义的效果,进而带来了预测性能的提升。

        另一方面,李飞飞在其论文“One-Shot Learning of Object Categories”【3】中提出,利用贝叶斯方法,可以将之前训练好的分类模型用于新的分类任务,能够在小样本学习任务上取得很好的效果。

        而归根结底,小样本学习的难点在于模型可以用以学习的有标注样本太少,即训练数据不足的问题,基于Fine-tuning的迁移学习【4】便是解决此问题的方法之一,迁移学习分为源域(拥有充足的训练样本)和目标域(问题的背景域,用于训练的带标签的样本稀少),可以理解为利用源域上学习到的知识结合目标域少量的样本做微调,解决目标域上的预测问题,如果源域和目标域的样本分布相同,这只是一个简单的预测问题,而迁移学习则认为,即使两个域分布不同,利用源域上学习到的知识也能够在一定程度上帮助目标域问题的解决,相关研究人员往往将迁移学习所带来的模型性能的提升归功于预训练的模型将源域的样本“借”给了目标域,这是很形象的解释。从这方面来看,似乎迁移学习确实很适合于解决小样本问题。

        当我们回到小样本学习本身,数据是否是一切问题的症结所在呢?数据本身并不能帮助我们解决问题,而数据背后的统计学规律才能帮助我们进行预测,而这统计学规律在机器学习模型中则体现在特征的学习上,因而解决小样本问题的方向也很明确,要么我们需要得到足够多的足以刻画出预测目标的特征,要么我们找到那些最具有区分度的特征,能够有效地对我们的预测任务起到帮助。

      DeepID网络框架

        对于人脸识别这个经典的小样本学习问题,DeepID一系列论文【5】【6】【7】【8】就在特征的选取上下足了功夫,在“Deep Learning Face Representation from Predicting 10,000 Classes”这篇文章中,作者使用一个神经元个数沿网络深度逐层递减的神经网络进行模型的训练,将经过多层卷积后的得到的特征向量称为“DeepID”,而利用DeepID,文章中的模型在人脸10000分类上取得了优异的效果,显然在这篇文章中,少量而优质的特征以质量战胜了数量,DeepID被称为最为优秀的人脸识别算法。

        本文主要介绍了小样本学习及一系列解决小样本学习的算法,希望通过本文能够让读者对小样本学习有一个初步的认识,若感兴趣,可以通过本文所引用的一系列文章对这个领域进行更深入的了解和研究。本文作者也仍处于学习之中,观点的方法难免有错误之处,望批评指正。

作者:王帅

转载联系:jiaql@pku.edu.cn

参考文献:

【1】Chopra S, Hadsell R, Lecun Y. Learning a Similarity Metric Discriminatively, with Application to Face Verification[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2005:539-546.

【2】Vinyals O, Blundell C, Lillicrap T, et al. Matching Networks for One Shot Learning[J]. 2016.

【3】Fei-Fei L, Fergus R, Perona P. One-shot learning of object categories[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2006, 28(4):594-611.

【4】CS231n Convolutional Neural Networks for Visual Recognition

【5】Sun Y, Wang X, Tang X. Deep Learning Face Representation from Predicting 10,000 Classes[C]// Computer Vision and Pattern Recognition. IEEE, 2014:1891-1898.

【6】Sun Y, Wang X, Tang X. Deep Learning Face Representation by Joint Identification-Verification[J]. 2014, 27:1988-1996.

【7】Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust[J]. 2014:2892-2900.

【8】Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J]. Computer Science, 2015.

长按二维码

关注我们

如未说明则本站原创,转载请注明出处:NULL » 浅谈小样本学习