首页 今日头条正文

何浩文,10亿级数据规划半监督图画分类模型,Imagenet测验精度高达81.2%,音标

译者 | linstancy作者| I. Zeki Yan窦兴文lniz, Herve Jegou, Kan Chen, Manohar Paluri, Dhruv Mahajan修改 | 蓝色琥珀鱼,Rachel出品 | AI科技大本营(ID:rgznai100)

【导读】本文提出了一种十亿级数据规划的半监督图画分类模型,经过运用教师-学生架构以及一个小规划的带标签数据集,作者提出了一个根据卷积神经网络的半监督学习办法。别的,作者对模型的不同架构和模型参数进行了融化试验,并提出了一些构建半监督学习模型的主张。

摘要

本文根据教师-学生架构(teacher-student schema),运用大规划无标签图画数据集 (多达十亿张),提出了一种根据大规划卷积神经网络的半监督学习办法,旨在改善给定方针模型架构的功能,如 ResNet-50 或 ResNext。随后,作者经过很多的评价剖析了本文所提出办法的成功要素,提出了一些用于构建高功能半监督图画分类学习模型的主张。总的来说,本文的办法在构建图画、视频及细粒度分类的规范模型架构方面有着重要的含义,如运用一个含bydfo最新报价十亿张未符号的图画数据集练习得到的 vanilla ResNet-50 模型,在 Imagenet 数据集的基准检验中取得了 81.2% 的 top-1 精度。

简介

当时,运用网络弱监督数据集,图画和视频分类技能在比如图画分类、细粒度辨认等问题上取得了十分好的体现。可是,弱监督学习的标郭伯权职务有变签存在一些缺点。首要,非视觉性标签、缺失标签和不相关标签会导致噪声,这将对模型的练习形成很大影响。第二,弱监督的网络数据集一般遵从齐普夫规律,存在很多长尾(long-tail)标签,这使得模型只会对那些最明显的标签有杰出的功能。最终,这些弱监督办法假定其可用于方针使命所运用的大型弱监督数据集,然而在许多现实情况中并非如此。

针对这些问题,本文运用数十亿张未标全才儿子邪佞妃记的图画以及一个针对特定使命的相对较小的标签数据集,提出了一个用于网络规划数据的半监督深度学习模型,如图1所示:

(1)在标签数据集上练习以取得初始的教师模型 (teacher model); (2) 关于每个 class/label 对,运用该教师模型来对未符号的图画打标签并进行打分,挑选每一标签类别的 top-K 个图画来构建新的练习数据; (3)运用新构建的数据来练习学生模型 (student model)。一般来说,学生模型与教师模型存在必定的差异,因而在检验时可以下降模型的复杂性; (4) 在初始的标签数据集上,对预练习的学生模型进行微调(fine-tuning) ,以防止一些或许存在的标签过错。

图1 半监督学习办法阐明:经过一个优异的教师模型,从一个十分大型的无标签图画数据集 (亿级)

除此模型之外,本研讨还尝试了几种其他的模型结构,一是移除教师 - 学生模型并运用自练习模型,二是在进行模型微调时运用揣度出的标签作为练习数据。在试验剖析部分,作者评论了几个影响模型功能的灵敏要素,如用于标签排名的教师模型的功能,无标签数据的规划以及性质,教师模型和学生模型之间的联络等。研讨成果表明,运用主题标签或查询作为弱监督信号来搜集无标签数据可以明显地进步模型的功能。

本文的奉献如下:

  • 提出了一个用于大规划亿级无标签数据集的半监督深度学习办法,并展现了在标签数据上练习得到的教师模型可以有效地辅导学生模型在无标签图画数据上的练习学习进程。
  • 总结了这种学习战略在何种情况下能带来最大收益,如图2。
  • 对多种模型架构进行融化试验并做详细剖析,如教师/学生模型的强度,无标签数据集的性质玲玲解忧吧,所挑选样本的标签数等。
  • 展现了这种半监督学习办法在视频分类和细粒度辨认使命中的体现。

图2 用于构建大规划半监督学习模型的主张

半监王羽潞督学习办法

本文所提出的半监督学习办法首要包括四个部分,如图3所示:

图3 半监督学习办法流程

这与当时的一些蒸馏研讨流程相相似,不同之处如下:(1) 联合运用无标签和标签数据的办法;(2) 构建标签数据集 D 的办法;(3) 运用的数据规划以及针对 Imagenet 数据集的改善。

教师模型练习

这一进程在标签数据集上练习一个教师模型,以便对无标签数据集的图画打标签。这种办法的一大长处在于推理进程是高度可并行的,这意味着不论是在 CPU 仍是在 GPU 上,对大规划亿级数据的核算也能在很短时间内完结。该阶段练习一个功能优异的教师模型,以便为无标签数据生成牢靠的标签信息,且不引进剩余的标签噪声。

数据挑选和标签

这一步旨在搜集很多的图画数据,并对标签噪声进行操控。因为无标签数据的规划很大,因而关于每个方针标签,从无标签数据会集选用 top-K 个样本。首要,用无标吴绪仁签数据集的每个样原本练习教师模型,以取得 softmax 猜测向量。而关于每张图画而言,只能得到与类别相关的 P 个最高分数,其间 P 是一个用来反映咱们希望出现在每个图画中的最多的类别数量。随后,根据相关的类别分数,对图画进行排名 (ranking),并挑选用于多类别半监督图画分类的新的图画数据。图4展现了在 ImageNet-val 数据集上根据ResNet-50 练习出的教师模型在 YFCC100M 数据上的排名成果,其间 P = 5 。排名越高的图画,所带的标签噪声越少。

图4 经过本文办法从 YFCC100M 上所搜集的魅诱娘子图画样本

学生模型的练习与微调

这一步用新的标签数据集数据来练习学生模型,旨在得到一个更简略通用的模型。实际上,这儿可以选用与教师模型相同结构的学生模型。值得注意的是,尽管为标签数据会集每个图画分配多个类别标签信息是可以完成的,但这儿仍经过图画仿制的办法将问题视为一种多类别分类使命。之后,在原始标签数据集上对学生模型微调并进行评价,在预练习和微调进程都选用 softmax 丢失函数。

图画分类试验与剖析

这一部分,作者经过在 ImageNet1K 数据集上的一系列图画分类试验评价了该模型的作用。

试验设置

数据集:运用下面两个网络规划的数据集作为无标签数据,用于半监督学习试验。

  • YFCC毛区健丽-100M :这一数据集是从 Flickr 网站提取得到的一个含9千万张性斗图画的揭露数据集。移除数据会集的重复样本后,作者将该数据集用于后续大部分的试验。
  • IG-1B-帕西亚Targeted :这一数据集是作者从交际媒体网站上搜集的,包括10亿张公共图画数据。

除非有特别的阐明,这儿一致选用规范的1000个类别的 ImageNet 作为标签数据集。

模型:关于教师和学生模型,别离选用残差网络(residul network) ResNet-d ,其间 d = {18, 50} ,以及运用群卷积(group convolution)的残差网络 ResNeX何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标t-101 32XCd ,其间分组宽度 C = {4, 8, 16, 48} 。详细的模型参数如图5所示:

图5 改动教师模型容量并用所提出的办法来练习 ResNet-50 学生模型,这儿的收益是相关于监督学

练习细节:试验进程经过运用同步随机梯度下降算法(synchronous stochastic gradient descent, SGD) 在8台机器的64个 GPU 上练习模型。每个森苺莉 GPU 一次处理24张图画,并对一切的卷积层选用批正则化战略(batch normalization)。权重衰减参数设置国模刘永婵为0.0001,练习进程的学习率设置选用带 warm-up 的缩放战略,全体的 minibatch 巨细为 64 * 24 = 15何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标36 。

关于模型预练习,选用 0.1 到 0.1/2561536 的 warm-up 战略,黼黻这儿的 0.1 和 256别离是 ImageN何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标et 练习中运用的规范学习率和 minibatch 尺度。此外,选用二等分距离的学习率衰减战略,使得在练习进程中学习率削减次数共为13次。在根据 ImageNet 数据集对模型进行微调时,将学习率设为 0.00025 / 256 1536,并在30 个 epochs 期间选用三等分距离削减学习率。

不同模型的试验剖析

本文办法 vs 监督学习办法 图6比较了本文办法与监督学习办法在 ImageNet 数据集上的作用。可以看到,比较于监督学习,本文办法训我的东方天使练的教师模型取得了明显的功能改善。

图6 本文办法与监督学习办法在不同容量的学生模型上微调前后的 ImageNet1k-val top-

模型微调的重要性 因为预练习的数据集和标签数据集的标签信息是相同的,作者比较了模型在标签数据上微调前后的功能。如上图6所示,可以看到在标签数据上进行微调关于模型功能有着至关重要的影响。

学生和教师模型容量的影响 如上图5、图6所示,可以看到关于容量更低的学生模型,男人的下面辨认的精度有明显地进步。而关于教师模型而言,增大模型的容量并不会对学生模型的功能形成明显影响。

自练习:教师/学生模型的融化试验 (ablation) 图7展现了在自练习形式下,模型在ImageNet 数据集上练习得到的不同模型在揣度时的精确度。可以看到,关于容量更大的模型,所取得的精确度体现相对更好。

图7 自练习形式下 ResNet 和 ResNeXt 雷天同模型在 YFCC 数据集上的 top-1 精确

参数剖析

无标签数据集的巨细 下图8展现不同规划的无标何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标签数据集上半监督学习模型的精确度体现。可以看到,在数据集规划到达2千5百万之前,每逢数据集规划成倍增加时,模型可以取得安稳的精确度进步。总的来说,选用大型的无标签数据关于模型功能的进步是有协助的。

图8 ResNet-50 学生模型在不同规划的无标签数据上的精度

预练习迭代次数 图9展现了不同预练习迭代次数下的模型功能体现。可以看到,当迭代次数为10亿次时,模型可以完成杰出的辨认精确度和核算资源的权衡。

图9 不同预练习步数对彻底监督和半监督的 ResNet-50 学生模型功能的影响

参数 K 和 P 图10展现了当 P = 10 时,每个类别挑选的图片数 K 的改变对模型功能的影响。作者发现,在所搜集的无标签数据集规划不是很大时,令 P 何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标= 10 能取得较好的模型体现。

图10 关于超参数 K 的不同取值,学生模型的精度体现。

此外施寂摩,试验还对一些不同的半监督学习的办法进行了剖析,并将模型的体现与当时最先进的模型功能进行比照。除了图画分类试验外,本研讨还进一步探求在视频分类、搬迁学习等不同运用中该半监督学习办法的功能。详细的剖析内容和阐明可拜见原论文。

总结汤沪平

本文研讨运用大规划的无标签图画数据集,探求了半监督学习在图画辨认方面的运用,并进步了 CNN 模型的功能体现。经过一系列的试验剖析,作者提出,联合运用大何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标型标签数据集和小规划有标签数据集可以有助于何浩文,10亿级数据规划半监督图画分类模型,Imagenet检验精度高达81.2%,音标构建作用更好的卷积神经网络模型。此外,研讨还对一些模型参数和模型变体进行了试验剖析,并总结了一些构建半监督图画分类模型的经历办法。

原文链接:

https://arxiv.org/abs/1905.00546

(本文为 AI科技大本营编译文章,转载请微信联络 1092722531)

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

三叶草,市文明旅行委副主任朱茂:每年建立3亿元市级专项资金 重庆为文明产业开展保驾护航,小学英语

  • 凯迪拉克xt5,商会欲筹资10亿元“驰援”戴志康 证大集团出路未卜,win10系统

  • 西西软件园,保险业新蓝海:健康险保费收入接连16个月上涨,驻马店

  • 你是我兄弟,三友化工(600409)融资融券信息(09-12),一休