掌握聚合最新动态了解行业最新趋势
API接口,开发服务,免费咨询服务

利用 AutoML 进行大规模图像分类和对象检测

几个月之前,我们推出了 AutoML 项目,这是一种实现机器学习模型设计自动化的方式。尽管我们发现 AutoML 能够设计出性能可与人类专家设计的神经网络相媲美的小型神经网络,但这些成果仍被限制在 CIFAR-10 和 Penn Treebank 一类的小型学术数据集方面。我们对这种方法在更大、更具挑战性的数据集(例如 ImageNet 图像分类和 COCO 对象检测)上的表现充满好奇。在学术竞赛中,人类已经发明了许多最先进的机器学习架构来处理这些数据集。

学习可转移的架构来实现可扩展的图像识别 (Learning Transferable Architectures for Scalable Image Recognition) 论文中,我们将 AutoML 应用到 ImageNet 图像分类和 COCO 对象检测数据集中 - ImageNet 和 COCO 是计算机视觉领域两个最受认可的大规模学术数据集。这两个数据集对我们来说是一项非常大的挑战,因为它们要比 CIFAR-10 和 Penn Treebank 数据集大许多数量级。例如,单单将 AutoML 直接应用到 ImageNet 中就需要对我们的方法进行数月的训练。

为了能够将我们的方法应用到 ImageNet,我们对 AutoML 方式做了两点调整,让它可以更容易地处理大规模数据集:

  • 我们重新设计了搜索空间,以便 AutoML 找到最佳层并灵活进行多次堆叠来创建最终网络。
  • 我们在 CIFAR-10 上执行了架构搜索,并将学到的最好架构转移到 ImageNet 图像分类和 COCO 对象检测中。

通过这种方法,AutoML 能够找到在 CIFAR-10 以及 ImageNet 分类和 COCO 对象检测上都有优异表现的最佳层。这两个层组合形成一种新的架构,我们称之为“NASNet”。

image1.png

我们的 NASNet 架构由两种类型的层组成:正常层(左)和还原层(右)。这两种层都由 AutoML 设计。

在 ImageNet 图像分类上,NASNet 在验证集上的预测准确率达到了 82.7%,超过了我们之前构建的所有 Inception 模型 [2, 3, 4]。此外,NASNet 的准确率比之前公布的所有结果提升了 1.2%,与 arxiv.org 上报告的最佳未公布结果不相上下 [5]。NASNet 还可以调整规模,生成一系列可以实现较高准确率的模型,同时将计算开销控制在非常低的水平。例如,小版本的 NASNet 可以实现 74% 的准确率,比面向移动平台的同等规模最先进模型提升了 3.1%。大型 NASNet 则可实现最高的准确率,同时将 arxiv.org 上最佳报告结果(即 SENet)的计算开销减半 [5]。

image3.jpg

NASNet 与人类发明的各种规模的最先进模型在 ImageNet 图像分类中的准确率。

我们还将学到的特征从 ImageNet 转移到对象检测。在实验中,将在 ImageNet 分类中学到的特征与 Faster-RCNN 框架 [6] 相结合超过了 COCO 对象检测任务之前公布的最佳预测性能,无论检测任务在最大的模型上执行,还是在针对移动设备优化的模型上执行,结果都是如此。我们最大的模型的平均准确率 (mAP) 达到了 43.1%,比之前公布的最佳结果提升了 4%。

image2.jpg

结合使用 Faster-RCNN 和 NASNet 的示例对象检测。

我们认为,NASNet 在 ImageNet 和 COCO 上学到的图像特征可重用于许多计算机视觉应用。因此,我们在 Slim 和对象检测 TensorFlow 代码库中将 NASNet 开源,方便大家使用它在图像分类中进行推理,以及进行对象检测。我们希望更广大的机器学习社区能够利用这些模型开展构建工作,解决我们还未想到的众多计算机视觉问题。

特别感谢 Jeff Dean、Yifeng Lu、Jonathan Huang、Vivek Rathod、Sergio Guadarrama、Chen Sun、Jonathan Shen、Vishy Tirumalashetty、Xiaoqiang Zheng、Christian Sigg 和 Google Brain 团队对这个项目的大力帮助。

参考文献

原文来自:谷歌开发者中文博客

声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com

  • Google Gemini Image API

    Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。

    Nano Banana(gemini-2.5-flash-image 和 gemini-3-pro-image-preview图像模型)是图像生成与编辑的最佳选择,可集成 Nano Banana API,实现高速预览。

  • AI文生视频

    支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。

    支持通过自然语言文本智能生成高质量短视频。用户只需输入一段描述性文字,即可自动合成画面连贯、风格鲜明、配乐匹配的定制化视频内容。适用于短视频创作、广告预演、社交内容生成、游戏素材制作等场景,为开发者与创作者提供高效、灵活、富有想象力的视频生产新范式。

  • AI图像理解

    先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。

    先进的图像理解和分析能力,它能够快速准确地解析和理解图像内容。无论是自然风景、城市建筑还是复杂的场景与活动,都能提供详细的描述和深入的分析。

  • AI图像编辑

    根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。

    根据文本提示(prompt)和图片公网访问链接,编辑原图按照特定风格、场景和氛围感的输出新的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。

  • AI图像生成

    根据文本提示(prompt),生成生成具有特定风格、场景和氛围感的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。

    根据文本提示(prompt),生成生成具有特定风格、场景和氛围感的图像。广泛应用于电商营销、广告设计、创意灵感等领域,为用户带来高效且个性化的AI图像创作体验。

0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future