微信号:ai-front

介绍:面向AI爱好者、开发者和科学家,提供最新最全AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、最新AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

视觉美学:使用AI技术判断照片的质量

2018-01-11 18:00 AI前线

作者|Shashank Gupta
译者|Liu Zhiyong
编辑|Vincent Chen,Emily
AI 前线导读:在过去的 2017 年,AI 在多个领域里全面开花,以前,评价一张图片好不好看,人们都认为没有情感的机器是无法胜任的。但 AI 已经突破了人们的想象极限,已经可以评价一张图片好不好看了。Google 的 AI 研究人员就找到了训练 AI 判断照片质量的方法,而后,ParalleDots 也推出了相关 API,帮助应用开发者轻松集成 API,从而拥有判断照片质量的能力!ParallelDots 是一家来自印度的初创深度学习公司,为客户提供品牌、产品或服务的舆情监控;其 API 还有助于多语言分析、关键词生成、文本分类、实体提取、语义、情感和意图分析。日前,Shashank Gupta 写了一篇博文 [1],阐述了 ParallelDots 是如何让应用判断照片的质量。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

已有研究表明,视觉美学很大程度上影响了各种构念,如感知可用性、满意度和愉悦度。然而,视觉美学也是一种主观概念,因此,它在训练机器学习算法以学习这种主观性方面提出了独特的挑战。

AI 前线:构念(construct),指看不见摸不着的东西,测量的是相对抽象的东西。构念是美国心理学家 George Alexander Kelly 提出的概念。构念是一个人在其生活中经由对环境中人、事、物的认识、期望、评价、思维所形成的观念。是人们用来解释世界、分析世人的观点,是人们用来对事件整理分类的一种概念,也是人们看待并控制事件的思维模式。由于每个人的生活经验不同,个人构念自然也因人而异,因此个人构念就代表他的人格特征。

鉴于视觉美学在人机交互中的重要性,机器充分评估视觉美学的概念至关重要。机器学习,尤其是深度学习技术,在目标明确的任务上显示出了很大的希望,如在图像中识别物体或从一种语言转换到另一种语言。然而,图像美学的量化一直是图像处理和计算机视觉中最持久的问题之一。

我们决定建立一个深度学习系统,可以高精度自动分析和评分一幅图像的美学质量。请查看我们的演示 [2],测试一下你的图片美学质量。

关于研究

我们提出了一个新的深度卷积神经网络,可以通过训练来识别图像的美学质量。我们在训练算法的同时,也提出了多个破解方法来提高准确性。

我们在 arxiv[3] 上发表的论文中,提出了一种新的神经网络架构,它可以通过将底层和高层的特征考虑进来,从而有效地对数据进行建模。它是 DenseNet 的一种变体,在每个密集块 (Dense Block) 的末尾都有一个跳转连接(skip connection)。

AI 前线: DenseNet:Densely Connected Convolutional Networks,密集卷积神经网络。由 Gao Huang、Zhuang Liu、Kilian Q. Weinberger 和 Laurens van der Maaten 于 2016 年提出。DensenCNN 具有很多优点,包括缓解梯度消失的问题,强化特征传播和特征的复用,并减少了参数的数目。DenseNets 相较于 ResNet 所需的内存和计算资源更少,并达到更好的性能。

AI 前线: skip connection 就是一种跳跃式传递。在 ResNet 中引入了一种叫 residual network 残差网络结构,其和普通的 CNN 的区别在于从输入源直接向输出源多连接了一条传递线,这是一种 identity mapping,也就是所谓的恒等映射,用来进行残差计算。这叫是 shortcut connection,也叫 skip connection。其效果是为了防止网络层数增加而导致的梯度弥散问题与退化问题。

除此之外,我们还提出了提高算法训练精度的训练方法。这些方法是在 LAB 色彩空间上进行训练,并使用小型图像中的相似图像来训练算法,我们称之为一致性学习(coherent learning)。使用这些技术,我们获得了 AVA2 数据集的 78.7%的准确性。AVA2 数据集的最新技术状态精度为 85.6%,使用深度卷积神经网络,在 imagenet 数据集上使用预训练权重。

AI 前线: LBA 色彩空间既不依赖光线,也不依赖于颜料,它是 CIE 组织确定的一个理论上包括了人眼可以看见的所有色彩的色彩模式。Lab 模式弥补了 RGB 和 CMYK 两种色彩模式的不足。Lab 模式由三个通道组成,但不是 R、G、B 通道。它的一个通道是亮度,即 L。另外两个是色彩通道,用 A 和 B 来表示。A 通道包括的颜色是从深绿色 (底亮度值)到灰色(中亮度值)再到亮粉红色(高亮度值);B 通道则是从亮蓝色(底亮度值)到灰色(中亮度值)再到黄色(高亮度值)。因此,这种色彩混合后将产生明亮的色彩。

使用手工制作的 AVA2 数据集的最佳精度为 68.55%。我们的研究还显示,将更多的数据添加到我们的训练集(AVA2 中不包含的 AVA 数据集),将其精度提高到 AVA2 测试集的 81.48%,从而显示模型在更多数据的情况下变得更好。

视觉美学的用例
为您的社交媒体帐户选择最佳个人资料照片

社交媒体网站的应用开发者可以帮助他们的用户决定哪张照片最适合作为他们的头像。当我们在社交媒体网站上传照片或更改我们的显示图片时,我们都面临焦虑。通过我们的 API 集成,应用程序开发人员永远可以帮助让用户看起来不错!

交友应用

好吧,现在这个用例可能不会吸引我们的禅宗、非物质主义者,但说实话,约会导致了最严重的社交焦虑。约会景观在不断变化,因此,如果你在交友应用上很活跃,选择最好的照片来提高你的成功机会是很重要的!交友应用开发人员可以轻松集成我们的 API,帮助用户上传他们最好的照片;如果开发人员想在数据集上进行优化,也可以对视觉美学模型进行微调。

集成 AI 的拍照手机

最近 Google 推出了具有肖像模式的 Pixel 2 和 Pixel 2 XL。这款手机即使缺少许多其他手机所拥有的第二个镜头,也能提供肖像模式。例如,iPhone X、Galaxy Note 8、OnePlus 5……所有这些手机都提供了肖像模式,因为它们使用两个镜头的数据。一个镜头捕捉图像,另一个捕捉景深信息,除了为模糊的背景提供一些焦距范围的魔法。但是,Pixel 手机使用 AI 来为用户提供 HDR+ 图像,与数码单反相机拍摄的图像相当。

类似地,手机制造商可以通过集成视觉美学 API 来增强其原生摄像头的功能,让用户即使在拍照之前也能实时了解他们的照片质量!这将使您的用户能够自信地分享他们的照片,并最终为您的品牌创造出极具竞争力的优势,而无需额外的硬件成本。

在线内容的病毒式传播

内容为王,要写出能引起受众共鸣、令人信服的内容变得越来越困难。然而,现在最好的内容往往有很棒的图片来补充,因此,你必须包括一些能够让人们不断往下看的东西。

BuzzSumo 做了一项分析,涵盖了超过 100 万篇文章,发现每 75~100 个单词的图片中有更多的社交份额。使用我们的视觉美学工具,您可以快速检查图像有多大的吸引力,从而提高博客文章的病毒式传播。你可以在这里查看演示 [4]。

在这篇博文中,我们介绍了我们的视觉美学 API 的一些用例。当机器比人类更能胜任这种主观内容的判断时,就开辟了很多利用这些机制的可能性。您可以访问 ParallelDots 的博客 [5] 来了解更多关于 Visual Analytics(视觉分析)的资讯。

[1] Visual Aesthetics: Judging a photo’s quality using AI techniqueshttps://hackernoon.com/visual-aesthetics-judging-a-photos-quality-using-ai-techniques-6f2551cc9b0b ↩

[2] Visual Analytics for smarter decision-makinghttps://www.paralleldots.com/visual-analytics ↩

[3] Visual aesthetic analysis using deep neural network: model and techniques to increase accuracy without transfer learninghttps://arxiv.org/abs/1712.03382v1 ↩

[4] Visual Analytics for smarter decision-makinghttps://www.paralleldots.com/visual-analytics ↩

[5] ParallelDotshttp://blog.paralleldots.com/category/product/visual-analytics/ ↩

今日荐文

点击下方图片即可阅读

Yann LeCun 力挺观点:算法对 AI 提升不大,奇点仍然很遥远


 
AI前线 更多文章 MIT重磅报告:一文看清AI商业化现状与未来 Yann LeCun力挺观点:算法对AI提升不大,奇点仍然很遥远 深度学习大行其道,个性化推荐如何与时俱进? 左牵Uber右联大众,黄教主带领320家车企一统自动驾驶江湖 AI前线重磅出品:2017中国人工智能产业生态链研究报告
猜您喜欢 《Spring 5 官方文档》24. 使用Spring提供远程服务和WEB服务 是时候闭环Java应用了 直播预告/谷歌怎么理解”无人车“到来之前的人车互动? 无需后台接入?带你玩转VasSonic 2.0里的Local Server 关于 hashCode() 你需要了解的 3 件事