微信号:ai-front

介绍:面向AI爱好者、开发者和科学家,提供最新最全AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、最新AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

AI一周热闻:微软出售“定制语音”合成;3D打印纳米无人机现世

2018-05-16 18:11 Jack Clark
译者 | Debra
编辑 | Vincent
AI 前线导读:

- 微软出售“定制语音”合成服务

- UIUC 和英特尔实验室训练神经网络进行图像弱光放大

- 谷歌通过图表计算提高人工智能性能

- 谷歌 Duplex 实现更自然的客户服务

- 3D 打印纳米无人机让我们距离 DIY 自动化机器的时代更近一步

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
  微软出售“定制语音”合成服务

... 声音克隆的商业化时代到来了...

微软将很快推出“定制语音”系统,让企业为其应用程序提供“独一无二的、可识别的品牌声音,而无需编码”。该产品建立在语音合成和语音克隆领域的各种研究突破之上,例如百度在语音克隆方面的成果,Google 和 DeepMind 在语音合成方面的工作。

为什么重要:正如 Google 的 Duplex 系统展示的那样,功能强大、更具有真实感的自然语言系统出现了。在社会不同领域进行更多实验以观察人们对自动化系统的反应是该公司接下来需要做的至关重要的工作。在未来,能够根据特定情境为给定系统定制声音似乎成为人们进一步接受 AI 系统的必要因素。

阅读更多:

自定义语音(微软)

https://cris.ai/Home/CustomVoice

  UIUC 和英特尔实验室训练神经网络进行图像弱光放大

... 数据 + 可学习组件打败人工设计算法的又一案例...

UIUC 和英特尔实验室的研究人员已经发布了一个用于训练图像处理系统的数据集,它可以拍摄人体无法察觉的图像,并自动处理这些图像以便人肉眼可观察。这个系统可将低光图像放大至 300 倍,同时进行有意义的降噪和较低水平的色彩转换。

数据集:研究人员收集并发布了“See-in-the-Dark”(SID)数据集,该数据集包含 5094 张原始短曝光图像,每张图像都有相应的长曝光参考图像。该数据集涵盖了大约 400 个不同的场景,同时会产生同一场景的一些短曝光图像。

技术:研究人员使用多尺度聚合网络和 U-net 测试了该系统(这两个网络入选是因为其能够在 4240×2832 或 6000×4000 的 GPU 内存下处理全分辨率图像的能力)。他们通过将短时间曝光图像的原始数据与相应的长时间曝光图像进行配对来训练网络。同时,他们还应用随机翻转和旋转进行数据增强。

结果:实验人员将训练结果与非朴素去噪算法 BM3D 和突发去噪技术的输出结果进行了比较,并使用亚马逊的土耳其机器人平台(Mechanical Turk platform)来调查人们更喜欢的图像是哪些。调查结果显示,与 BM3D 相比,论文描述的技术取得了压倒性的优势,并且在某些情况下,由该技术生成的图像比突发技术生成的图像更受人们欢迎。

为什么重要:这样的技术表明,我们可以使用神经网络来改变解决问题的方法,从开发手动调整的单个算法变为通过有效地混合和匹配各种可训练组件和数据输入以解决一般性问题。如果研究人员能够进一步减少训练系统处理每幅图像所需的时间,事情会变得更加有趣,因为这让实时查看成为可能,为人们提供另一种在黑暗中进行观察的方法。

阅读更多:

学习在黑暗中观察(GitHub)

https://github.com/cchen156/Learning-to-See-in-the-Dark

学习在黑暗中观察(Arxiv)

https://arxiv.org/abs/1805.01934

  谷歌通过图表计算提高人工智能性能

... 由于 AI 世界依赖于更分散的并行执行,我们对新系统的需求也在增加...

谷歌研究人员列出了他们已经采取的多个措施以改进 TensorFlow 语言中的组件,让其在同一个计算图中执行分布式 AI 任务的更多方面。这提高了算法的性能和效率,并且展示了 AI 的大规模分布和并行性趋势在推动着编程发生重大变化(另见:Andrej Karpathy 的“软件 2.0”论文)。

本文探讨的主要思想是如何以一种可以无缝运行跨 CPU、GPU、TPU 和其他新型芯片架构的方式分发机器学习任务。这比听起来更为棘手,因为在大规模的任务中,通常有很多组件需要与对方进行交互,有时甚至需要多次交互。这促使谷歌扩展和改进各种 TensorFlow 组件,以更好地支持在同一个计算图上绘制模型中的所有计算,从而优化底层体系结构的图形。这与传统方法有所不同:传统方法通常是按照应用程序控制逻辑写成的单独代码块中指定执行某项任务(例如,调用在大量 Python 代码中用 TensorFlow 编写的各种 AI 模块,而不是在统一的 TF 代码块内执行所有任务。)

结果:有一些证据初步表明这种方法可以带来显著的好处。“没有动态控制流程的 DQN 的 baseline 实现需要从客户端程序按顺序驱动条件执行。图中的方法则将 DQN 算法的所有步骤集成到具有动态控制流的单个数据流图中,每次与强化学习环境进行交互时都会调用一次。因此,这种方法让整个计算停留在系统运行时间内,并支持并行执行,包括 I / O 与 GPU 上其他工作的重合。结果显示,这种方法比 baseline 性能提高了 21%。定性地说,用户的报告表明,图中所用方法产生了一个更独立和可部署的 DQN 实现;该算法被封装在数据流图中,而不是分散在主机语言中的数据流图和代码之间,“研究人员写道。

阅读更多:

大规模机器学习中的动态控制流(Arxiv)

https://arxiv.org/abs/1805.01772

软件 2.0(Andrej Karpathy)

https://medium.com/@karpathy/software-2-0-a64152b37c35

  谷歌 Duplex 实现更自然的客户服务

... 谷歌的新服务意外地让人们在 AI 峡谷中兴奋了一下...

Google 揭示了关于 Duplex 的信息,这是一个使用语言建模、语音识别和语音合成的 AI 系统,可以自动执行诸如预约美发服务或餐厅预订等任务。 Duplex 让谷歌的自动化 AI 系统直接与其他企业的人员对话,实现人机交互自动化,并且能更容易地从杂乱的现实世界中收集数据。

工作原理:“神经网络使用了 Google 自动语音识别(ASR)技术的输出,以及来自音频的功能、对话历史记录、对话参数(例如预定服务、当前时间)等。我们为每项任务分别训练了理解模型,但在跨任务中使用了共享语料库,”Google 写道。语音合成是通过 Tacotron 和 Wavenet(分别由 Google Brain 和 DeepMind 开发的系统)实现的。它还通过使用人类的特征,如“嗯”和“呃”等,让对话在另一端听起来更自然。

数据收集:该系统的一个用途是帮助谷歌收集更多信息,例如自动呼叫企业以获知其营业时间,然后将信息数字化,并纳入谷歌数据服务中。

辅助功能:该系统还可能对残障人士有用,例如听力残障人士,并可用多种语言工作。

令人毛骨悚然的 AI 峡谷:虽然 Google Duplex 是人工智能技术进步的见证,但它也引起了很多人的担忧,有人担心它会被用来进一步实现自动化。从道德层面来说,让 AI 与人(通常收入不高的人)谈话并从他们那里收集信息,却没有将自己标识为一个商业化跨国科技公司的 AI 产品这种行为存在可疑之处。对此,谷歌回应称 Duplex 将在与人交谈时将自己的服务标识为 AI 系统,但并没有给出更多操作细节。

为什么重要:Duplex 这样的系统展示了人工智能将越来越多地参与到人们的日常生活中,包括那些过去只有人与人交流的场景。该服务引发的(相当强烈的)批评反映出人们越来越担心人工智能的进步速度与社会基础设施之间的脱节问题。

阅读更多内容:

Google Duplex:一个用电话就可以搞定任务的 AI 系统(Google 博客)

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

Google Grapples With ‘Horrifying’ Reaction to Uncanny AI Tech (Bloomberg)

https://www.bloomberg.com/news/articles/2018-05-10/google-grapples-with-horrifying-reaction-to-uncanny-ai-tech

  3D 打印纳米无人机让我们距离 DIY 自动化机器的时代更近一步

... 廉价、智能、可移动、可 3D 打印的纳米无人机时代即将到来...

苏黎世联邦理工学院、苏黎世大学和博洛尼亚大学的研究人员展示了如何将原始无人机导航神经网络压缩到超便携式 3D 打印“纳米无人机”上。该研究表明了无人机将来发展的方向,并且证明了低成本电子产品、3D 打印和广泛可用的开源组件可以让人们创造出具有惊人能力和潜在危险的机器这一概念(虽然研究中并没有讨论这一话题,但从技术角度来看显然是可能的) “据我们所知,我们的这项工作是目前为止首次将最新的、完全自动化的、部署在基于深度学习的 UVA 计算节点上的视觉导航系统,完全集成在开源的 COTS CrazyFlie 2.0 无人机中,其最高耗能不足 94 mW,“研究人员写道。“我们的系统基于新型并行超低功耗计算平台 GAP8,并部署在一架 27 克重的商用开源 CrazyFlie 2.0 纳米四旋翼飞行器上。”

方法:为了让这个系统工作,研究人员需要仔细选择并集成一个超低功耗处理器的神经网络。整合工作包括设计选定神经网络的各个处理阶段,以尽可能高效计算,这要求他们修改现有的'DroNet'模型以进一步减少内存占用。这样,无人机能够以每秒 12 帧的速度运行 DroNet,这足以实现实时导航并避免碰撞发生。

为什么重要:虽然这个概念在功能上有点原始,但它展示了'DroNet'等基本神经网络系统的能力和可广泛部署的潜力。未来,我们能用更多的数据来训练这些系统,并使用更多的计算机来训练更大的模型(更强大)。如果我们还能够提高压缩这些模型并将其部署到现实世界的能力,那么我们离生活在一个 DIY 自动机器的时代就不远了。

阅读更多:超低功耗深度学习自主纳米无人机(Arxiv)

https://arxiv.org/abs/1805.01831

关于 OpenAI

Jack Clark 将于 5 月 18 日在伦敦人工智能和政策会议上( AI & Politics meetup)发表演讲,讨论人工智能面临的一些政策挑战,欢迎到来!

更多信息:

AI & Politics Episode VIII – Policy Puzzles with Jack Clark (Eventbrite)。

https://www.eventbrite.co.uk/e/ai-politics-episode-viii-tickets-45472229663?aff=erelexpmlt

作者 Jack Clark 有话对 AI 前线读者说:我们对中国的无人机研究非常感兴趣,如果您想要在我们的周报里看到更多有趣的内容,请发送邮件至:jack@jack-clark.net。

原文链接:

https://jack-clark.net/2018/05/14/import-ai-94-google-duplex-generates-automation-anxiety-backlash-researchers-show-how-easy-it-is-to-make-a-3d-printed-autonomous-drone-microsoft-sells-voice-cloning-services/

AI前线
紧跟前沿的AI技术社群

如果你喜欢这篇文章,或希望看到更多类似优质报道,记得点赞分享哦!

┏(^0^)┛明天见!

 
AI前线 更多文章 坚持不作恶,谷歌数十名员工集体辞职抗议AI军事合作 特朗普要帮中兴重返市场?这事没那么简单 机器学习太难了!AI大佬们给你指条明路 吴恩达的7条机器学习训练秘籍 为防中国夺走AI老大地位,美国白宫出手了
猜您喜欢 PostgreSQL [9.5.0] vs MariaDB [10.1.11] vs MySQL 性能比较 如何高效的学习新技术 世界上第一位程序猿,原来是个女的!!! 考研数学难出新高度,考不上咋整啊? 简单线性回归——OLS回归模型拟合(一)