微信号:ai-front

介绍:面向AI爱好者、开发者和科学家,提供最新最全AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、最新AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

AI一周热闻:百度杰出科学家徐伟离职加盟地平线;阿里投资旷视科技超6亿美元

2018-07-25 18:11 Jack Clark
作者 | Jack Clark
编译 | Debra
编辑 | Natalie
AI 前线导读:
- 百度 IDL 杰出科学家徐伟离职并加盟地平线机器人
- 无人车初创企业 Zoox 再获 5 亿美元融资
- 阿里巴巴被曝参与旷视科技超 6 亿美元融资
- 前谷歌工程师起诉华人 AI 明星学术造假
- 卡内基梅隆大学机器人泛化技术取得进步
- DeepMind 机器人学会探索一公里路径并成功泛化
- DeepMind 和谷歌开发唇读系统,打破识别准确率记录
- 将超参数搜索融合到神经架构搜索中
- NIH 发布“DeepLesion”数据集,促进医学研究
- 美国军方人工智能计划初具规模
- OpenAI Five 基准测试又有新进展

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)
百度 IDL 杰出科学家徐伟离职并加盟地平线机器人

7 月 24 日凌晨,百度 IDL 杰出科学家徐伟发布朋友圈宣布其离开百度,正式加盟地平线机器人,担任该公司通用 AI 首席科学家。

至此,百度“少帅计划”的所有科学家导师全部离开百度。

据了解,徐伟拥有清华大学学士学位,卡内基梅隆大学硕士学位,加入百度前曾在 NEC 实验室和 Facebook 担任研究员。

在百度内部,他是深度学习平台 PaddlePaddle 的负责人,开发通用人工智能的研究,是唯一获 “杰出科学家”荣誉称号的人。

加盟地平线后,徐伟表示将在硅谷建立 General AI Lab,打造小而精的团队专注于通用人工智能研究。

无人车初创企业 Zoox 再获 5 亿美元融资

上周,总部位于旧金山的无人车公司 Zoox 再次获得融资,最新一轮获 5 亿美元资金,投后估值 32 亿美元。领投方是办公协作公司 Atlassian 的联合创始人 Michael Cannon-Brookes,以及中国 VC 春华资本。

据 Zoox 创始人 Tim Kentley-Klay 透露,该公司新一轮融资也将开启,会持续到明年年底,不过新一轮融资金额及用途则没有说明。

此轮完成后,Zoox 的总融资额已达 8 亿美元,在全球自动驾驶创业公司中很受资本的青睐。目前,Zoox 已是一家 500 人规模的公司,并且计划在 2020 年推出商用无人车。Zoox 不以出售无人车作为商业模式,而是直接部署自己的无人驾驶出租车队。

阿里巴巴被曝参与旷视科技超 6 亿美元融资

7 月 23 日,据彭博报道,阿里巴巴将参与 AI 独角兽公司旷视科技 Face++ 公司 6 亿美元的融资。对此,旷视科技和阿里巴巴方面均向媒体表示不予置评。

据知情人士透露,参与此次旷视投资的主体为蚂蚁金服,而非阿里巴巴集团。

旷视上一轮融资是在去年 10 月份,融资金额为 4.6 亿美元,阿里巴巴同样参与了该轮融资。

阿里巴巴在图像识别领域布局较为广泛,它不仅数次投资旷视科技,同时也参与了另外一家 AI 公司——商汤科技的多轮融资。

前谷歌工程师起诉华人 AI 明星学术造假

上周,南加州大学的明星教授黎颢被自家公司 Pinscreen 工程副总裁 Iman Sadeghi 告上法庭,控诉其三宗罪:1. 手动制作动画冒充 AI 生成效果,将造假论文提交至 Siggraph 大会欺骗大众;2. 用虚假宣传诈取融资;3. 解雇时对自己进行人身攻击。

黎颢在德国卡尔斯鲁厄大学获硕士学位,在普林斯顿和哥伦比亚大学获得博士学位后,从 2014 年开始在南加州大学任助理教授。

原告 Iman Sadeghi 曾是谷歌工程师,随后加入黎颢创办的 AI 视觉公司 Pinscreen。其后,两人矛盾加深, Sadeghi 揭露该公司明星技术头像自动生成术为造假。

对此,有人认为只是冰山一角,此事件引发了人们对 AI 造假的讨论和关注。

卡内基梅隆大学机器人泛化技术取得进步

正所谓“鱼与熊掌不可兼得”,但卡内基梅隆大学的研究人员在一项机器人研究中成功创建了一个新的数据集来评估机器人技术泛化,并构建了能够在数据集上显示出有意义性能的低成本机器人。

该方法包含三个关键部分:抓取预测网络(GPN),它接收像素图像并尝试预测正确的抓取(并基于预训练的 ResNet-18 模型进行微调);噪声建模网络(NMN),其尝试基于场景的图像和来自机器人的信息来估计潜在噪声;以及一个边缘化层,它结合两个数据流,以预测最佳抓取。

他们使用具有五个自由度的 Dobot Magician 机器人手臂,以及 Airbnb 的六种不同户型,以及低成本的“YOLO”模型在机器人附近的物体周围生成边界框,然后让机器人的 GPN 和 NMN 协同工作,帮助它预测如何抓取物体。他们以这种方式收集了大约 28,000 次抓取。

研究人员尝试对新的数据集(他们称之为 Home-LCA)以及他们新的“Robust-Grasp”两部分 GPN 和 NMN 网络架构进行评估。首先,他们检测了在 Home-LCA 数据集上训练并应用于其他家庭环境的 Robus-Grasp 网络的准确性,以及在传统实验室环境(Lab-Baxter 和 Lab-LCA)中收集的两个数据集。结果非常令人鼓舞,他们的方法似乎对实验室数据集的泛化优于其他方法,这表明 Home-LCA 数据集足够丰富,可以创建泛化策略。

他们还在全新的家庭环境(Airbnb)中测试他们的方法,结果表明,Home-LCA 确实比实验室生成的数据集好得多,准确性达 60%,而其他方法的准确率在 20%到 30%之间。

大多数机器人研究都受到以下两种情况之一的影响:1)机器人进行的是模拟训练和测试,因此结果并不可信。 2)因为评估任务受限,因此很难确定算法改进带来的任务性能优化是否可以泛化到其他任务。本文通过将任务和机器人置于现实环境中,收集真实数据并评估泛化来巧妙地解决这两个问题。它还进一步表明,机器人组件的成本正在下降,而网络性能正在提高,足以让学术研究人员进行大规模的现实世界机器人试验和开发,这无疑将进一步加速该领域的进展。

阅读更多:家居机器人学习:改进泛化并减少数据集偏差(https://arxiv.org/abs/1807.07049 )。

DeepMind 机器人学会探索一公里路径并成功泛化

QUT 和 DeepMind 研究人员成功地训练了一个机器人学习如何通过 2,099 个不同的节点在两公里的真实世界路径上相互连接。该方法表明,机器人可以在模拟中学习足够强大的策略,并将其迁移到现实世界,研究人员通过在真实世界数据上进行测试来验证他们的系统。

他们对从其运行环境的单一覆盖范围遍历获得的数据进行图形导航代理训练,并将学习到的策略部署在真实机器人的持续环境中,创建了一个给定位置的地图,以带有点和连接的图形为框架,从全方位摄像机收集 360 度图像填充图形上的每个点,并收集每个点之间的数据。

他们还引入了一种有序随机化的技术——收集图像的亮度,这使他们能够创建更多的合成数据,并更好地抵消系统对特定光线过拟合训练的结果。随后,他们使用课程学习来训练 A3C 的模拟代理,以学习在(模拟)图形的连续不同点之间进行导航。这些代理本身使用在 Places365 数据集上预先训练的图像识别系统,并对收集的数据进行微调。

最终,研究人员在真正的 erobot(Pioneer 3DX)上来测试他们的系统,要求其在校园的特定区域导航。结果表明,他们的技术能够成功泛化到现实世界,在十一次实验中十次成功地导航到指定位置,但成本很高:现实世界的路线平均比最佳路线复杂 2.42 倍。

这个结果表明,现有的基本算法(如 A3C)与理解的数据收集技术相结合,已经强大到可以让我们开发概念验证机器人演示了。

阅读更多:从一公里单次遍历(Arxiv)中学习可部署导航策略(https://arxiv.org/abs/1807.05211 )

观看视频:可部署的导航策略(https://rl-navigation.github.io/deployable/ )。

DeepMind 和谷歌开发唇读系统,打破识别准确率记录

DeepMind 和谷歌的研究人员开发了一个唇读语音识别系统,可以看懂人们在说什么,其单词错误率低于专业人士,并且能够使用比其他方法更大的词汇量(127,055 个术语与 17,428 个术语)。为了开发这个系统,他们创建了一个新的语音识别数据集,包括 3,886 时长的人脸讲话数据集,这些数据集中的人脸在说特定的音素序列。

该系统基于“视觉到音素(V2P)”系统,这个经过训练的网络可以在给定一系列视频帧的情况下产生一系列音素分布。它们还实现了 V2P-Sync,这是一种验证音频和视频通道是否对齐的模型(因此可以防止产生不良数据,从而导致模型性能不佳)。V2P 使用 3D 卷积模型从给定视频剪辑中提取特征,并按时间顺序通过时间模块进行聚合。

研究人员在一个包含 37 分钟视频的测试集中测试了他们的方法,包括 63,000 个视频帧和 7100 个单词。结果发现,该系统表现明显优于人类,WER(文字差错率)为 40.9%;相比之下,专业的唇形阅读器在相同的数据集上 WER 为 86.4%或 92.9%,具体取决于给定的上下文。

这个例子表明,通过深度学习技术,加上足够多的数据和计算,许多问题将变得微不足道,很多需要大量理解能力的任务,AI 的适用性可能比我们想象得更大,比如唇读。

阅读更多:大规模视觉语音识别(https://arxiv.org/abs/1807.05162 )。

将超参数搜索融合到神经架构搜索中

德国研究人员展示了如何在搜索不同的架构时结合优化模型的超参数。这需要在机器学习中找到一个既定的事物(找到超参数的正确组合,以最大化性能与成本之比)并将其与大家都感兴趣的新领域相结合(使用强化学习和其他方法来优化神经网络架构及其超参数)。“我们认为大多数 NAS 搜索空间可以写成超参数优化搜索空间(使用分类和条件超参数的标准概念),”他们写道。

他们通过在 CIFAR-10 上训练 ResNet 架构来测试他们的方法,同时探索十种架构选择和七种超参数选择的组合。他们将每个采样配置的训练时间限制为最多三小时,并执行 256 次全时长运行(相当于大约 32 个 GPU days 的持续训练)。他们发现超参数、架构选择和训练模型性能之间的关系比预期更微妙,这表明联合训练它们是有价值的。

随着计算机变得越来越快,把给定神经网络架构的设计和优化尽可能多地与计算机结合起来变得越来越明智——这将促进自动模型优化领域的进一步发展。

阅读更多:迈向自动深度学习:高效的联合神经架构和超参数搜索(https://arxiv.org/abs/1807.06906 )。

NIH 发布“DeepLesion”数据集,促进医学研究

美国国立卫生研究院发布了“DeepLesion”,这是一套包含 32,000 张标注病变标签的 CT 图像,为医疗机器学习研究人员提供了用于开发 AI 系统的重要数据资源。这些图像来自 4,400 个独特的个体,并且在病变周围进行了大量注释。

美国国立卫生研究院表示希望研究人员使用该数据集来帮助他们“开发一种通用病变检测器,帮助放射科医生找到所有类型的病变“。这使得其作为初始筛查工具,并将检测结果发送给其他受过特定类型病变训练的专家系统成为可能。

数据对于许多 AI 应用至关重要,在医学数据领域,模拟其他数据是一件危险的事,因此从人类来源获取的原始数据价值不菲。如 NIH 发布的这类资源可以帮助科学家们试验更多数据,从而进一步开发他们的 AI 技术。

了解更多:NIH Clinical Center 发布 32,000 张 CT 图像(NIH)数据集(https://www.nih.gov/news-events/news-releases/nih-clinical-center-releases-dataset-32000-ct-images )。

获取数据:NIH 临床中心(由存储商 Box 提供 https://nihcc.app.box.com/v/DeepLesion )。

美国军方人工智能计划初具规模

美国国防部宣布将在几周内发布全面的人工智能战略。这发生在其发布了包括本月早些时候成立的联合人工智能中心(JAIC),(该中心将监督美国国防和情报领域的所有大型人工智能项目,并与工业界和学术界建立伙伴关系)的消息在内的一系列措施之后。

这只是一条表明军方已经看到人工智能的潜力,并且正在加大投资力度的最新消息。国家之间的任何 AI 军备竞赛都存在巨大的风险,特别是当各方优先考虑发展速度而不是建立安全、稳健的系统(见下文)时。是否制定军事人工智能战略将促使美国最终发布更广泛的国家战略。

阅读更多:五角大楼将在“几周内”发布人工智能战略(https://breakingdefense.com/2018/07/pentagon-rolls-out-major-cyber-ai-strategies-this-summer/ )

DoD 备忘录宣布成立 JAIC(https://media.defense.gov/2018/Jul/02/2001938089/-1/-1/0/DSD-JUNE-2018-MESSAGE.PDF )

OpenAI Five 基准测试又有新进展

OpenAI 已经取消了对 5v5 机器人的许多限制,并将在几周后进行比赛。

查看博客内容了解取消限制和比赛详细信息

https://blog.openai.com/openai-five-benchmark/

作者 Jack Clark 有话对 AI 前线读者说: 我们对中国的无人机研究非常感兴趣,如果你想要在我们的周报里看到更多有趣的内容,请发送邮件至:jack@jack-clark.net。

原文链接:

https://jack-clark.net/2018/07/23/import-ai-204-using-airbnb-to-generate-data-for-robots-google-trains-ai-to-beat-humans-at-lip-reading-and-nih-releases-massive-deeplesion-ct-dataset/

如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!

 
AI前线 更多文章 Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮? 代码跑不出头发都揪秃了?Bing搜索新功能直接给代码! 我们从爬取1000亿个网页中学到了什么? 被拒上百次后拿下梦寐以求的工作Offer,她靠什么成功逆袭? 微软年营收首破千亿美元,Azure智能云功不可没
猜您喜欢 【PPT分享】Netflix AWS 灵雀云教你玩Docker! 【武汉】烽火普天招聘+地点软件园+待遇Open(20170207) Kafka 基本原理 Python面试必须要看的15个问题 深度学习及其在淘宝图像应用探讨