微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

总有一天,机器人会赢得普利策奖

2016-04-30 08:55 大数据实验室
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载


选自 卫报


作者Jonathan Holmes

机器之心编译

参与:WenHui Li、周亮



内容生产优势

仔细阅读记者们采写的关于人工智能的报导,从 AlphaGo在中国古老棋类竞赛中大胜, 到微软推特聊天机器人小 Tay 被种族主义化,你可能会发觉记者们有些自鸣得意的情绪。一篇牛津大学的研究曾预测说:新闻工作是最不可能在不远的将来被机器人取代的。然而,在哥伦比亚大学庆祝普利策奖诞生一百年之际,智能机器人也将在财经报道、体育实况报道、骗点击的标题党新闻(clickbait)以及其它原本只有受过训练的记者才能报导的领域一展身手了。

「总有一天,机器人会赢得普利策奖」,来自叙述科学公司(Narrative Science)的 Kris Hammond 如此预测。这家公司专注于「自然语言生成」。「我们能讲述隐藏在数据中的故事。」

最近的进步味着,人工智能现在能够撰写出具有可读性的流畅文字,并且还能比亢奋的写手更快地大量炮制模板型文章。

「有了自动化,我们现在能为 4,000 家公司追踪、 撰写季度收益报告,」来自世界第一个也是迄今为止唯一个使用自动化编辑的通讯社——美通社的贾斯汀· 迈尔斯说,「以前我们只能做到 400 家。」

他认为,有了机器人负责这项单调而又乏味的工作就能把记者们解放出来,让他们追求一些需深度思考的报道。「这样一来,你(作为记者)就能退一步告诉我,你注意到了什么,什么是有趣的,甚至告诉我一些个人化的事情。」

今年下半年,电讯社也计划使用雅虎在报导梦幻橄榄球联赛时用到的技术,用来发布一些美式橄榄球回顾。让这一技术被广泛应用的是 Wordsmith 公司。这家公司的程序能够瞬间炮制出数千篇的报道。除此之外,还有一个写作软件既能用于写讣告,也能用来写《权利的游戏》的文案:「在历法第 299 年,」报告以这样的句子开头,「我们沿着河间王国那碧波荡漾的水域追赶上了我们那些邪恶的同伴。」拥有这个写作软件的是 Automated Insights 公司,这家公司去年就「写」了 150 亿篇文章。他们仅仅拥有 50 个员工,却已宣称自己是世界上最大的内容生产者。

Wordsmith 以数据咨询为服务,为每一位面临痛苦地「选词填空」过程的记者提供建议,如选择「轻松击败」还是「打败」?事实上,Wordsmith 在快速提供权威意见方面是如此在行,以至于它已经闯入了喜欢言过其实的政治新闻世界。「某位客户希望我们用机器记者来实时报导选举投票,并假装我们的机器记者是一个真实的人,看读者是否能够发现。」创始人罗比·艾伦说。

路透社也在发表机器撰写的文章,他们在文章中使用的是自家的内部科技。他们的正在实验的一台下一代新闻引擎表现非常惊艳。负责监管该公司的技术创新的蔡翔祁说,「事实上,在一次盲测体验中,机器的作品表现得比人类作品更具可读性。」

定位客户需求

自动化新闻不仅仅具有数量优势,还有助于定位客户需求。「如果我们的一位客户是来自中小城市的报纸,他们想要报道所在区域的主要雇主们,我们就可以为他们提供相关服务。」迈尔斯说。蔡翔祁则进一步表示,「150 多年来,新闻已经将关注点放在了报导大多数人最感兴趣的故事上。但是现在,一份财经报道可能要包含一个段落告诉你,你自己的投资组合情况。比如『市场正在处于上升期,但是你的收益正在下滑,如果上周你未曾卖掉手中持有的 IBM 股票的话,你现在的收益可能就会高很多。』」

另一个为传统新闻业带来压力的是,具有明确目的的「标题党新闻」写作,像下面这个例子:「27 个只有脊椎指压治疗师才知道的秘密」,或者「10 个在杰夫生命中被定义为『杰夫一刻』的经典瞬间」。「你可以用程序把杰夫这个名字替换为任何其他名字,仍然玩得转」一位来自挪威的29岁开发者 Lars Eidnes 说,「标题党新闻更加程式化。」

Lars Eidnes 的 Click-o-Tron 网站分析了两百万篇在 BuzzFeed、Gawker 以及 Huffington Post 上获得「赞」的文章,并且「猜测」出了新型「标题党新闻」。那是一种倾向于晦涩的愚蠢笑话,但是这些最好的范例往往又有着噩梦般的逻辑。其中一个标题就是,「新总统再过几个小时就将怀上龙种(Royal Pregnancy)」,还有一个是「卡戴珊的孩子居然是一头熊」。「我想要摧毁标题党新闻。」Eidnes 笑着说。

研究人员们也正在探寻如何运用人工智能找到那些人类找不到的故事。「大多数自然语言系统都是在简单地描述一个事件。但是大多数新闻都是描绘性的,甚至是事件驱动的」来自密苏里大学 Donald W Reynolds 新闻机构的大卫·卡斯韦尔说。「事件们在不同的地点发生,这些事件之间的因果关系是这些事件的核心叙述结构。」需要把它们放到古老的新闻术语中:谁,发生了什么,在哪里,什么时候。

在卡斯韦尔的「结构化故事」系统中,所谓的「故事」完全不是个故事,而是一个信息网,我们可以像对待文案、信息图表或者其它表达形式一样去组装它,阅读它,就像我们摆弄音乐音符一样。任何一类信息——从法院报道到天气预报——都能够最终能放入到这个数据库中。这样的系统的潜力是巨大的。

「这是一个完整的推测 ,」他说,「如果当年没有人侦查到在水门饭店发生的非法窃听,而在大选时尼克松的支持者们又使用了这些非法收集的信息的话,我们可以用一种算法来根据这一系列事件推断出,『这些人肯定是弄到了什么秘密。』」

但是怎么看哈蒙德关于机器人总有一天会得普利策奖的预测呢?迈尔斯说「绝对相信」机器人能够实现这一点,因为机器人已经做到了。Bill Dedman 因一篇抵押贷款中存在种族主义问题的调查报道,而获得了普利策新闻奖。这边报道虽然发表于 1988 年,却是由电脑协助写作成的。

蔡先生称「机器-伍德沃德」(robo-Woodward) 和「自动-伯恩斯坦」(auto-Bernstein)们是「一次竭尽所能的尝试」,并且也确实看到了可能性。(注:伍德沃德与伯恩斯坦都是著名调查记者。)「我认为,在未来,机器人可能不太会因为写作的内容而获奖,但是可能会因为用五份高质量的文章报道了一个重要话题,或者为不同的人群提供了 500,000 个不同版本的报道而获奖。」

想象一下,一篇文章将告诉读者这样的信息:地方政府缩减开支将如何影响到读者的家庭,或者,一个发生在其它国家的战争将会如何影响到读者的个人生活。「我认为这样的情况将会在未来的几年内出现,」卡斯韦尔说,「而这些事是人类作者做不到的。」





理论实战名师荟萃,知识技能证书校友面面俱到

量化投资专业人士不可错过!!

中国人民大学量化对冲高级研修班·精读模块招生简章


全面深入了解量化对冲策略与技术
掌握实战量化思想及交易策略
掌握包括量化投资在内的资产管理实务
赠送经典策略、分析文档、分析工具源码
结识学术专家及业界精英
加入老师、同学量化社交圈,持续助力个人发展
中国人民大学结业证书


开班时间:2016年5月9日---5月13日

学习时间5天,费用:14800元


报名咨询手机/微信:13061694649


 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 javascript权威指南(十一):cookie和AJAX 利用IdentityServer3在ASP.NET 5和Angular中实现OAuth2 Implicit Flow 【生动!】21张GIF动图让你轻松了解各种数学概念 程序媛比程序猿更受认可 但前提是不能公开性别 Android面试二三事儿