微信号:Comp_Ad

介绍:有趣的负媒体,带你参观互联网变现的湿暗后厨.

北冥乘海生在清华大数据座谈会上的讲话

2015-10-25 22:06 北冥乘海生

点击顶部蓝字"计算广告"关注互联网变现话题


在“大数据码畜生存指南”系列的间隙,今天我们插播一篇比较少见的曲艺形式——讲话。原系列的下一篇近日会发出。

本文选自2015928@北冥乘海生在清华大数据“技术·前沿”讲座上所做的题为《互联网变现与计算广告》的演讲。由“数据派”公众号初步整理,现进一步订正了其中的一些错误和问题,发布如下。


刘鹏:大家好,我是老的清华人,诸位都是95后了,你们出生的时候我入学。我在清华电子系呆了十年,04年年底博士毕业,毕业以后在MSRA,师从Frank Soong老师。我接触广告是从08年底,现在京东的副总裁张晨老师刚从美国回来建雅虎的研究院北京分院,我是北京最早的员工之一。雅虎当时是一个很有意思的公司,现在大家拿雅虎不当回事,其实雅虎当时还是很强的,它的市值也曾经超过一千亿美金。并且雅虎有一个特点,它的产品线什么都有,有新闻、门户、搜索、邮箱,当时在全球范围么还是比较领先的。它的变现的形态和广告的形态比其他的网站都丰富,那个时候我们接触到很多的有意思的产品,像搜索。日本的雅虎市场也是很大的,还做北美的广告,包括很多的广告形式都是从雅虎开始做的。

雅虎那个时候有两位科学家,一位叫Andrei Broder,是美国工程院院士,他希望把广告里面有意思的事情系统的计算整理成一个学科,他跟另一位是经济学家Preston McAfee在斯坦福开了一门研究生的计算广告课程。遗憾的是,我没有在网上找到全课的录像,仅仅找到前几部分的PPT。

后来大家从学术界和工业界对广告开始重视起来了,以前学术界不重视,但是工业界一直很重视。Andrei整理这个课以后,学术界、工业界都开始重视这个问题。后来Andrei想把它系统性的总结和整理一下,但是他的工作繁忙,一直没有做。我的功力跟他差太远,但是我也想做一些分享。三年前我在伟伦楼开过一个系列的公开课,当时听的大部分是工业界的人,学生来的比较少。因为在校的同学之了解搜索,了解social network。但是一旦进入互联网工业界,你会发现广告绝对是互联网核心的业务,没有比这个事再重要了,因为大家挣钱全都是靠这个。清华的师弟宋波老师给我录了一些课程,放在网易云课堂。

后来总结了这些东西,为什么总结这么长时间?因为互联网领域变化太快了,不要想有一个模特脱光了让你对着画一天,其实沓老在动的。就像广告行业这几年发生的变化太大了,不断想跟着工业界的节奏在走,但是发现新产品、新技术层出不穷。到今年之所以有一个总结,是因为移动的走向差不多有了确定的模式。

大家来这个讲座我相信并不是冲着我来的,是冲着大数据这个题目来的,刚才主持人说我是大数据界的喷子,其实我根本不属于大数据界。因为瞧着眼热,我经常发表一些有关大数据不和谐的声音。大家对大数据的认识和讨论是有点鱼龙混杂的,这是我真实的观点。


今天借这个机会从计算广告的角度谈一谈我对数据的理解。所以我的题目叫做互联网变现和计算广告,谈他们两者之间的关系。

我们还是从一些不太严肃的风格开始,这是我在公众号里写的一片文章,谈谈互联网思维。什么是互联网思维呢?针对中国市场,我总结了三个点:

第一,不要钱,和我今天这本书直接相关。互联网上最核心的商业模式是免费倾销加后向变现。嘀嘀、快的的模式不客气的讲就是倾销,但是不是每一个企业倾销完了都能够活下来或长大,企业在用倾销的方式获得了市场占有率以后,你的免费产品怎么挣钱呢?这就要大量用到后向变现的方式,后向变现就是把我免费产品获得无形资产变成钱的过程。我总结了三种资产:第一,流量,别人在用你的APP的时候你可以顺便在上面放一点东西,夹一点私货。第二,数据,大家都是奔着大数据来的,肯定对这一点很有兴趣,数据怎么变成钱呢?数据能不能挣钱,会有很多人问这个问题,我觉得这个问题特别可笑,数据不仅挣钱,而且是规模化的盈利,这是十年前就已经发生的事情。为什么现在大家还在讨论数据能不能挣钱,这说明很多大数据领域的人并没有真正研究过去在互联网里对数据的使用方法和变现手段。我们觉得有一个规律:一切规模化、个性化传递信息的商品,它的售价都会趋向于边际成本,一个网站或者一个APP边际成本是多少,每多服务一个用户,边际成本应该是零或者是很小一个数,很自然的这些产品的定价都应该是免费的。其他的商品,比如说电视,乐视的电视是多少钱销售的?毛利为零,甚至是负毛利销售,他有非常明确的后向变现的手段,不要担心他挣不到钱,他只要能够做到一定规模,挣钱是板上钉钉的事情,这种挣钱的方式是先进的,别的方式会被打败。手机很明显也会趋向于零毛利的销售。有一些牌子的手机现在毛利已经很低了,甚至是负的,这都不奇怪。还有一些大家可以去探讨,比如说电影,我坚定的认为电影的票价绝对应该是零,这件事情什么时候会发生?以我最保守的判断,绝对不会超过十年。它的原理是这样的,比如说最近有一个片子叫《港囧》,之前一部叫《泰囧》,它的票房非常好,等于卖给了三千万人,三千万人对于大众喜闻乐见的方式来说,太少了,如果我们用免费的方式把它变成三亿人看,后端产生的商业价值难道仅仅是十个亿吗?可是问题就来了,如果我们仅仅把前端免费,后端的变现不掌握,你的片子就白亏了,所以后端变现的体系是非常重要的。我本人也看过一些电影,包括植入的广告,包括各种形式,他们从植入广告这一点来说,他们的商业模式还属于比较低级的阶段,现在这种方式支撑不了把片子免费,还获得十亿以上的收入。这里面有很多利益相关方在里面。不要钱,如果你想知道我的书写什么,我希望大家了解什么,重点是了解这个东西,免费的流量和数据如何变成钱的,它涉及到很多复杂的产品技术。

第二,不要脸。现在大多数互联网产品的营销方式和产品点是无底线迎合用户的状态。特别是在面对比较年轻用户的时候,各个互联网公司在产品的文案上、产品的营销点上都是非常出格的,是跪舔用户的状态。

第三,不要命。互联网有一种工作方式叫9969点工作到9点,每周工作6天。这在很多创业公司和大的公司都是广泛存在的。为什么互联网的人能够这样疯狂的工作?关键的一点是全员持股。硅谷最核心的一个发明就是告诉大家,这企业是你们都有份的,硅谷的全员持股是比所有的技术创新都重要。其他的技术创新是在这个基础上产生的。包括马老板说的,马老板把自己的股份给员工分了多少,他自己就剩下百分之七点几的股份,这是大家拼命在阿里加班的前提,价值观并不重要。


我们重点看第一点,后向变现,或者叫商业化。

第一,商业模式探索。所有免费用户产品在做到一定量以后都会面临这样一个词:商业化。这是一个很大的领域,跟商业化相关的问题也很多。我这边举了一些例子,碰到这些问题你就要从商业化里面找答案,而不仅仅是要用用户的角度去找问题。

第二,流量变现。

第三,数据变现,通过免费的用户产品,积累了一些用户行为或者其他相关数据,这些数据怎么变成钱?近些年来大家发现数据变现的能力在某种意义上还要强过流量变现的能力。数据怎么变现?大家先不要去看大数据领域讲的东西,你先好好学习学习广告,因为数据的变现、数据的交易、数据隐私保护的边界在广告领域得到了充分的研究和工业界实战。你要不了解广告,一定是从头走一遍弯路。

第四,具体操作层面的东西,商业产品的建设和运营。比如说一个公司有广告,有游戏联运,返利购买,他们之间是不是有内在的联系?其实他们都是泛广告产品,背后的商业逻辑基本是一致的,应该共用某些产品和技术平台去实现一个公司整体的商业化战略,这些大家在实际工作中才有感觉,前几个问题都是蛮有意思。我特别希望同学们如果在你的学习之余,除了了解一些用户产品,还能了解一些商业产品的思维、技术,对于你将来参加互联网公司的工作很有帮助。


书的内容是基于我的公开课,以及在北大、北航的研究生课总结出来的。对互联网创业者、对互联网行业的从业者,对计算机相关专业的研究生,我都希望他们从这里得到一些有价值的东西。

从大数据说起,大数据这个词并不是来自于学术界,也并不是来自于纯粹的工业界,而是咨询公司提出来的。这个词的立意非常好,让大家在大的场景下了解数据的价值和作用。由于它这样的起源,在中国现在的状态上,它与工业界实际的数据运用的现状以及学术界的研究存在一定的距离,很多时候是概念到概念。所以我常常讲BIG是汉语“逼格”的音译。我认为必须要找到一个落地的点来看看大数据到底做什么。

我自己对大数据的认识是从工业界来的,工业界对大数据最直观的认识是传统的工具用不了了,微博上有一些朋友来问我,我现在学大数据是不是应该学SASS这个软件,这让我觉得很难回答,我觉得跟那个没有关系,但是卖这个软件的人肯定跟我过不去。我们先要了解大数据研究的是什么:传统的IOE的企业研究的是交易数据的加工和处理,这是非常困难的。因为它要求正确率极高,一条都不能错,实时性要求极高。别以为现在拉一个互联网企业出来就能做交易系统,这十有八九是吹牛。可是互联网企业处理的大数据和IOE处理的交易数据有点不一样:我们关注的大数据主要是行为数据,它跟交易数据有区别:交易数据指业务实施过程中不得不记的数据,比如说存取款、利息,这些数据你不记的话业务没法开展;但是行为数据是可记可不记的数据,比如说网站浏览日志。互联网企业一开始也不是想到要记这些数据,因为服务器自然而然的记下来了,后来他就想能不能为变现带来一点作用,于是就开始挖掘这些数据。行为数据的两首先笔交易数据大很多,交易数据的量如果是1,行为数据一般都在100以上。另外,它对一致性的要求比较低,网站的日志丢千分之一对大多数业务都没有关系。这意味着原来IOE架构对于处理这种行为数据是不合适的,因为它太贵,我们要用一种更便捷、更低成本的方案来处理。所以工业界我们看到是用到的工具完全变了,去IOE化。如果现在互联网企业一拥而上,把银行系统都换掉,那是灾难性的。可是原来IOE的也不要轻易的说你们在做大数据,你们做的事情跟大数据严格来说也没有关系,还是在做传统交易数据的挖掘和整理。

这个图讲的是大数据问题的特点。如果数据可以采样,就不是大数据问题,C类问题,是数据可以采样的问题,比如说要统计360在各个省的用户占比,显然是先对用户数据采样,采样十万分之一。这类问题的特点是稀疏的采样数据,计算的基本不变,这不是大数据问题。你们现在碰到大多数大数据专家都拿这样的案例在糊弄大家,他们把数字大,就当成大数据。大数据应该是A种线这样的特点,这样的问题不能对数据采样。典型的大数据问题是所谓的个性化问题,广告是一个个性化问题:我们要对每一个用户描述其行为特征和个性偏好。如果采样到一百万人,你能影响的广告效果和空间的那部分人群就变成了一百万人,这个系统使得你的系统收益大幅度下降。个性化推荐也是类似。新的问题比如个人征信业务,也需要对每一个人做描述。


我们也可以从另外一个角度理解大数据的应用:如果数据计算的结果是给人看的,不能成为大数据的问题,一定是要给机器看的,要形成一个闭环的决策过程。

数据应用分成两类,一类是Insight,洞察,比如说360对每个省的人口占比,这个结果打出来的是一张表,财务报表、人口统计、百度迁徙地图,这就叫洞察,洞察是整体上把握一些宏观规律,供运营人员和领导用的。这样的领域不能说没有大数据的问题,但是大多数问题跟关系不大。

另外一类应用叫Automation,自动化,输出的是个体的行为特征信息,如果对十亿人进行分析,显然领导是看不了的,只有机器能看。在这种情况下数据的结果主要用于微观的数据实施,面向机器和销售人员。自动化的应用大数据的成分要多很多。我特别不希望大家被宣传带歪了,不能弄一张报表就叫大数据,那个叫商业智能。大数据简要说就是面向大规模的加工行为数据,并且把这个加工结果自动的反馈给机器做决策的应用。这是我的看法,肯定有很多人不认同。


再来看看数据是怎么变现的。左边这个广告位投放的吉列剃须刀的广告,这个广告位卖一万块钱,这是流量价值。由于吉列是主要面向男性用户的广告主,只给男性用户投吉列广告,省出来的用户都是女性用户,可以再找一个化妆品的广告投给女性用户,并向每个广告主各收六千块钱。对媒体来说,投入产出比提高了,收到了一万两千块钱。特别需要强调的是,多出来的两千块钱是什么,就是数据变现的价值。你知道了每一个人是男是女,在原来一万块钱基础上可以凭空多挣两千块钱。仅仅知道一个性别就可以多挣两千,你要知道更多这个人的信息和购物偏好,显然可以挣更多的钱,这些钱就是数据变现带来的钱。

你们在学校可能不太了解广告,但是它太重要了,我们从三个点说明它的重要性。首先从整个互联网来说,这个行业的大半部分的收入是来自于广告,大概要到七成到八成左右。当然有人说互联网是不是没有别的挣钱方法了才用广告挣钱?这种说法是错误的。互联网公司做的产品好用,还是微软做的产品好用?免费产品一定做的比收费产品好用。因为在互联网公司里,用户产品的部门和商业产品的部门是分开的,管用户产品的老大根本不考虑挣钱的事,这把他所有的精力和能力都解放出来,让他可以全身心的服务用户。我的观点是:没有任何的收费产品现在还能做得过免费产品。如果不了解后向变现,不了解广告,你真的不可能彻底的了解互联网。谷歌、脸书90%以上来自于互联网广告,淘宝八成是来自于广告,腾讯一半来自于广告,腾讯游戏业务里面有很大一块是游戏联运业务,本质上仍然是CPS收费的广告业务,算上那一块应该有七成以上。这是一个先进的商业模式,不是无可奈何的事。


大数据有很多应用,但目前规模化的应用我认为目前只有这样几个:个性化推荐是一个、计算广告是一个、个人征信正在尝试中。Palantir是蛮独特的,它是面向政府和公众数据的定制大数据应用,但是在中国的前景还要观察。




广告的规模化营收有多大?北美2013年在线广告总收入是四百亿美金,中国2013年是一千亿人民币,去年达到一千五百亿人民币。中国从07年到2013年在线广告涨了10倍,从17亿美金涨到180亿美金。相对比的电视广告增长了一倍。美国从07到13年电视广告基本上没有涨,08、09年的经济危机的时候还跌了很多。网络广告美国在07年已经很成熟了,两百亿美金,但是它仍然增长了一倍多。报纸广告的数字则惨不忍睹,中国的报纸跌的速度可能比美国还要快,我家附近的方圆一公里以内的几个报亭都没有了。很多纸媒的老板跟我讨论,我们办电子版是不是就能解决问题呢?我个人认为是解决不了,但只这个问题不展开说了。我希望用这个图告诉大家,在线广告是一个发展及其迅速的市场,它的季度复合增长率都达到两位数。并且这个增长速度现在没有变慢,而是在变快,这是因为移动互联带来了大量的新的机会。

传统广告主要做Brand Awareness,即品牌广告,是为了带动长期的利润率和离线的转化率,他希望你记住这个品牌,将来选择它的可能性变大,可承担的利润空间也会变大。可是互联网广告除了能做这种广告,还创造了一种崭新的市场---效果广告市场。为什么互联网可以做效果?我们知道线下发Coupon的效率是很低的,可是线上数字广告可以很方便的对每个人投送不同的内容,短期有购买欲望的人一定是很少一部分人,这特别适合数字化媒体。你并没有看到在互联网广告快速增长的过程中,电视广告快速下降,这是因为以谷歌、脸书为代表的互联网广告面对的是中小型的效果型的广告主,这部分的广告主的总预算加起来比五百强的广告费多太多了。

说到计算,为什么上面这些事要用计算来解决呢?因为商业产品或者广告特别好的一点是,可以用一个公式来表达优化的目标,这一点比用户产品要简单很多。微信火了以后有很多分析师就讨论,为什么微信比手机QQ好?但是这些讨论都是马后炮,或者并不能根据这些讨论重新造新的爆款产品出来。因为用户选择微信或者QQ是非理性的,有一些调研说95后更喜欢手机QQ,这就证明在用户产品优化过程中很难找到一个明确的优化目标。但是广告不一样,它优化目标很清楚。这个大括号里面有两项,一个是r,一个是q, r是收入,投一次广告出去挣了多少钱,q是成本,你得到这次展示的机会付了多少钱,这两个一减就是你的利润,你投广告的目的就是为了优化利润。前面那个求和,表示优化的是一组广告展示上的总利润,这也是广告跟个性化推荐最大的差别之一:广告主有预算的限制,有时还有投放量下限的要求,这使计算变得很复杂。r的术语叫做eCPM——期望千次展示收益。eCPM是广告系统最想要优化的指标,就是要提高r,降低q。除了在DSP中,降低q对于大多数的广告产品来不是核心任务。

广告的过程很简单:再广告展示出来后,如果用户对它发生兴趣,可能就会发生一次点击,然后他在会在落地页上进行更复杂的操作,如果想要这个东西,就会进一步到转化页下单。点击的过程是发生在媒体上的,转化的过程是发生在广告主站内。点击和转化两个量发生在不同的媒体,这带来了一个有意思的分工:点击率和一次点击平均带来的收益。这两个量的分解,决定了在线广告很多有意思的付费模式。





我重点讲讲广告产品的发展过程,让大家了解一下数据在广告业务里发展的核心动力作用。在广告行业里,我们的生产力是越来越多越精细的数据要用到广告交易过程中。由于要用数据,产品在不断地进化。左上角几个灰色的我们叫做合约广告,合约广告是从线下广告直接演化而来的:线下广告以杂志举例,每期开一个位置,双方签订广告合同,这一期放谁的,他给我多少钱。而线上最早的也是这种方式。当时美国有个大的门户叫美国在线,它跟雅虎是不一样的,因为它当时是收费的。而雅虎是免费的,为了变现,雅虎就开出一些banner,投一天或者投几个小时多少钱,也是签一个合同,签完了就执行,这是最原始的方式。这种方式叫CPT,即按照时间来付费的广告模式,在这样的方式里前面讲的数据变现的模式用不了,因此它作为主流存在的时间并不长,很快进化到展示量合约的模式。展示量和约就是前面讲到的数据变现的模式:把流量分成男女两部分分别收买,但这产生了新的问题。你说你的流量一半是男的,一半是女的,这可不一定,比如说一个汽车网站,九成都是男性,只有一成女性,因此广告主会要求一个量的保证。这种加入了展示量保证的合约,是广告领域第一个里程碑式的变革:售卖的标的已经变成人群了,不再是广告位了,广告位只是一个载体。

这个变化进一步发展,会遇到新的问题:如果用特别精细的数据来变现,比如母婴人群,我们定义女性里面孩子在负一岁到正二岁之间的女性用户为母婴人群。这个人群的变现价值高,因为她们往往呈现出全天侯且非理性的购物状态,因此这部分人群单价可能比正常人要高三四倍,我希望把她们单拿出来单独售卖。可是单拿出来有个问题:这部分人的量很少,这有两重原因,首先是确实量就不多,其次是我通过数据能发现的更少。这个小人群如果单签一个保量合同,会发现由于量不稳定,合同很难执行。实际上雅虎GD现在都解决不了这个问题,所以广告主一千到两千就饱和了。还有一种情形是搜索广告,搜索广告的标的物是关键字,有的次三个月可能才有一次搜索,保量是行不通的。

这种状况催生了一种新的售卖模式,就是广告产品上另一个里程碑式变化:竞价广告。竞价的本质是把定价权交给需求方,而原来的定价权是在供给方的。竞价的方式是每个人说这个东西你出多少钱,谁出的钱高就给谁。我不需要跟你约定你拿不拿得到,你自己出价,拿到算你的。这样就把整个市场盘活了,大量的中小企业主开始进入。


继续发展下去,市场上又产生了实时竞价广告,或者叫做程序化交易。这两个词现在很火,它的本质还是希望更多的数据进入到市场中,特别是第一方数据,这里的第一方是指广告主。前面我们说的那么多数据,男女也好,母婴也好,都是供给方给的定义。但是会有一些人群定义,比如说京东的流失用户,这是广告主自己的定义,别人没有任何能力来加工,因为他们你没有这个数据。广告主希望用自己的数据来指导营销。这种数据的价值是高的,甚至远远超过第二方数据。但要想这种数据在交易过程中用起来,现在大家认为比较合理的模式就是程序化的模式,供给方实时问广告主,我这里有一次展示的机会,在这个展示即将发生的那一刻,把请求送到京东的服务器,问你要不要这次广告展示机会,如果要你定一个价格传给我,注意这里仍然是需求方定价。除了定价以外,这里把选择的机会也都交给了需求方。这样的交易模式盘活了很多东西,比如说今天的数据交易,如果没有需求方选择模式,数据交易量的需求绝不会有这么大。


上面这个框是广告交易,下面这个框是数据加工和交易,但是下面这个是广告市场重要的支撑,我呼吁大家,如果你对数据感兴趣,对大数据的价值和交易感兴趣,广告里面的产品你是不能忽视的。因为这里面你确实已经做过很多东西了。它远远先进于其他行业所做的广告交易。


在这儿解释一下三方数据的概念,广告平台是第一方,广告主是第二方,其他的跟广告交易无直接关系的是第三方。

典型的广告系统是一个个性化系统,它由一个在线投放引擎,一个分布式计算平台,一个实时的流计算平台构成。

在这个系统里,数据都是环形流动,我们要尽量避免单点、高在线的同时读写,并且与线上打交道的所有环节应该没有关系型数据库。你可以看出一个真正的大数据系统跟传统的商业智能和数据挖掘是不一样的。如果你线上系统发生了与数据库的数据交换,一定不是一个最优的方案。总之,我们需要一个更轻量级的,吞吐量更高的、一致性可以稍微差一点的系统。


数据交易是很有意思的一个问题,国内最近有两个数据交易所,一个是贵阳交易所、一个是长江交易所,我也关注了他们做的事情,我觉得很好,让大家认识到数据的价值,并且想办法用商业化的方式来运作数据,如果不以商业化的方式来运作,数据交易很难规模化。可是我又看到他们在交易机制上的设计,或者他们对交易数据的理解,跟我认为的大家的状态有一点距离。数据交易应该是什么样的?它关键的问题和障碍都在哪?其实没有解决的问题是哪些?我把这些总结成三个“定律”,当然是个人初步的思考。


第一定律,数据只能交易,不能共享。因为数据变成钱太容易了,你希望百度拿数据拿出来大家共享一下,你还不如说让李彦宏把他帐户里面的钱打给你一部分。但是数据共享在有些层面是确实在发生的,发生的情况有两种:一种是子公司和母公司之间。另一种是政府的数据可以共享,因为政府没有直接盈利、变现的需求。可是我仍然觉得如果政府的数据简单拿出来共享也不见得是好的模式,还是要用商业化的手段做成转移支付。总之我的第一个观点是:数据只能是做价的交换或共享,而做价的交换本质上就是交易。


第二定律,数据交易该怎么做?我简单了解过贵阳和长江交易所,他们的交易有最大的问题,在广告数据交易里面碰到过这个问题,并且部分的解决了:数据交易必须要实现部分交易,才会有真正的市场。我知道全国每一个人的男女,打成一个包拿出去卖,买的人会非常少。因为如果我就在华东五省投广告,买其他省的数据对我都是成本。广告里的数据交易比这还进了一步,不仅仅是部分交易,而且是按效果交易。你在Ad Exchange上买了一次展示,赢得了这次展示机会才交钱。这也是把定价权向需求方转移的过程。我认为在将来任何一个行业,如果能做到定价权向需求方转移,这个行业就有机会做大。按照部分数据交易、并且按照效果交易,这是我们在广告市场里摸索数据交易得到的经验。


第三定律,怎么给数据定价?这个问题广告市场虽然有解决方案,但是效果并不理想。有一个数据交易平台叫Bluekai,它的数据量很大,但是它不怎么挣钱。后来仔细讨论,我觉得数据的交易跟流量交易不一样:比如说你知道一个人是男是女,这个信息你是可以卖给很多人的,但卖的人多了,数据就贬值了。比如说这块地,有的瓷砖下面有金子,有的没有金子。某人有一幅藏宝图,这藏宝图就是数据。但是我们每个人都知道这个藏宝图,会发生什么呢?大家都知道这块地上有金子,大家先来抢这块地,大家先把这个地价抬高。这叫做数据价值向流量价值发生的转移。我个人的设想,将来数据交易应该是限量的。比如一个用户是母亲,一定时间段只让产生三次或者五次交易,这样的话有一个巨大的好处:它有可能让数据交易也变成竞价的方式。这个母亲的信息我只给三个人用,你们自己来竞价,最后排的比较高的三个人用。只有数据交易能够变成竞价的方式,并且是在这么细的粒度上竞价,这个市场才能真正打开。


数据定价和交易本身是特别有意思的问题,而且有可能激发一个巨大的市场,而且这些问题工业界都没有解决,将来大家如果从事大数据,这会是很有意思的一个点。

我的观点是,要想了解数据的变现和数据的交易,了解计算广告是一个必不可少的环节,甚至说是最重要的环节。因为所有的数据使用的历史和产品发展的历史在广告行业走过一条完整的路。其中的弯路没有必要再走一遍。数据的变现和交易都是有市场基础的,并且有它的价值所在,但是数据交易本身有很多问题,有的是在广告市场里已经得到了验证和解决的,有的是我们在广告市场发现问题但没有解决的,还有一些要顾及到隐私问题。

今天借这个机会,我希望以计算广告作为一个引子,帮助大家了解行为数据的使用、加工的过程,将来这一定也是我们大数据市场非常重要的一环。看看大家还有什么问题。



答记者问:


提问:从您刚才说的整个过程来看,您是不是认为现在的广告模式已经到了比较成熟和适合商业化的阶段?您个人对将来新的广告模式可能的突破点在什么地方?

刘鹏:我那个产品图我有一半没有讲,现在的广告产品比较成熟,这句话可以认为是正确的。因为从98年到现在,计算广告已经发展了快二十年的时间。现在大家认为我们对行为数据的使用有点过头,因为隐私问题我们有很多顾虑。但同时忽视了一个问题,我们总是希望了解这个人历史上看过什么,对什么感兴趣,但是对用户现在的场景和情景的把握,在过去的广告产品里是不够的,这就涉及到原生的概念和新的广告模式,这在移动上越来越重要。这一点今天没有时间讲,原生是今后广告市场产品的重要模式。把数据和场景结合起来使用。就现在利用数据的广告模式,从广告交易到数据交易本身,我觉得是比较稳定、比较成熟的。

提问:我有一些朋友也做过广告实时竞价的事情,听他们的意思,做这个事情如何能够确认数据的真实性是一个很大的问题,是使用方在定价,但是他们很多人都无法监督广告发放者你到底给我发了多少,到底发给谁了。这个事情有没有进一步解决的可能性?因为您刚才说,数据能不能只卖给一部分人,如果这样做的话,就像电影一样人为的提高了这个价格,您最开始的逻辑,因为数据再卖一份的边际成本是零,如果我是有流量的人,我免费去卖,这样才能把我的流量价值抬起来,更符合您一开始说的逻辑的方式。

刘鹏:流量方可能就是这么想的,数据只要提高流动性,提高流量价值就可以。但是很多数据提供方并不是流量拥有方,这个市场有意思就在于,有广告需求方、广告供给方、数据提供方,这些人的利益出发点都是不一样的,是博弈的。对于数据提供方而言,并不是前面的目的。我们前面说的概念有一个基础,商品本身是能够规模化个性化传播信息的,而数据本身已经不再是能继续传播信息的能力。所以我觉得数据提供方,跟流量供给方的性质是不同的,流量可以搭别的东西,数据并不能再搭别的东西卖。实时竞价跟需求方定价不仅不矛盾,而且恰恰是一致的:展示量是可以监测的,男女这种有确定标准的,都非常容易监测,而且也有第三方监测公司。其他的标签,比如“体育爱好者”,这种标签有一个特点,没有确定的标准。对于这种模糊的标签恰恰是要用需求方定价的方式来解决,你不用管我这个东西对还是错,觉得他对你值多少钱,就出多少价格。因此,在数据交易中,供给方定价比流量交易还不靠谱。有的数据对有些人很值钱,对有些人不太值钱,如果都是供给方定价,这个市场很难发展起来。

提问:在效果广告很好的情况下,品牌广告主打品牌的方式该怎么选择?

刘鹏:这个问题我回答不了,上周我们跟4A电通安吉斯集团做过一个讨论,品牌广告在数字化营销面前应该如何制订KPI,现在市场没有对这一点的深入研究和了解。现在方式,有人生搬硬套效果广告的考核,最差的例子是汽车行业。汽车行业现在的状态,是所有的广告公司都跟汽车广告主说我可以给你带销售线索,但是实际上品牌广告做不到这一点。除了一些垂直媒体,例如车友会有可能,一般这样说基本上都是在骗人的,他们都是线下买来的一些培训好的人打电话。品牌广告到底按照什么规律制订合理的KPI去优化?还是要回退到对品牌认知和品牌美誉度的提升。但是具体的数字化的衡量指标我现在真的是说不出来,我也特别希望以4A为代表的广告公司能真正的从品牌的核心诉求来研究这个问题。

提问:你刚才提到原生广告和情境广告,现在从一个实际的用户来看,天猫的、京东的或者在手机上推送的广告,包括网盟的广告个性化具体的表现都不是令人满意的。从你来说,做个性化的分析瓶颈在目前这个阶段来看表现在哪几个方面?上下文场景数据、情绪数据、情感数据,怎么采集、怎么分析?对模型的训练和效果的提升哪个方面去发力提升效果比较明显一点?

刘鹏:个性化广告和原生广告是两个维度的意思。原生,首先希望广告跟内容长的差不多,搜索广告最为典型。你在微博和FACEBOOK里看到的广告也有这种特点。还有一种是情境广告,用户当前在干什么,如果这一点做到原生,我们叫做意图原生,搜索好就好在表现和意图都是原生。过去所有的广告,媒体是不参与的,只是放一个联盟的代码就不管了,等月底结账。通过自然语言处理分析页面上下文,从而得知用户意图,这件事靠谱不靠谱呢?基本上能分析的东西很浅,而深入的意图必须有媒体的参与。媒体怎么样参与到广告交易的过程中,提供有价值的上下文信息,如果这件事情能做好,真正符合你的预期的、嵌入你的任务中的广告就会发生。这是产品和运营体系上的问题,不见得完全是技术问题。搜索为什么能做到呢?因为搜索的用户意图就是搜索词。其他的网站里面用户意图其实也很明确,但你通过自然语言处理是分析不出来的。我的看法是,必须让媒体重新参与到广告的投放、决策过程中,但是目前这有很多产品和运营的障碍,不是一两天能发生。淘宝处理能力再强,也不可能投出符合你情境的广告,必须跟媒体一起想办法,从数据和运营层面上突破。

提问:我对数据交易比较感兴趣,您今天提的竞价是很新颖的一个观点。您能提供一些更细节的考虑分享一下吗?

刘鹏:我的考虑蛮简单的,出发点就是数据交易必须体现数据本身的价值。数据交易量很大却不挣钱,但是流量的价值却因为竞价更激烈而提升。数据的交易跟流量交易不同的特点,在于它可以不限量供应,而流量天生就是限量供应,这里面存在机会。这些说法是我个人的说法,不见得很成熟。但是我认为,竞价这个点是所有人努力的方向。现在这个时代任何一个行业要想有爆发式成长机会,一定要变成需求方定价和竞价的模式,供给方定价模式不可能爆发式成长。这是一个开放的问题,大家都可以提自己的想法,没有什么标准答案。

竞价有很多问题,但是现在数据市场并未爆发,因为做数据变现挣不着什么钱。大家真正的热情没有被激发出来。总是要想办法让有数据的人真正挣钱,才能够市场发展的快。至于你说的问题,或者模式会比较复杂,我倒不觉得这是障碍。用户产品发展的规律是越来越简单,给懒人用,商业产品的规律就是越来越复杂,因为它的目标很清楚,就是优化利润。只要利润提升1%,我的系统多复杂一倍都没有关系。


提问:阿里都是电商的数据,都是效果的数据,他自己本身的流量池也非常大,阿里妈妈的整合,整合流量的变现,包括对品牌广告主的开放。

刘鹏:阿里的开放实际上有一个前提,这些广告主的落地必须在淘内。

提问:至少数据变现的价值增值,数据竞价的问题,如果流量被竞价,数据的价值也就被竞价了,至少他自己本身淘内和体系内的流量的价值也会变大。在这里面加成的效果,他变现的体量也不会小,至少他现在一家一家的品牌广告主在谈,越来越多的广告主在天猫开体验点,或者有自己阵地的品牌商越来越多了,这个流量消化在自己体系内,对他是价值不菲的。

刘鹏:在阿里这样的大公司里,各个部门的利益是有博弈的,未必数据部门的利益一定跟公司战略是一致的,里面存在很多的博弈。首先,阿里现在用数据的方式还谈不到数据变现,更多还是用数据去提升内部投放效率。因为你在阿里投,阿里知道每一个cookie男女,跟你在百度选关键字是一个道理,你必须在他封闭的体系内消化掉,你不能把你男女的cookie带出来。这跟数据交易和变现是两回事,还是传统的封闭体系。

提问:现在一有一个尝试,拿出电信的数据做变现的尝试。这个就不仅仅是在阿里体系内。这个事实拟稿怎么看?

刘鹏:我首先要提醒他们隐私问题,因为他们都不太懂。他们老说脱敏,而这是石器时代的观念,不是互联网时代对隐私的正确认识。一旦出大事,就电信领导都兜不住的事。如果说电信数据的质量,所有互联网公司都没有他强,但是电信运营商对行为数据的掌控力在弱化。百度改https了,电信就拿不到百度的数据了,淘宝也要改https了,这是迟早的事情。所以我不是特别看好运营商在行为数据方面长期的价值,但是地理位置和跨屏是他们天然的优势。

提问:刚才您说到一个例子,有一个黄金埋在这儿十个人知道,它的价值变弱了,同样的数据对每个行业的人价值不一样。这个数据对这家公司产生先到先得的效益,对于不同的行业会产生不同的效益。所以我认为数据开放可能会不同行业的拉锯会产生各个行业的应用。

刘鹏:您说的是哪类的数据?如果是行业数据在广告行业也没有太多的东西可以参考,可以单独的摸索和探讨。

正因为数据对不同的使用方的作用和效果是不一样的,最终我坚信一定要走向需求方定价,供给方定价永远都解决不了这个问题。

提问:现在在各大应用市场上有专业的广告传播平台,他既可以给广告主发布,也可以一键转发,用多种传播的渠道平台一键托管的方式,这样的话对广告主也有预算,传播费用在平台上是透明的。对于用户来说,广告主可以把用户阅读自己定价,方便用户来传播,用户看到这个广告,觉得他值得传播,他就产品。

刘鹏:这种叫激励类的广告,积分墙之类的。这种广告传播的效果要打折扣,虽然它的传播量很大。比如说积分墙,你下了以后马上就得删了,这是一个很大的广告市场,但是它的价格比较低,积分墙是正常广告价格的五分之一左右。一些大的手机厂商,例如苹果对这个打击很厉害,主要它在以人为的方式影响榜单排名。这类广告总体上是在走下坡路。因为它有点违反本质的规律,是用激励的方法在传播。

提问:我对广告的监测和追踪很感兴趣,大的广告公司和网盟公司都有自己的监测中心,第三方独立的监测和追踪系统在这个行业里面发展的趋势怎么样?

刘鹏:监测和跟踪,要看监测什么,对于广告可能是展示、点击、转化。点击不需要监测,转化移动应用下载场景下是需要监测的,因为下载安装要溯源,监测往往由第三方公司提供。Appsflyer、Adjust等几个公司在做这个。而展示,是在媒体的网站,广告主不知道,也要委托一个第三方来做检测。但只有CPM付费才需要监测,按点击收费就不需要。由于CPM付费大部分是品牌广告,所以可以认为基本上品牌广告才有曝光监测需求。这个市场你可以计算一下,假设品牌广告的预算一百亿,会有1%的钱交给监测厂商,这个市场就是一亿,总体的市场不大。转化监测也不是一个特别大的市场。

提问:比如说YouTube一上来放广告,然后给你一个按纽就可以关了,但是国内的广告他就一直放,一直放五分钟,这两种方式哪种是对的?

刘鹏:我当然认为YouTube的方式是对的,如果他放五秒你就关了,你对他产生的效果不大,他放五分钟对你的效果仍然不大。国内的市场是劣币驱逐良币的市场。由于大家对广告主承诺了多少量,不得不去完成,为了充这个量,只好掺进来一些低质量的量。广告主会进一步调低他的单价,我再掺更多低质量的,这是个恶性循环。我个人倾向于Youtube的方式,国外一般都是这种方式。

提问:注意到您说的数据交易,您提到了两个交易所,一个是贵阳,一个是长江,现在数据交易不挣钱,而且量也比较少,现在这种交易所有盈利的能力吗?对于交易所未来的发展方向应该是什么样的?

刘鹏:关于行为数据的交易,如果按照脱离应用的交易方式,个人感觉是不work的。如果是统计数据或者其他数据,那跟卖报告是一样的。行为数据的交易,不管是标签还是更细的数据,一定要结合具体的数据应用上才有可能快速的发展。这一点广告市场做的很好,因为数据交易都附着在广告上,他没有独立的数据交易,你买的数据是广告请求带过来的。纯粹的数据交易很难解决部分交易的问题,也很难解决按效果交易的问题。更谈不上竞价的方法。

提问:第一,个性化推荐和计算广告的区别点在哪里?第二,关系型数据库,来做这种广告投放平台,根据它的计算模式应该采用什么样的分布式计算系统?第三,这个计算平台,针对计算广告学这个特定的业务和状态,怎么样来设计一个能够支持他这种有限的条件的模式下,他的整个过程追踪和快速计算、实时处理的平台架构,应该在哪些点上考虑的比较多一些?

刘鹏:第一,推荐和广告的区别,广告的核心引擎跟推荐是差不多的,广告最大的区别是多了一个预算和量的保证。推荐是一个优化问题,而广告是一个市场,市场就涉及到机制,这些是推荐里面没有的。如果仅论及排序、检索算法,两者是非常相似的,但是宏观设计和全局优化有非常大的差别。

第二,我说的主要是线上不适合用关系型数据库,线下还是可以用的。只是server在做决策的时候不适合用。用关系型数据库的成本很高,而且效率一定不是最高的。关系型数据库的特点是一致性高,但这对广告来说无所谓,一千次展示中,有一次算错了没什么大关系。

第三,这儿也说不清楚,你要有兴趣可以看看我书里讲的东西,基本上对框架有介绍,这个在业界相对成熟一点。

提问:刚才你提到现在有一个困难,媒体怎么样通过技术更好的结合做出更好的广告,究竟哪些方面有难点,我作为一个文科生,广告方面内部要做哪些改变,要从哪些角度切入?

刘鹏:比如说马蜂窝是一篇游记,游记下面要放什么广告?如果你是编辑,就清楚这个地方应该放酒店,而让自然语言引擎分析,它会分析出来一大堆乱七八糟的关键字。所以,应该由编辑告诉广告投放引擎,我这儿需要的是一个酒店,是什么地点的。把这些信息给引擎以后,它就可以返回准确的东西。这个流程的自动化是将来原生的难点。由于需要结构化地告诉引擎这个广告类型是一个酒店,地点是在什么地方,交易模式的差别很大,产品运营上要经过很长时间的演变才能到那个地步。



 
计算广告 更多文章 回字的四种写法,与程序化交易的四种模式 电信诈骗算什么,IT技术骗子的厉害你尝过吗? 人工智能的自动驾驶?这是个伪需求 北冥乘海生 | 回忆我的癌症经历 数字营销的破与立 (RTBChina专访刘鹏,暨直播活动预告)
猜您喜欢 互联网服务端技术——如何学(下B) 讲真,这篇技术文章真的辣眼睛! [连载] 途客们的旅行梦:早期产品 互联网+汽车 | 2015年基础研究汽车专题报告 linux shell数据重定向详细分析