欧阳辰：谈营销效果评估时，我们在谈什么？ | 科学营销观（三）

时间: 2017-06-15 03:53:12

编者按：这是Morketing联合秒针营销科学院（MAMS）“科学营销观”专题的第三篇，在上一篇文章中，蒙牛集团数字化营销总经理郭锐从广告主的角度来谈营销效果的评估问题。今天，秒针营销科学院科学家、品友互动CTO欧阳辰从技术的角度，分享他对营销评估的观点。

秒针营销科学院科学家、品友互动CTO欧阳辰

没有度量，没有改进！

如果一件事情无法通过数字来衡量，那么我们无法进行持续改进，价值也不容易谈清楚。那么，万事万物是不是都是可以度量的呢？我看过一本印象很深的书，《How to measure anything》（《数据化决策》）回答了这问题，这是一本真知灼见但罗里吧嗦的好书。作者认为，任何事情都是可以度量的——通过20万人的调查，新款可口可乐比老款口味更好；一段幸福的婚姻大约价值每年额外的2万英镑收入！

如果一切事情都可以度量的化，当我们谈营销效果评估时，我们谈些什么呢？

营销效果评估三重环

对于做任何事情，我们都可以分解成Why，How，What。其中Why是核心，搞清楚营销的目标是为了什么？而后的执行和评估都容易理顺。

营销目标究竟是为了什么？(Why)
使用哪些核心指标来度量营销效果？(How)
如何获得更加全面的营销评估结果？(What)

这三点中，营销目标是效果评估的本源，也是最核心的问题。营销目标是有从抽象到具体的一个过程。虽然，营销目标总是可以拔高到品牌形象提升，销售收入提高；但是，有经验的营销专家和CMO们却能将这个宏观的营销目标，具体分解到不同的层级，不同的渠道，不同的创意等等，不同时间阶段等，而后进行评估。每一次营销实际上都有针对性的目标，例如，提高三线城市对某品牌的感知，提高移动应用的有效安装率，触达更多的人，拉活APP等。

对于效果广告，指标往往简单直接，容易理解，度量方法也有迹可寻。对于品牌广告，合理的和阶段性的评估指标是非常重要的。无论是品牌还是效果，都存在类似的营销推广漏斗，阶段的核心诉求有着相似性，但每个阶段的具体形式和时间稍有区别。

营销效果评估的三阶段

营销漏斗这么复杂，我们究竟使用哪些核心指标来度量营销效果呢？营销效果的评估是个历史悠久的综合性问题，随着技术的发展，营销的多元化，效果评估现也变成越来越复杂的问题。

我把互联网广告效果评估的发展分为三个阶段：

第一阶段（互联网广告出现到移动广告初期），以展现和点击量为主，早期的互联网广告的评估指标比较少，展现和点击往往是最关心的数据；

第二阶段（移动设备初期---现在）：受众分析，除了简单的展现点击，广告主更加关心广告展现给那些人看了？哪些地方的人看到了，男女比例如何？传统的GRP从电视行业转移到互联网视频的iGPR；

第三个阶段（即将开始）：数据赋能的智能评估。广告投放通常是多种渠道，长期的，多重目的的，典型媒体渠道包括搜索，视频，信息流等，购买形式也分为直投的、程序化购买等。

对于繁花似锦和龙蛇混杂的投放，到底如何制定一个适合自己的方案，如何通过效果评估来获得推理，这是让很多CMO和营销管理人员长期痛苦的地方。我觉得，从目前开始，我们将迎来一次重要的营销智能变革，科学的效果评估将是这个变革的导火索。因此，我把第三阶段的效果评估称为数据智能评估。

这一阶段将利用更加复杂的大数据、更加科学的方法、更加智能的算法，对营销效果进行整体和综合的评估，找到营销的最佳方案。这一阶段还处于萌芽状态，很多大数据技术、智能评估算法和互通开放的营销环境正在拉开一场全新的大幕。

具体来说，一些全渠道的归因，科学的AB测试，一些涉及心理学的一些人工智能技术，这些都会积极帮助提高营销效果评估的准确性，指导预算更科学的使用。

营销评估的一些最新技术

这一小节会将介绍几种最新的营销效果评估技术，其中有些技术还处于初级阶段，但我深切感受各个国内外不少营销公司对于这个领域的决心和执行力，利用大数据和工匠精神，一点一滴的改进我们对于营销的理解。

1）Facebook的RTC效果度量实验

对于效果评估，虽然Facebook和Google有丰富的数据和技术，但是它们都在不断的改进效果评估的准确性和科学性。为了找到更好的评估方法，两个公司都不约而同都邀请第三方的数据科学家，与工程师长时间研究提升评估准确率的方法。

Facebook在2017年发表了一篇论文，《AComparison of Approaches to Advertising Measurement:’ Evidence from Big FieldExperiments at Facebook》。这篇文章由美国西北大学的教授和Facebook工程师联合发表，他们一起做了数年实验，揭示了大量常见的实验简论都是有偏见的，他们提出了利用RTC（随机对照实验）方法，可以更加科学的选择对照组（Control Group），以消除常见的偏见（Bias）。

RTC是一种常用于药物疗效评估的方法，基本原理就是将研究对象随机分组，在一些重要纬度上保持相同的随机分布，消除个体对于实验结果的影响。这篇论文，对于Control组的用户，也进行模拟广告竞价，找到那些与Treat组类似的用户，作为最后的Control组的有效成员。

Facebook还分享了其他几种评估技术，EM是简单的分为曝光组和非曝光组，这种方式很容易引入转化的提升的偏见。

2）谷歌的Ghost Ads

Google在2016年发表了一篇论文《GhostAds: Improving the Economics of Measuring Ad Effectiveness》，Rochester大学教授和谷歌几个数据科学家一起联合数年的结果，项目本身也是为了提高度量的科学性。在效果实验中，实用受众通常分为治疗组（Treat Group）和对比组（Control Group）。治疗组通常是投放广告的受众，而对比组是没有看到广告的组。现在，越来越多的广告平台都是竞价平台，广告是否曝光给一个用户都是通过很多算法优选，因此，有转化意图的相似用户，更加容易被选择显示广告，那么这就造成被展现广告的用户本身就受到平台算法而带来的偏见。Ghost Ads就是一种改进Control Group的选择，通过重放竞价过程，从而选择某些用户作为Control Group 的成员，极大提供了效率和科学性。

这种方法核心的目标是提高Control组的科学性，那么这种方在实施是通过二次模拟竞价过程，对于获得赞助广告的用户进行标记，而且显示一些公益广告（以区别赞助广告），而后进行Control组和Treat组的比较。Ghost Ads的基本思路和RTC的思路有些接近，但是实现细节有些不同。

3）重要且有趣的辛普森悖论

很多人认为只要定义好指标，利用Ａ／Ｂ测试就能快速得出结论，其实不然，有的时候，两组貌似必然的数据会让你得出相反的结论。

辛普森悖论（Simpson’s Paradox）是英国统计学家辛普森于1951年提出的悖论，即在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并考虑，却可能导致相反的结论。

举个例子，北京大学和清华大学的学生都抱怨“男生录取率比女生录取率高，学校存在性别歧视”。但是，教育部在进行总录取率统计时，却发现女生录取率却远远高于男生录取率！

这看起来是不是有些奇怪呢？其实，很多广告效果评估也有类似的效果，综合分析并非都是1+1=2这么简单直接。

4）全渠道归因

归因分析可能是广告技术中最复杂的一个问题，其复杂来源几个方面：难建模，难验证，难应用；但从另外一个方面说，它又是重要无比的，它可以帮助回答“我的50%广告费用都浪费在哪里了？”，我的广告预算分配如何更加合理？

归因分析(AttributionAnalysis)要解决的问题，就是广告的Conversion的产生，其功劳应该归功于哪些渠道；举个例子，广告主投放了信息流广告，搜索广告，视频广告，转化(Conversion)很多都直接发生在搜索广告中，那么这些Conversion完全是搜索渠道功劳么？其实未必，很多转化都是用户在观看视频广告/信息流广告之后，引起用户注意，而后用户做了大量研究后，最后一次转化发生在搜索引擎渠道中而已。因此，在PC时代，搜索引擎收割各个营销渠道的成果，成为了一个不争的行业秘密。

归因的方法有很多种，行业里使用比较多的，包括最后一次，平均权重，时间衰减权重等。复杂一些的归因技术，会使用夏普里值方法，夏普里值（Shapley Value)指所得与自己的贡献匹配的一种分配方式，由诺贝尔奖获得者夏普里提出，基本思路就是：在各种可能的联盟次序下，参与者对联盟的边际贡献之和除以各种可能的联盟组合。其它的方法还包括医学上常用的生存分析，马尔克夫链等。

这里介绍一下夏普里值，举个例子。

5）基于人脑的分析和评估

营销活动很多终极诉求是提升品牌影响力，影响消费者的购买行为。之前的很多评估是通过购买行为本身作为主要优化目标。但是，这个购买行为究竟是如何而来，品牌到底给消费者留下什么样的情绪和影响？这往往是鲜有人关心的，这也是传统营销效果评估的薄弱环节。人们看了一个制作精良和广告（例如百雀羚广告），或看到一个平淡无奇的广告，如何评估广告对人们情绪，心里和判断力的影响，这些分析能够帮助我们设计更加打动人心的营销方案。

去年的时候，数字新思和腾讯微信曾合作，共同研究视频APP和微信短视频对于用户认知效果和情感效果的评估，进行两种营销模式的等价性和效果分析，这些都是非常有意义的。在那份报告中，一些目的性，认知效果，情感效果都有一些有趣的结论。

相信通过大数据技术，更多的传感器设备，例如视频分析，我们更加有能力深入到人们思考购买决策后面的效果评估中去。

结束语

罗哩罗嗦把这边稿子写完了，如何评估这篇文章的效果（含水量）？看看阅读量？看看转发量？看看点赞数？好像都不是，这些都不是我特别在意的指标。回过头想想，我为什么要写这篇文章？原来，这篇文章是秒针营销科学院和Morketing的约稿，因此评估这件事情效果的指标就变得简单而直接了，有读者通过公开渠道看到这篇文章，对我来说就是胜利！

部分参考资料：

1．王晔@吆喝科技，浅谈AB测试里常见的辛普森悖论

2．Facebook, A Comparison of Approaches to Advertising Measurement:’ Evidence from Big FieldExperiments at Facebook。

3．Google：Ghost Ads: Improving the Economics of Measuring Ad Effectiveness。

4．腾讯&数字新思：《两种典型移动互联网场景下视频广告的价值研究 ——对比视频APP前贴和微信朋友圈视频》