All About Programmatic
中国程序化广告科技资讯网

为什么国外跨屏设备识别技术在中国水土不服?

CrossScreenImage_

近日,随着用户在多个屏幕之间的时间碎片化的趋势愈加明显,“跨屏设备识别”问题引起了营销圈的关注和讨论。RTBChina特别针对国内、国外跨屏设备识别的发展,为大家做一个详细的解读:的确,一个普通用户的设备就可能包含手机、办公电脑、家庭电脑、家庭平板、Connected TV 等设备;对于品牌来讲是非常好的平台和渠道,意味着可通过多种设备,在不同的时间和场景,持续的触达消费者,从而提升投放 ROI。如果实现跨屏设备识别一个用户,就可以帮助品牌实现:

 

  • 最真实的『去重』受众到达;
  • 跨设备受众放大;
  • 跨设备控频、Retargeting,并可按场景推送关联信息;
  • 更精准的多屏归因,提高转化率。

所以跨屏设备识一直是广告主最想突破的挑战和诉求。但面对中国复杂的媒体环境,对于跨屏设备识别存在相当的挑战。以当下主要设备为例,跨设备可能会有 PC – PC、PC – Mobile、Mobile – Mobile。如何关联这些不相干的 ID,跨屏识别同一个用户,是夸屏识别的终极目标。目前,不同设备间缺少强关联 ID:PC 上主要标识用户的是 Cookie,Mobile 设备上主要是设备 ID(例如 IDFA、IMEI 等),这也造就了跨屏识别的挑战!

 

目前,行业内主要通过『精确』和『概率』两种不同的方法来跨屏识别一个用户。概率匹配法是国外技术供应商主要使用的方法。而国外供应商到中国,很大可能会出现水土不服的现象。中国媒体环境极为复杂,对于解决在中国跨屏连接的解决方案商,面临的问题不仅仅是概率统计的问题,更多是很难逾越的数据障碍。如下列举几个关于跨屏设备识别在中国所必须逾越的挑战:

 

挑战一:当遇到一个 IP 资源贫乏、流通快速的环境,原有概率匹配方式准确度会明显下降

在概率模型中,IP 是极为重要的识别信息。例如,100 台设备一共能产生的逻辑组合是 2100-1。但是通过共同出现在同一个 IP 之下的设备组合,可以产生的组合相较于逻辑组合则是有限的。所以通常概率模型中,输入的设备配对都需要经过 IP 过滤。

但问题是,中国的 IP 资源和美国的 IP 资源,正如发展中国家和发达国家的区别。据 CNNIC 的统计,中国被分配到的 IPv4 资源大概在 3.3 亿左右,而美国的 IP 资源在 13 年已经达到了 12 亿左右。中国网民大约在 6.4 亿人,而美国网民大约在 2.6 亿左右。简单计算即可知,中国网民的人均 IP 持有量为 0.51 IPs,而美国网民的人均 IP 持有量为 4.62 IPs。基于此种情况下,同样的算法,准确度可能会相差在 9 倍以上。

IP 相关的设备行为,作为国外供应商采用的重要行为特征,面临这种人均 IP 持有量低的环境,对于观察单一个体的行为特征,想达到国外环境下的准确度,是有极大挑战的。

 

挑战二:大规模训练集数据难,数据覆盖不全面,较难规模化

『概率匹配法』涉及用数据模型进行推测,另外可能涉及与真实样本集的比较。如上所述,对于需要初始输入的真实样本集非常重要。基于国内较为复杂的数据环境,拿到的训练样本集不仅量不会很大,且存在脏数据,会对训练结果带来非常大的影响。数据分析有句俗话:『Garbage in, garbage out.』。另外,基于用户隐私的考虑,阿里、腾讯不会把自有的精确数据对国外供应商开放。

另外,若完全采用算法做概率匹配,数据量级及覆盖就会极为关键。作为跨屏数据重要的数据来源,Ad Exchange 是诸多跨屏技术公司的主要数据来源。但是国内,真正具有数据价值的 Exchange 的开放程度与数据支持粒度极为有限。例如以专注某行业的 Exchange 为例,其数据来源主要来自于一些 PC 端的门户网站、垂直网站及视频,无法覆盖到对应的 Mobile 目标人群。试想最主要的目标人群难以被覆盖的情况下,并没有数据去进行推测,想达到效果会非常艰难。

                             

挑战三:山寨机、安全助手和广告屏蔽插件造成的 ID 不稳定

中国互联网有三个特色的东西会造成数据的不准确。第一,山寨机横行,在刷 ROM 的时候,很多 Mobile Device ID 是重复或者错乱的。第二,国内 PC 和 Mobile 上的安全助手装机量巨大,安全助手的一键清理浏览痕迹功能会重置 Cookie,导致 Cookie 本身的生存周期较国外平均短很多。另外与国外不同的是,国内第三方浏览器占比高,并且大部分第三方浏览器(包括 PC 和 Mobile)都默认开启了广告屏蔽插件,会拦截网站上的广告展示,这也会影响国外公司通过广告(尤其是 Exchange)获取行为数据的采集方式。以上三种情况均会造成识别 ID 的不稳定,降低概率匹配的准确度。

 

 

国外跨屏解决方案供应商情况剖析: 

目前国外巨头的数据完全不开放,也不接受任何方式的合作,整个营销生态体系中也如雨后春笋一般出现了诸多致力于解决跨屏问题的供应商。其中不乏传统营销技术公司,如 Adobe、AOL、MediaMath ,同时也出现了诸多广告技术新秀,如Adelphic、Crosswise、Iris Mobile、Drawbridge、Tapad、Screen6 等。以下我们介绍业内名声较旺的三家技术供应商。

 

Tapad

Tapad 技术方案是通过与 Datalogix 和 YP 等离线数据采集供应商合作,获得第一批真实用户的数据,并以此进行原型模型训练。Tapad 宣称通过对数以亿记的脱敏数据(Non-PII),来挖掘出区分度较强的行为特征,从而进行跨屏识别。例如,单一消费者在自己的PC上查询关于购车的大促信息,又通过手机查询了附近的一家4S店的信息,最后又在平板电脑上预订了一张飞往某地的机票。观察这些脱敏的行为过程后,Tapad 通过计算这样三个数据点直接交集,来判定这三台设备(PC、手机、平板)是属于同一个人,或是完全不相干。

这家公司与国外第三方公司合作,验证其设备图谱(Device Graph)的精准度可达到 91.2%。公司除了提供跨屏识别服务外,还提供基于其衍生出来的广告应用,例如 LBS 定向服务、重定向服务、跨屏统计工具、受众扩充及 DSP 服务。例如广告主将自己的 PC 端重定向数据包上载到分析平台上,即可获得对应的 Mobile 端设备信息,用于后续的重定向投放。

 

Drawbridge

与 Tapad 类似,Drawbridge 同样采用脱敏后的个人数据,放弃关于物理地址、电话号码、电子邮件、社交 ID 等信息使用。通过将不同平台,及通过在 AdExchange Bidding 中获取的设备信息进行聚合,用于概率模型训练,并进行跨平识别。Drawbridge 宣称已经收集了30亿台设备。

在他们的方法中,主要的行为特征来自于地理位置信息。例如,一台手机与平板电脑经常出现同一地点,作为可接受的结果,其就会将两者进行关联。不同概率模型的链接可信度不同,Drawbridge 提供对应的修正过程,将链接的设备簇(Device Cluster)进行行为特征监控,其特征包括设备浏览时间、设备总数等等,并利用此重新更新设备与设备之间的链接关系。

 

Crosswise

Crosswise 是一家来自以色列的公司,提供类似前两者的概率统计方案。主要通过监督性学习进行模型训练。其训练集的数据主要来自 Axicom 等供应商的数据,用于调优匹配模型。

作为后起之秀,Crosswise与前两者不同之处在于,其用于设备匹配的信息字段是最多的。例如 Wifi 列表、GPS 定位信息、广告展示信息等等,提供更为可信的概率推断。作为新兴的广告技术趋势,Tapad 和 Drawbridge 都纷纷向 DSP 方向靠拢,更多的参与到广告投放的环节,但 Crosswise 依然坚持扮演独立技术提供商的角色。

综上,在中国复杂的媒体环境下,如应用国外技术,采用概率匹配法对接时需要特别注意两个关键的点:一个是构建真实训练集的数据是否足够准确、全面。另外是模型及算法,是否足够完善,考虑及能够是别的行为特征相对全面。提供跨设备识别公司使用的具体方法和模型差异也比较大。例如 Drawbridge 在其计算中主要用其自己获取到的广告投放数据及部分确定的数据集做为训练数据。Tapad 则通过一些可以明确获取跨屏幕数据的公司拿到更大量的真实训练集数据,并基于这部分训练数据,训练其概率图模型,从而能随着时间的推移,计算出跨屏 ID 的关联关系。

 

无论当下还是未来,跨屏设备识别一定是营销人员需要重点关注的技术,但需要注意: 

  • 国外已有技术供应商提供类似的服务,普遍认知准确度约为 60%;
  • 基于国内的特殊环境,国外服务商的打通方法面临严峻的挑战;
  • 品牌需要谨慎评估跨屏设备识别供应商。

 

综上所述,建议品牌广告主能够采取的行动:

  • 细致评估供应商,并进行长期的测试;
  • 谨慎识别准确度、精准度等名词的含义;
  • 鉴于国内的现实情况,尝试寻求一种方式与巨头(BAT 等)合作。

 

随着已经来临的 CTV 、可穿戴设备、物联网的技术,跨屏设备识别的概念也在不断扩大。跨屏识别技术将是行业持续保持高效关注的重点,也需要有大量研究和应用投入,以便于适用在国内的媒体环境中。

 

~~~~~~~~~~~~~~~~~~~~~ 

*注释:

 

精确匹配法

依赖于互联网产品的强账号体系或个人身份 ID 进行匹配。例如,当用户使用了同一个电子邮箱登陆一个 App 和一个网站,此时就创造了设备之间的联系。只要用户跨屏登陆设备,广告主和媒体可以使用电子邮箱这个唯一标识在多个屏幕上以近乎完美的精度定向到这些用户。

这个策略的有效依赖于大规模、跨平台的用户覆盖,意味着这注定是仅适用于巨头的选择。国外例如 Facebook、Twitter、谷歌和苹果,他们都拥有同时需要登陆的跨 PC 和 Mobile 的海量的用户基础。

 

概率匹配法

此方法是基于设备类型,操作系统,IP 地理位置数据,时间序列数据和许多其他的特征,使用算法分析匹配来实现。例如,我们从数据分析看到一部 iPhone 和一台 PC 电脑在工作日的每天都同一时间连上了一个同一个网络或者 Wi-Fi 热点,这两个设备属于一个人的可能性会比较大。显而易见的是,这种方式需要海量的数据集支持。

概率匹配法还有一个演进,即先构建一个真实的数据集做为参照(其中包括已知的确定匹配对和不匹配对),再利用算法去分析比对,从而提升准确度。

但是概率匹配方法不是一个完全精确的匹配方式,提供此种方式的技术提供方通常宣称其匹配准确度达到 70% – 90%。

赞(0) 打赏作者

觉得文章有用就打赏一下文章作者吧

微信扫一扫