什么是NHT?NHT是Non Human Traffic (非真人流量)的缩写。这是一个中性的名词,并无褒贬,是指互联网访问量中非人类正常活动造成的那部分。主要可能包括各种网络爬虫、监控分析程序、内容采集器、被病毒木马控制的主机(僵尸网络)、制造的访问;也包括人类编写的程序出于各种目的变换代理和IP对网站进行的访问,其目的,你懂的。NHT中的某些成分(除搜索引擎等明示身份的访问量以外)就像牛奶中的三聚氰胺,在普通的检测中被用来提升蛋白质的含量。
据某国际网络安全公司Incapsula总结的数据全球31%的网页访问量由非真人行为造成。我国国家互联网应急中心CNCERT的数据揭示:2012年我国有1419.7万余台主机被僵尸网络控制;2013年五月感染网络病毒的终端数量为363余万。NHT对包括实时竞价广告在内的整个互联网广告体系的影响不可低估。在旧体制的网络广告售卖环境下,NHT很难被有效排除,但在RTB环境下,由于在每一次广告展示拍卖前DSP有若干毫秒的时间可以用于识别NHT,如果Exchange, DSP, 广告主等多方携手,是完全可以最大限度地摈弃非真人的广告展示量。转译一篇来自OpenRTB协会的倡议书供大家参考。
__________________________________________________________
原文: Non Human Traffic signaling in OpenRTB
[译文]OpenRTB的非真人流量(NHT)识别
日期:2013年5月16日
致:OpenRTB开发列表和感兴趣的人士
由:Neal Richter,RubiconProject首席科学家,OpenRTB联席主席
僵尸网络和所谓“非真人流量”是当前的热门话题。我们要认真对待这个已形成产业的行为,最好的办法就是技术平台进行协作并共同努力,检测、管制和预防此类活动。
倡议如下。
交易平台的责任
通过以下最佳实践,尽最大努力分类并拒绝“非真人流量”广告交易请求:
- (推荐)通过用户代理(user-agent)分类过滤已知爬虫
- (推荐)通过’检测器’过滤可疑NHT的广告展示
- (可选)过滤IP黑名单的广告展示
其中,
•过滤“广告展示”指广告交易平台响应有一个空HTTP 204响应或非付费广告(PSA公益广告)的“广告调用”
•广告展示不应该提供给任何RTB需求方合作伙伴。
竞标者的责任
- (推荐)通过用户代理(user-agent)分类已知爬虫的无竞标广告展示
- (推荐)通过’检测器’的可疑NHT的无竞标广告展示
- (可选)对IP地址黑名单的广告展示不竞标
- 不竞价可以有一个可选的原因代码
其中
•DSP应该按以下建议回复一个事件,而不是仅回复一个HTTP 204(空)
用户代理(user-agent)过滤
IAB和其它供应商都有提供HTTP用户代理列表。当用户代理匹配已知“网络爬虫”列表,建议过滤广告展示或返回不竞标且标明原因代码。
IP过滤
在所有情况下用于任何过滤的IP地址应该是原始IP,而不是中间代理IP。
如果交易平台使用一些服务器间的代理接收请求,那么IP过滤应被跳过如果有访问令牌的话,或者交易平台应使用原始IP。
市场上现在已有各种来源的IP列表,如云计算,托管服器的IP地址,匿名代理等。疑似僵尸网络的相似IP列表也有途径获得。
NHT检测器
建议交易平台和DSP按本倡议书规格创建和部署NHT“检测器”。检测器的目标是通过各种方法将广告展示分为“真人流量”和“非真人流量”。
有许多提供这类服务的供应商。许多业公司开发了内部专有技术,检测各类NHT。
检测器的进一步建议详情不在此倡议书范围内。
OpenRTB协议扩展
在竞价响应的根对象添加一个可选的“无竞价”字段和参数。
1)为竞价响应添加一个代码,包含如下列举的原因:
值 |
描述 |
0 |
未知错误 |
1 |
无效请求 |
2 |
已知网络爬虫 |
3 |
疑似NHT网站 |
4 |
疑似NHT用户 |
5 |
云计算或服务器托管数据中心,或其他代理IP地址 |
6 |
不匹配用户 |
7 |
无可用竞价 |
8 |
无底价以上竞价 |
9 |
不支持或被屏蔽的终端 |
竞价响应举例
{“id”:”1234567890″, “seatbid”:[], “nobid_code”:3}
注意OpenRTB 1.x的规格有一个“’nbr”字段(不竞价原因)和一组值。因为使用不足,它在2.x标准中被弃用。
日志记录和处理
交易平台然后可以选择记录这个无竞价代码做进一步分析。
推荐的最好做法是为每一个广告展示使用投票机制,逐渐将某类型的广告展示提炼为模式归类添至检测器。例如,如果N个DSP均认为某个请求是NHT,那么它将被提取,分析其频率和分类的准确性。
可能出现的难点¶
移动和视频通常使用中间代理,在请求到达交易平台之前。因此试图IP过滤需要考虑更多。建议采取允许这些广告展示的因地制宜的措施。
.
其它方案
另一种方法可能是设计一个各方之间的用于分析NHT模式的离线交易平台。这涉及到设计一个新的协议。
开放问题
来自匿名代理,例如Tor之类的网页访问,如何处理?