缔元信.网络数据CTO罗文川在接受CSDN采访时表示,企业在选择DMP平台时,需要考虑四大因素。他认为,首先是DMP数据平台的数据丰富性,是否能够对自身产生价值;其次是DMP平台是否提供相应匹配的应用,可以方便的使用自己的数据;第三是DMP平台的技术能力,是否有较强的系统架构来支撑 DMP体系;第四是DMP平台运营方的服务,DMP平台的运营方是否可以在数据的应用上给与企业更多的帮助。
作为第三方互联网数据服务提供商,凭借自主研发的超大型网络数据服务平台,缔元信以独有的全景数据服务模式,在网站运营效果、网络媒体价值评估、网络广告营销效果、网络公关舆情、电子商务等多方面为各类网站、品牌企业、公关及广告代理公司、政府部门等提供翔实专业的数据监测、分析及咨询服务。
目前缔元信已积累4亿以上可连续分析的网民行为数据,日平均数据处理能力达30亿条,客户群覆盖国内主流媒体网站、政府、汽车、IT等行业。缔元信在底层数据积累上拥有巨大优势。日前,CSDN针对用户关心的一些问题对缔元信.网络数据CTO罗文川进行了一次专访,以下为采访实录。
北京缔元信互联网数据技术有限公司CTO 罗文川
缔元信技术团队
CSDN:首先介绍下自己和缔元信以及背后的技术团队?
罗文川:我是2007年在缔元信成立时加入的,当时在公司负责缔元信数据统计产品的开发,在2012年担任缔元信CTO,负责缔元信技术管理工作。
缔元信技术团队有40多名员工,分为三大部分:产品开发、系统研发、系统运维,产品开发负责缔元信所有业务产品的展现、计算等工作;系统研发负责数据平台的研发工作,包括系统架构建设、数据处理、挖掘等工作;系统运维负责系统平台稳定性保障工作,对缔元信几百台服务器以及网络做维护管理工作。
CSDN:能否谈谈你对目前国内数据分析领域的发展现状,缔元信在这领域的定位?
罗文川:国内的数据分析领域,从我们和客户这么多年的接触来看,越来越多的企业意识到数据的重要性,很多的企业从无数据到有数据,从有数据到有可用数据,再从可用到有用的企业数据化过程。而“可用”与“有用”,一个是数据管理、一个是基于数据管理的数据开放,也是当前应用大数据最急待提升的环节。业务与数据脱节、急功近利追求速效、数据孤岛模式,这些问题往往使企业的数据化进程停滞不前或无法实现数据的价值增值。
缔元信一直在通过数据应用来帮助企业做数据化运营管理,并且在数据使用的易用性上做了很多工作,像我们今年开发的网站用户画像、网站路径分析等产品都收到了客户的好评。
产品构成和用户
CSDN:缔元信目前的产品构成和业务方向如何?
罗文川:我们的产品对网站提供了“一站式”解决方案,从网站基础每天流量数据统计到用户兴趣图谱分析、内容推荐、广告指导等。缔元信的数据产品有 SiteRating网站流量监测系统、AdRating网络广告效果监测系统、ClickRating用户点击统计系统、AppRating App数据管理系统、UserPortrait网站用户分群画像等。
CSDN:目前公司的客户规模和构成怎样?有哪些重量级客户?
罗文川:目前缔元信客户群覆盖国内主流媒体网站、政府行业主管机构、大型DSP公司、顶级4A代理机构及汽车、IT、快消、家电等行业的一线品牌企业。
包括像新浪、网易、搜狐、凤凰、中华网、央视网等网站,及上汽集团、仁和药业、锐捷网络等企业以及meidav这样的DSP都和我们有合作关系。
优势和技术架构
CSDN:针对互联网数据分析的公司,国内也有很多,相比其他数据分析公司,你们的优势在哪?
罗文川:缔元信的几个优势:
缔元信的核心团队成员在加入缔元信前都有较长的网站工作经历,对于网站的运营、网站数据运用方面有较深刻的理解;
缔元信从2007年成立就一直在为网站进行服务,在这7年中积累了大量的数据分析经验;
缔元信每天覆盖30亿pv,约2亿用户的访问数据,在底层数据积累上有较大优势;
CSDN:能否分享下你们的数据挖掘平台的技术架构?在开发过程中最大的困难是什么,有哪些好的经验分享给大家?
罗文川:缔元信的数据平台架构图如下:
数据收集:我们统计各种数据的方式是在网站的页面上嵌入一个 Javascript文件,当用户访问网页时,javscript代码会统计用户访问的当前页面、来源页面、Flash版本等信息,并拼成一条Url发送到我们的数据接收服务器(移动端则是在App上嵌入一个SDK包)。我们的接收服务器使用lvs+nginx做数据接收,收到的数据以web日志的格式保存,数据传输工具我们使用的是flume,flume是一个分布式高可用的数据收集工具,它通过简单的配置就可以实现海量数据的实时传输。
数据处理:数据通过Flume汇聚会最终保存在Hadoop上,首先我们会对数据进行清洗,清洗的目的一个是将日志中所需要的字段提取出来,做结构化处理,另外一个目的是去掉脏数据。对于清洗后的数据,我们会按照统计业务的需求对数据计算,并生成计算结果提供给统计业务进行查询,另外我们还会对这些数据进行挖掘,分析用户的喜好、兴趣点等特征。
数据应用:根据不同的需求产生前端的应用,通过后端API获取数据并呈现。
开发中的几个困难点:
1. 海量数据的处理,我们的数据平台每天都会有30亿上下的新增数据,这些数据如何能够在有限的计算资源中按时完成处理是一个非常大的挑战,这需要我们从系统和处理程序上做不断的优化。
2. 语义分析,为了分析用户的喜好,我们需要对用户访问的网页进行语义分析,通过得到文章所讲述的内容得到用户的关心的内容,这一块我们目前有一个团队在专门负责这项工作,目前也取得了一些进展。
3. 行业知识体系的整理,比如说一个用户喜欢汽车,那么他关注的什么级别的车、什么品牌的、什么价位的,购买一款汽车他更关注架构、外观还是油耗?这些都需要有一个知识体系来支撑的,我们从2010年开始成立专门团队负责行业知识体系的整理。
企业如何选择DMP平台
CSDN:注意到目前关于企业是建立“第一方”还是“第三方”DMP平台还有一些争论,你怎么看?
罗文川:第一方的DMP平台更强调企业自身数据的独立性,可以更有效方便的管理自己的数据,但是第一方的数据可能是孤立的、片面的,他只能反映企业所能接触到的数据的情况。而第三方DMP平台会将不同渠道、不同种类的数据打通,形成立体的数据链条,可以说产生1+1大于2 的数据价值。数据只有不断的互联互通才能发挥价值,大数据发展则必须要避免孤岛数据。在这样的思路下形成的数据化营销,使用户在互联网上的行为数据都可以进行全过程、全样本的记录,而因为来源于全网,其呈现的价值是真实而有效的,并且随着数据链条不断延伸,数据之间的相互关系更丰富更完善,应用效果也将越来越大。当然从行业角度来看,不管是第一方还是第三方的DMP,能够对企业产生积极的作用就好。
CSDN:你觉得企业在选择DMP平台时,需要考虑哪些因素?
罗文川:首先是DMP数据平台的数据丰富性,是否能够对自身产生价值;另外DMP平台是否提供相应匹配的应用,可以方便的使用自己的数据;第三是DMP平台的技术能力,是否有较强的系统架构来支撑DMP体系;第四是DMP平台运营方的服务,DMP平台的运营方是否可以在数据的应用上给与企业更多的帮助。
CSDN:站在用户角度,他们最关心的问题有哪些,你们如何应对的?
罗文川:用户最关心的问题就是我们的产品和服务能给他们带来什么价值,也就是能否帮助用户赚钱或者省钱,我们的产品也是基于这点来进行设计的。
Via: 缔元信