(贝云网络科技)

工欲善其事,必先利其器。强大高效的大数据技术体系对开展大数据业务有着重要的影响。在大数据应用的众多领域(如互联网服务、电商和在线广告等),相关技术体系的介绍已经屡见不鲜。本文中将介绍HCR如何针对研究行业的特点,打造先进性与实用性兼顾的大数据技术体系,推动公司大数据业务的发展。
大数据业务特性分析
好的技术体系必须贴近实际业务要求。我们先来分析大数据在研究领域的业务特点:
大数据技术体系
针对上述业务要求,HCR设计建设了具有自身特点的大数据技术体系,如下图
所有集群服务器安装Linux的Ubuntu发行版本,文件默认基于Ext4和NFS。分布式文件管理采用HDFS/HADOOP框架,这是大数据系统的标配,不多介绍了。
HCR的大数据源,就形式而言,主要是结构化和非结构化(以文本为主)两类。这里综合使用多种系统实现所有数据的管理和检索。
业务计算是大数据技术体系的核心。包含了对所有业务逻辑计算/分析的支持。
分析工具是HCR大数据技术体系的最上层,主要由各种工具组成,支持各级数据研究人员完成对大数据的快速探索。
整个技术平台的选型在考虑先进性和深入分析能力要求的基础上,更多考虑了实用性、低成本(基本采用开源系统)和管理使用方便性等因素,使得平台非常适合HCR大数据业务的需要。
大数据平台部
针对大数据技术的专业性要求, HCR构建了专门的大数据平台部。团队以以清华、北邮计算机博士为核心,所有成员均为计算机专业硕士以上学历,在分布式体系架构、机器学习和数据挖掘方面具有5-10年以上的丰富经验。HCR大数据平台部主要负责:
已完成工作和后续目标
大数据平台部成立几个月来,已初步完成了技术平台选型与一期系统设计搭建,并对公司现有大数据资源进行了清洗整合。一期平台当前可分析数据信息接近400亿/30TB,每天分析的行为数据约10亿(存储数据近4亿)。在研究分析上,完成了多项基于大数据的研究计算/分析与可视化展示(如移动互联网用户24小时行为模式、2015春运迁徙图分析等),更重要的是,在消费者画像研究方面,也已建立起一套先进的分析算法模型。
在后续的工作中,我们将对平台架构做功能优化,并根据业务扩容以满足未来更大规模的数据分析计算需要。同时,我们也将大力提升大数据技术工具的易用性(如针对研究员的Spark Sql可视化操作界面)。在研究与挖掘方面,将持续专注于消费者画像研究和行业性数据挖掘服务,逐步树立起HCR在相关领域的竞争优势。