HCR大数据战略之二 适合研究洞察的大数据技术体系 (hcia 大数据)


工欲善其事,必先利其器,强大高效的大数据技术体系对开展大数据业务有着重要的影响,在大数据应用的众多领域,如互联网服务、电商和在线广告等,,相关技术体系的介绍已经屡见不鲜,本文中将介绍HCR如何针对研究行业的特点,打造先进性与实用性兼顾的大数据技术体系,推动公司大数据业务的发展,大数据业务特性分析好的技术体系必须贴近实际业务要求,我们先...。

(贝云网络科技)

大数据

工欲善其事,必先利其器。强大高效的大数据技术体系对开展大数据业务有着重要的影响。在大数据应用的众多领域(如互联网服务、电商和在线广告等),相关技术体系的介绍已经屡见不鲜。本文中将介绍HCR如何针对研究行业的特点,打造先进性与实用性兼顾的大数据技术体系,推动公司大数据业务的发展。

大数据业务特性分析

好的技术体系必须贴近实际业务要求。我们先来分析大数据在研究领域的业务特点:

大数据技术体系

针对上述业务要求,HCR设计建设了具有自身特点的大数据技术体系,如下图

所有集群服务器安装Linux的Ubuntu发行版本,文件默认基于Ext4和NFS。分布式文件管理采用HDFS/HADOOP框架,这是大数据系统的标配,不多介绍了。

HCR的大数据源,就形式而言,主要是结构化和非结构化(以文本为主)两类。这里综合使用多种系统实现所有数据的管理和检索。

业务计算是大数据技术体系的核心。包含了对所有业务逻辑计算/分析的支持。

分析工具是HCR大数据技术体系的最上层,主要由各种工具组成,支持各级数据研究人员完成对大数据的快速探索。

整个技术平台的选型在考虑先进性和深入分析能力要求的基础上,更多考虑了实用性、低成本(基本采用开源系统)和管理使用方便性等因素,使得平台非常适合HCR大数据业务的需要。

大数据平台部

针对大数据技术的专业性要求, HCR构建了专门的大数据平台部。团队以以清华、北邮计算机博士为核心,所有成员均为计算机专业硕士以上学历,在分布式体系架构、机器学习和数据挖掘方面具有5-10年以上的丰富经验。HCR大数据平台部主要负责:

已完成工作和后续目标

大数据平台部成立几个月来,已初步完成了技术平台选型与一期系统设计搭建,并对公司现有大数据资源进行了清洗整合。一期平台当前可分析数据信息接近400亿/30TB,每天分析的行为数据约10亿(存储数据近4亿)。在研究分析上,完成了多项基于大数据的研究计算/分析与可视化展示(如移动互联网用户24小时行为模式、2015春运迁徙图分析等),更重要的是,在消费者画像研究方面,也已建立起一套先进的分析算法模型。

在后续的工作中,我们将对平台架构做功能优化,并根据业务扩容以满足未来更大规模的数据分析计算需要。同时,我们也将大力提升大数据技术工具的易用性(如针对研究员的Spark Sql可视化操作界面)。在研究与挖掘方面,将持续专注于消费者画像研究和行业性数据挖掘服务,逐步树立起HCR在相关领域的竞争优势。


美团研究院&#038 中国市场学会 2019上半年中国在线旅游行业发展报告 (美团研究院官网)

RSR 线下商家认可智能手机的价值 (rs门店)

评 论
请登录后再评论