如何对超级体量数据进行存储与加工 友盟 首次揭秘 高效服务150万APP与710万网站 (如何对超级体验评价)


作者,友盟,数据研发专家吴丹,友盟,数据训练营系列互联网企业每天都会产生大量的业务数据,如何构建一个极速响应、稳定安全、低成本的数据存储、加工、挖掘、应用的全流程体系,成为企业实现数据化的关键,友盟,工程师首次揭秘,友盟,是如何对超级体量数据进行存储与加工,为超过150万款应用以及710万家网站提供全域数据服务,并让这些庞大...。

(贝云网络科技)

高效服务150万APP与710万网站
作者 |【友盟+】数据研发专家 吴丹
【友盟+】数据训练营系列

互联网企业每天都会产生大量的业务数据,如何构建一个极速响应、稳定安全、低成本的数据存储、加工、挖掘、应用的全流程体系,成为企业实现数据化的关键。

【友盟+】工程师首次揭秘,友盟+是如何对超级体量数据进行存储与加工,为超过150万款应用以及710万家网站提供全域数据服务,并让这些庞大的数据源源不断的实现秒级计算与应用。

我们将从三个部分展开:数据存储、数据挖掘、特征加工。

一. 数据仓库是如何运作的?

数据仓库输入、输出的是什么数据?数据仓库是如何运作的?数据仓库到底做了什么?

我们先看一下数据仓库, 左边是输入 数据 ,第一是数据采集,直接通过JS代码或者SDK采集设备行为数据;第二是业务数据上传;第三是营销领域的问卷数据上传、文件数据上传等。 右边是输出数据。 数据经过处理后主要以四种形式输出,包括统计报表、数据超市、DMP、数据报告。

重点介绍中间的数据仓库。 【友盟+】数据存量高达60PB,如果用一张A4纸正反面写满数字,把A4纸叠起来可以装15万辆卡车。仓库里面有多少张表呢?大概是上万张。我们每年计算/存储成本非常高。

大数据的挖掘、分析和运算就是我们的CPU,我们每天的运算量需要2万个CPU,相当于200个地球上的100亿人24小时不间断的运算。

数据处理。 这么庞大的数据量在数据仓库内是如何运作的?数据仓库组件分为四类:存储框架、开发工具、数据保障和数据管理。

第一,  存储框架。 包含(阿里云)ODPS、HDFS、Oracle、HBASE等。

第二,开发工具。 分为开发平台和调度器。调度器代表对这个关系的依赖,让这个任务完成之后进行下一个任务的通知和运行。

第三,数据保障机制 ,通过数据监控去做保障,监控任务、数据异常并报警,通过任务调度管理保障数据任务的优先级和数据质量。之前说我们数据仓库里有上万张表,对每一个生产表打标签,快速定位到我们想要的表就是数据地图。数据健康,如果1TB数据执行一个小时,就代表很慢,就可以通过数据优化判断出你的任务,你的数据表可能不够健康,你的健康分会被降低,健康分降低了优先级就会降低。

第四,数据管理, 比如开发规范、数据空间管理、元数据管理。

二. 数据挖掘,如何让杂乱数据统一、分层解耦?

数据处理之后,是数据挖掘。数据挖掘一般分为6个步骤:数据挖掘、数据ETL,第三个是对数据进行分析,然后提取出特征工程,从而进行模拟训练,然后再进行模型评估。

今天我们重点讲两块,一个是数据的ETL,一个是特征工程。

1)ETL是什么呢? 就是清洗、加工和加载。

有很多数据需要做数据分层,比方说今天重新建了一张表,这个业务发生变化了。现在互联网的状态就是拥抱变化,每周都会不停的在开发新表,如何用2分钟就把这个表变了。分层业界里面都会分为三层:数据接入层ODS、数据公共层CDM、数据应用层ADS。我们针对明细数据做分析,比如说广州市是广东省的这样一个对应关系。公共聚合层就是数据立方体,数据应用层就是针对不同的业务去划分独特的一块区域,通过分层可以做到业务解耦。

数据加工中的一个拉链表,左边这张表记录了小明每年的学籍,小明在2012-2013年之间都是小学,我们记录开始时间和结束时间。左边这个数据到右边这个数据很频繁,只记录状态的变化就可以了。这个场景可能会应用于哪些行业呢?比如电商系统,这个商品今天做促销,明天促销就取消了,对商品价格打一个快照。

这个表主要就是为了节省存储空间,让运算速度更快。刚刚提到了数据立方体,做数据分析的同学会经常接触,也就是QB。

简单的画了一个图,横坐标是一个季度的维度,纵坐标是品类的维度,还有地区维度,构成三维立方体。现实中的维度远远不止三个,它会变成9块,每个这样的组合至少有9种组合关系,现实中这个关系有可能是10个、20个。当扩大到20的时候数据量非常庞大。怎么处理呢?维度的组合关系,一般还会有一级分类、二级分类,一级分类必然是和二级分类有关系。比如江苏省,另一个维度是城市,南京市必然是江苏省,把这些维度做一些关联,我们一般叫关联维度的结合。

数据立方体的钻取。就是对某一个维度进行下钻,对月份进行下钻,就是对维度进行细分。我们来看一个季度的分布,上卷就看到一、二、三季度的分布。我们锁定了品类的维度叫电子产品,去看季度、地区的情况,这叫切片。切块很简单,多个维度就变成了切块。以季度和地区去看品类的情况,做立体三维空间的反转,就是数据立方体。

三. 特征加工,如何提取有价值的特征?

如何在这么多数据中提取跟用户相关、跟设备相关的特征?通常将特征分为四大类,第一是基本特征,比如空降的种类、数量、金额、重量、长度等;还有时间上的时长、次数、购买次数;还有比例上的,比如男女比例,平均比例等;还有复杂特征,就是将基本特征和统计特征做一个组合;还有自然特征,比如声音、图像等。

对这个特征进行分析,大概会分为这几个步骤,特征分析、特征选取、特征评估。比如对用户的换机的判断。第一步先要去想特征,比如性别、年龄、收入水平、财富水平,兴趣偏好等。

第二块就是从现有的数据里提取出来,能够采集到APP数据,用户喜欢哪个APP,是玩游戏还是购物。特征的评估是针对这个数据做分析,比如这个数据是不是可靠。

简述特征处理的3种方式

活动推荐: 《超级用户时代,数据增值新思维》

2018【友盟+】U-time巡回沙龙

北京站3.14 、上海站3.17、杭州站3.21、深圳站3.24

沙龙议程

报名网址: //events.umeng.com/


X DataStory Kungfu (XDATA是单片机内部存储器)

预计2011年全球在线音乐市场规模将增长7%至63亿美元 Gartner (预估2021年7月中旬台风天气)

评 论
请登录后再评论