如何对超级体量数据进行存储与加工友盟首次揭秘高效服务150万APP与710万网站 (如何对超级体验评价)

发表于2025/8/12 05:43
1浏览
0评论
28分钟阅读

作者，友盟，数据研发专家吴丹，友盟，数据训练营系列互联网企业每天都会产生大量的业务数据，如何构建一个极速响应、稳定安全、低成本的数据存储、加工、挖掘、应用的全流程体系，成为企业实现数据化的关键，友盟，工程师首次揭秘，友盟，是如何对超级体量数据进行存储与加工，为超过150万款应用以及710万家网站提供全域数据服务，并让这些庞大...。

（贝云网络科技）

作者 |【友盟+】数据研发专家吴丹

【友盟+】数据训练营系列

互联网企业每天都会产生大量的业务数据，如何构建一个极速响应、稳定安全、低成本的数据存储、加工、挖掘、应用的全流程体系，成为企业实现数据化的关键。

【友盟+】工程师首次揭秘，友盟+是如何对超级体量数据进行存储与加工，为超过150万款应用以及710万家网站提供全域数据服务，并让这些庞大的数据源源不断的实现秒级计算与应用。

我们将从三个部分展开：数据存储、数据挖掘、特征加工。

一. 数据仓库是如何运作的？

数据仓库输入、输出的是什么数据？数据仓库是如何运作的？数据仓库到底做了什么？

我们先看一下数据仓库， 左边是输入 数据，第一是数据采集，直接通过JS代码或者SDK采集设备行为数据；第二是业务数据上传；第三是营销领域的问卷数据上传、文件数据上传等。 右边是输出数据。 数据经过处理后主要以四种形式输出，包括统计报表、数据超市、DMP、数据报告。

重点介绍中间的数据仓库。 【友盟+】数据存量高达60PB，如果用一张A4纸正反面写满数字，把A4纸叠起来可以装15万辆卡车。仓库里面有多少张表呢？大概是上万张。我们每年计算/存储成本非常高。

大数据的挖掘、分析和运算就是我们的CPU，我们每天的运算量需要2万个CPU，相当于200个地球上的100亿人24小时不间断的运算。

数据处理。 这么庞大的数据量在数据仓库内是如何运作的？数据仓库组件分为四类：存储框架、开发工具、数据保障和数据管理。

第一，存储框架。 包含（阿里云）ODPS、HDFS、Oracle、HBASE等。

第二，开发工具。 分为开发平台和调度器。调度器代表对这个关系的依赖，让这个任务完成之后进行下一个任务的通知和运行。

第三，数据保障机制 ，通过数据监控去做保障，监控任务、数据异常并报警，通过任务调度管理保障数据任务的优先级和数据质量。之前说我们数据仓库里有上万张表，对每一个生产表打标签，快速定位到我们想要的表就是数据地图。数据健康，如果1TB数据执行一个小时，就代表很慢，就可以通过数据优化判断出你的任务，你的数据表可能不够健康，你的健康分会被降低，健康分降低了优先级就会降低。

第四，数据管理， 比如开发规范、数据空间管理、元数据管理。

二. 数据挖掘，如何让杂乱数据统一、分层解耦？

数据处理之后，是数据挖掘。数据挖掘一般分为6个步骤：数据挖掘、数据ETL，第三个是对数据进行分析，然后提取出特征工程，从而进行模拟训练，然后再进行模型评估。

今天我们重点讲两块，一个是数据的ETL，一个是特征工程。

1）ETL是什么呢？ 就是清洗、加工和加载。

有很多数据需要做数据分层，比方说今天重新建了一张表，这个业务发生变化了。现在互联网的状态就是拥抱变化，每周都会不停的在开发新表，如何用2分钟就把这个表变了。分层业界里面都会分为三层：数据接入层ODS、数据公共层CDM、数据应用层ADS。我们针对明细数据做分析，比如说广州市是广东省的这样一个对应关系。公共聚合层就是数据立方体，数据应用层就是针对不同的业务去划分独特的一块区域，通过分层可以做到业务解耦。

数据加工中的一个拉链表，左边这张表记录了小明每年的学籍，小明在2012-2013年之间都是小学，我们记录开始时间和结束时间。左边这个数据到右边这个数据很频繁，只记录状态的变化就可以了。这个场景可能会应用于哪些行业呢？比如电商系统，这个商品今天做促销，明天促销就取消了，对商品价格打一个快照。

这个表主要就是为了节省存储空间，让运算速度更快。刚刚提到了数据立方体，做数据分析的同学会经常接触，也就是QB。

简单的画了一个图，横坐标是一个季度的维度，纵坐标是品类的维度，还有地区维度，构成三维立方体。现实中的维度远远不止三个，它会变成9块，每个这样的组合至少有9种组合关系，现实中这个关系有可能是10个、20个。当扩大到20的时候数据量非常庞大。怎么处理呢？维度的组合关系，一般还会有一级分类、二级分类，一级分类必然是和二级分类有关系。比如江苏省，另一个维度是城市，南京市必然是江苏省，把这些维度做一些关联，我们一般叫关联维度的结合。

数据立方体的钻取。就是对某一个维度进行下钻，对月份进行下钻，就是对维度进行细分。我们来看一个季度的分布，上卷就看到一、二、三季度的分布。我们锁定了品类的维度叫电子产品，去看季度、地区的情况，这叫切片。切块很简单，多个维度就变成了切块。以季度和地区去看品类的情况，做立体三维空间的反转，就是数据立方体。

三. 特征加工，如何提取有价值的特征？

如何在这么多数据中提取跟用户相关、跟设备相关的特征？通常将特征分为四大类，第一是基本特征，比如空降的种类、数量、金额、重量、长度等；还有时间上的时长、次数、购买次数；还有比例上的，比如男女比例，平均比例等；还有复杂特征，就是将基本特征和统计特征做一个组合；还有自然特征，比如声音、图像等。

对这个特征进行分析，大概会分为这几个步骤，特征分析、特征选取、特征评估。比如对用户的换机的判断。第一步先要去想特征，比如性别、年龄、收入水平、财富水平，兴趣偏好等。

第二块就是从现有的数据里提取出来，能够采集到APP数据，用户喜欢哪个APP，是玩游戏还是购物。特征的评估是针对这个数据做分析，比如这个数据是不是可靠。

简述特征处理的3种方式

活动推荐： 《超级用户时代，数据增值新思维》

2018【友盟+】U-time巡回沙龙

北京站3.14 、上海站3.17、杭州站3.21、深圳站3.24

沙龙议程

报名网址： //events.umeng.com/