
仿佛只是一夜之间,“大数据(Big>
(单位:百万美元)
又例如,英国的科学家根据Twitter的数据来跟踪流感的爆发。他们主要基于用户发布信息中的关键词,例如“我头痛”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队“SickWeather”甚至以预测疾病为主题开展了自己的创业项目。
象这样的大数据经典案例还有不少,而整个商业社会对大数据将带来的影响给出了极高的评价——
麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。
在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big> 英特尔亚太研发有限公司总经理 何京翔
这些新技术包括分布式缓存、基于MPP(海量并行处理)的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等,而其中最炙手可热的新技术就是Hadoop。
Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单地说来,Hadoop是一套开源的、基础是Java的、能够让数千台x86服务器组成一个稳定的、强大的集群,对Pb级别的大数据进行存储、计算的软件平台。谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等都采用了Hadoop技术来处理海量数据。
尽管Hadoop是开源软件,但英特尔、IBM、Cloudera等厂商都推出他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,主要适合企业用户。毕竟绝大多数企业用户都和互联网公司一样具有强大的技术实力,采用具有商业支持的开源Hadoop技术能够快速切入到大数据应用中去。民生证券技术总监颜阳就特别强调:“做大数据的分析与应用,全靠企业自身的话还是很有难度,也不见得是最省事的方式,而且最核心最有价值的工作其实是建立分析模型。因此,我建议企业用户在大数据平台建设上借助商用的大数据解决方案或有商业支持的开源技术,从而将更多的精力投入在商业模式上。”
民生证券技术总监 颜阳
在大数据的具体处理流程上,人文科技创始人吴朱华表示:“大数据的处理流程一般包括采集、导入、分析、挖掘四个阶段,每个阶段都有许多挑战。”
人文科技创始人 吴朱华
例如,在采集来自各种客户端(Web、App或者传感器形式等)的数据的阶段里,最大挑战在于并发数高,因为同时有可能会有成千上万的用户来进行访问和操作(比如火车票售票网站和淘宝),所以需要在采集端部署大量数据库才能支撑。
采集完数据后,还要将数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并在此基础上做一些简单的清洗和预处理工作。“导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。”吴朱华说。
接下来主要是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。其中,对半结构化、非结构化数据的处理与分析就是Hadoop大显身手的时候了。但这一阶段由于涉及的数据量大,对系统资源,尤其是I/O资源的消耗量会很大。
最后数据挖掘阶段就涉及到各种算法与模型了。由于用于挖掘的算法很复杂,并且计算涉及的数据量都很大,对底层计算资源的要求将比较高。
“从大数据处理流程就可以看出,我们需要为大规模分布式数据密集型作业而设计的计算系统,需要经济高效智能的存储,需要可快速导入大型数据集然后复制到各节点进行处理的网络基础设施,需要保护高度分布式基础设施和数据的安全能力,以及那些拥有统计数据、算法、数据挖掘和可视化技术识别机会的专家团队。总之,大数据是一个端到端的全面解决方案,涉及到服务器、存储、网络、软件等各个环节。”何京翔说。
当谈到如何着手大数据应用实践时,吴朱华建议企业用户要找准切入点。最好是找到一个技术难度小,并且有一定的商业价值的场景来做大数据技术落地的试点,并不断地进行测试和迭代来验证,而不是一味求复杂、求大,这样比较容易说服企业管理层来进行长期的投入和支持。
此外,他还强调:“尽量不要走平台思路,应以具体的应用和场景为主。因为建一个平台有很多附加的成本和设计,例如,亚马逊的云平台是通过至少五年时间构建而成。特别是项目初期,不建议走平台这个方向,而是应脚踏实地以具体的商业场景为主。”
关键趋势:企业级市场积蓄大数据商机
无论是国内还是国外,对大数据展开率先研究与应用都是互联网公司,因为互联网公司最先面临来自海量、多样化的数据的压力。但是,IDC中国企业级系统与软件研究部高级研究经理周震刚表示,大数据的一个重要趋势就是,由网络处理走向企业级应用。
IDC中国企业级系统与软件研究部高级研究经理 周震刚
“未来几年,我们将看到大数据应用将从互联网逐渐向更多的行业发展,所以未来对基于数据流的监测和分析将有更多的需求。”周震刚说。例如,电信运营商利用大数据技术对用户的行为习惯进行分析,就能更有针对性地制订市场营销计划或开发出更多全新的商业模式和服务;金融行业能借该技术更快速地分析在金融机构之间交换的营销与交易数据,以确保交易的安全可靠和防欺诈;智能城市及物联网领域则可借大数据技术更快实现智能交通监控、智能公共安全、气象和污染变化的智能监控及预测等应用。
事实上,大数据向企业级应用的迁移趋势已经初步显示。例如,中国东方航空信息部总经理严振红告诉记者,他们已经密切关注大数据,正在做一些研究性工作;民生证券早已于去年开始了实验性质的大数据应用研发;而中国联通则是非互联网用户中走得比较超前的两家企业。
据中国联通研究院副院长黄文良介绍,由于此前难以向用户提供上网记录查询服务,中国联通曾一度为3G服务客户数据流量所引发的计费争议所困扰,而通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案,中国联通目前已在移动通信用户上网记录集中查询与分析支撑系统的建设上获得了重要进展。这也是电信行业首次将Hadoop/HBase引入商用电信服务系统建设中。
“这一系统可为我们的客户服务人员提供客户上网记录的快速查询服务,或为客户本人提供高效的异常大流量上网记录自助查询服务,这将有助于解决流量投诉问题,”黄文良表示:“未来该系统还有望帮助我们更为准确地把握用户偏好,从而让我们能更有效地制定市场策略和开发新业务。”
中国联通研究院副院长 黄文良
随着大数据向企业级应用的深层次渗透,周震刚表示还将可能带来两大新的变化。
一是大数据将创造细分的市场。数据分析、数据代理将可能作为一种服务出现,专门面向数据分析人才培训的市场也会随之火爆。当然,肯定还有一些目前无法想象的细分市场涌现出来。
二是将可能出现打包的大数据行业应用。“从传统概念来讲,大数据太复杂了,无法形成打包好的分析应用,但是在未来几年中,某一个行业的应用会形成一定的共性,将会有厂商根据行业的分析应用,打包好一些分析的应用,然后将基于大数据的分析应用推广到行业方面,这不仅需要做数据分析的专长,也需要很多行业方面的专业知识,将会有很多行业的ISV加入到大数据行列中,基于大数据平台开展他们的大数据分析应用。” 周震刚说。
事实上,有些动作敏捷的IT公司已经开始与一些专注于特定行业需求的本地系统集成商协作,开始构建专为相关行业应用优化的大数据解决方案。例如,英特尔正在支持2011年夺得全世界视频监控产品市场份额第一,并在全球安防领域内拥有最大规模研发中心的海康威视,去开发和推广基于至强平台和英特尔发行版Hadoop的大数据处理方案,以满足平安城市和智能交通应用对海量非结构化数据进行高效处理的要求。
总之言之,大数据市场正在积蓄无限商机。根据IDC的预测,到2015年,全球大数据市场规模将从2012年的20亿美元增长至160亿美元。无疑,企业级市场将对此增长贡献良多。
征战新蓝海 IT厂商布局忙
拥有广阔市场发展前景的大数据俨然成了一众IT厂商心中的新蓝海,IT厂商们早已开始为此排兵布阵。他们或发布战略、或推出产品,各种合作、收购动作频频,着实热闹。
例如,2010年IBM收购了数据分析公司Netezza,并在去年5月推出了InfoSphere BigInsights软件(该软件包包括Apache Hadoop发行版);惠普不仅将Vertica揽入怀中,还重金收购了对Autonomy,并于今年推出了与Vertica 6实现高级集成了的大数据应用平台HP AppSystem for Apache Hadoop;EMC自收购Greenplum后,很快发布支持大数据分析的下一代EMC Greenplum统一分析平台;甲骨文则通过NoSQL数据库和Big>