您好, 访客   登录/注册

大数据重新定义商业智能

来源:用户上传      作者: 乐文 编译

  在大数据时代,一批新的数据挖掘技术正在涌现,有望改变我们分析处理海量数据的方式,使得我们更快、更经济地获得所需的结果,同时,这些新技术也将给商业智能市场带来巨大冲击。
  
  这样的预测我们已经不止一次听到过:到2020年,需要存储的数据量将达到35万亿GB,是2009年数据存储量的44倍。根据IDC的研究,2010年底全球的数据量已经达到120万PB(或1.2 ZB)。这些数据如果使用光盘存储,摞起来可以从地球到月球一个来回(从地球到月球大约24万英里)。
  对悲观者而言,这是一个不好的消息,意味着数据存储世界的末日。而对于乐观者而言,这里孕育着巨大的市场机会,庞大的数据就是一个信息金矿,随着技术的进步,其财富价值将很快被我们发现,而且会越来越容易。
  实际上,围绕“大数据”,一批新兴的商业智能技术(包括数据挖掘技术、数据的存储、处理和分析技术)正在涌现,让我们处理海量的数据比以往任何时候都更便宜和更迅速。特别是,一旦这些大数据技术与超级计算机相结合,将成为企业业务活动不可缺少的助手,甚至改变许多行业做生意的方式。
  何谓大数据
  正如如日中天的“云计算”一样,近年来业界对大数据有了很多讨论,但是关于它的确切定义鲜有完全一致的说法。从云计算的发展过程来看,为了更好地让大数据技术落地,咨询机构的分析师和大数据相关厂商除了要给我们描述清楚大数据对于数据挖掘以及商业智能的未来意味着什么一样,还有必要明确地告诉我们,究竟什么是大数据,哪些与大数据无关。
  相对比较一致的说法是,大数据是指一系列使用非传统的工具(比如Hadoop,但不限于Hadoop)来对大量的结构化和非结构化数据进行处理,从而获得各种分析和预测结果的一系列数据挖掘技术,它仅仅包括大型数据仓库及其支撑其运行的硬件系统,还包括形式各异的数据,如计算机系统日志、金融服务交易记录、搜索引擎的搜索记录、电子邮件以及各种社交媒体活动等。
  大数据技术之所以如今成为热门是各种内外因综合作用的结果。在摩尔定律的推动下,IT设备的硬件成本一直在不断降低。而单位计算成本的不断下降以及多重处理系统的性能不断改善,给企业的大数据处理技术奠定了一个非常好的硬件基础;第二个原因是内存成本的不断下降,企业在内存中就可以处理大量的数据,而以前这需要大量的投资,高昂的投资使得这一办法常常实际上是不可行的。第三个原因,也是最重要的,现代IT技术让我们把很多服务器连接到一起组建服务器群集变得非常容易。
  在IDC的数据库管理分析师Carl Olofson看来,正是上述三个方面的因素结合起来创造了大数据时代的到来。
  “现在我们不仅可以把这些事情做得很好,而且是以一种可以负担得起方式来进行。”他说,“过去,一些部署了多重处理系统的大超级计算机也可以联成紧耦合的集群系统,但其投资十分巨大,常常是数百万甚至上千万美元,因为是专门的硬件。而现在我们通过常见的硬件设备就可以达到同样的配置,这就意味着我们能以一种更快、更便宜的方式处理更多的数据。”
  不过,并非每个正在使用大型数据仓库的企业都可以说它正在使用大数据技术。IDC认为,要判定一个企业是否需要使用大数据技术,其前提是该技术必须可以负担得起,其次还要满足三个标准,即IBM的三个“V”:类型(variety),数量(volume)和速度(velocity)。类型指数据中有结构化和非结构化等多种数据形式;量指收集和分析的数据量非常大;速度是指数据处理速度要足够快。
   “大数据并不是说数据量总是有数百TB。数据量是否大要根据具体使用场景,几百GB的数据量也可能对某些场合而言就相当大,因为数据的处理有三个方面的要求,除了数据量以外还要求速度或时间。”Olofson说,“如果我可以在一秒内完成对300GB数据的分析,而过去它需要一个小时,这将大大改变我利用这些处理结果的方式,这种处理能力的改善就为企业增加了价值。使用大数据技术的成本是企业负担得起的,而且至少能满足上述条件中的两个。”
  大数据与开源的天然联系
  “很多人认为Hadoop和大数据同义词,这是一个错误的认识。”Olofson说。他解释说,一些应用虽然采用的是Teradata、MySQL和“聪明的集群技术”而没有用Hadoop来实现,但也可以认为是大数据的应用。
  Hadoop是一个面向大数据的应用环境,也是大数据领域目前为止最受关注的工具,因为它基于MapReduce――这是超级计算机界常用的一个平台,在Google资助下对它进行了简化和优化。Hadoop是密切相关的几个Apache项目组成,包括MapReduce中的HBase数据库。
  目前,软件开发人员提出了很多技术来扩展Hadoop的使用,而且还开发了很多类似的技术,其中许多来自开源社区。
  “软件技术人员创建各种各样的NoSQL数据库,其中大多在优化数据库的I/0、增加数据的处理类型或者数据量上发挥了关键作用。”Olofson说。
  这些开源技术是没有商业上的支持。“这些技术还要完善一段时间,得到最终足够在市场立足可能还需要数年。因此,这是新生的大数据技术还要几年时间才能修成正果。”他补充说。
  来自IDC的消息,今年年底至少有三个商业供应商将为Hadoop提供一些支持服务。此外,几家厂商(如Datameer)将提出几个基于Hadoop的分析工具,以支持企业开发自己的应用。Cloudera和Tableau已经在其产品中使用了Hadoop 。
  不过,业内观察家就升级后的新一代关系数据库管理系统是否也应该被认为是大数据技术存在不同意见。
  “我认为新一代符合更快、更大、更便宜这个标准,”Olofson说,以Teradata为例,它的数据库系统已经变得便宜多了,而且它还是一个可扩展的集群环境。
  但也有人不同意。 “一般而言,你能用数据库和标准的BI工具来完成这些数据处理,这就不是真正的大数据技术。”Gartner的数据管理分析师Marcus Collins说,“这些处理技术已经存在很长一段时间了。”
  仍在快速演进之中
  大数据技术仍处于快速演进之中。现在正在利用该技术的公司无疑拥有一批优秀的IT人员,它们一般而言非常精通技术,并能适应技术的进步和自己公司的要求 。
  “如果你的公司不具备这些条件,那么,可以尝试与服务提供商(也许是某个云服务)进行合作,或者干脆再等等,直到市场有很多厂商能提供成熟的软件产品和服务再考虑应用大数据技术。”Olofson建议说,“毕竟,你的业务人员才是真正了解你业务的人。”
  毫无疑问,数据挖掘能相关技术已经发生了巨大的改变,但分析家说,大数据技术不会完全取代今天的数据仓库和数据挖掘工具 。
  “一直以来,数据挖掘重点考虑的是建立一个相对复杂的模型,来分析和处理不太多的数据。”Gartner的Collins说,“而现在,大数据技术让我们能处理海量的数据,因此很有可能,未来我们不再需要一个非常复杂的模型了,这可能意味着数据挖掘方式将发生巨大转变。”
   “我的看法是,大数据实际上将为数据仓库带来更多的商业机会。”Olofson说,“人们将使用类似MapReduce的技术,可以是Hadoop也可以是一些其他的技术,来获得一些非常有趣(或有价值)的商业情报,这些都是此前绝对不可能分析出来。接下来,为了重用并跟踪过去的模式,人们将把它用于数据仓库,这实际上会扩大数据仓库的使用。”

  规模和成功案例是大数据技术面临的另外一种挑战,Collins说,“因为没有现存的部署和使用这项技术的体系架构。可以说,大数据技术是在边摸索边完善。”
  他说,如果使用一些套装的工具有助于避免一些技术风险,但很多时候这项技术看起来似乎就是一些编程接口,很不成熟,对于商业智能技术的应用而言,这实际上是一个倒退。Collins举例说,“Hadoop是一个漂亮的供学术研究的系统,但在商业智能的驱动下,它已经进入企业和用户桌面,并且拥有对用户非常友好的用户界面。虽然有很多厂商围绕Hadoop提供了一些服务和技术支持,但更多的技术支持可能还是需要从用户社区中获得。”
  “大数据技术想要在IT领域得到普及,就需要为用户提供可以方便使用的工具,但在业务部门,供它们使用的此类工具还没有出现。”他补充说。
  谁在用大数据分析
  那么,究竟有哪些用户是在真正做大数据分析?
  一年前,大数据技术的主要用户是大型网络公司,如Facebook和雅虎,它们需要分析网页的点击数据。但在今天,“大数据技术的使用已经超出了互联网公司,其使用者涵盖各种各样的类型,几乎所有拥有海量数据的公司都在使用大数据技术。”Collins说,银行、公用事业、智能社区……众多的企业纷纷搭上了大数据这辆花车。
  一些大数据技术正在被那些迫切需要这些技术而且对新技术异常敏感的人们积极使用,如创建由社交媒体驱动的基于Web的服务。实际上,这些技术在这些项目中起到了关键作用。
  而在其他一些垂直行业,企业已意识到,与之前相比它们在产业链上的价值越来越依赖于信息,这样的认识有助于大数据技术得到更快速地应用和普及。再加上硬件价格的不断下降以及可承受的软件费用,企业发现自己正处于在业务转型的一个绝佳机会当口。
  应用1:电视广告价值评估
  总部位于纽约的TRA公司主要提供电视广告的价值评估服务,它们把家庭收看电视和数字录像时看到的电视广告与其实际发生的零售柜台购买进行比较分析,从而对电视广告进行价值评估。该公司通过收集有线电视公司的收看数据和零售店的会员名单来得到这些相关的数据。TRA的大数据系统处理170万个家庭收看电视的数据,这些数据具体到秒,如果没有大数据技术这是不可能的壮举。整个系统基于Kognitio的WX2数据库,不仅能迅速地上载、抽取或者分析数据,还能从DVR系统收集电视广告的收看信息,然后与零售店的POS机中的数据集成起来生成定制的报告。
  “Kognitio有一个基于内存的解决方案,我们现有的数据库中的一半数据都可以放到内存中,这就意味着,我们的客户如果提交了一个查询,它在几秒钟内就可以得到答案,而不是几小时或几天。”TRA的CEO Mark Lieberman说。
  这个数据库运行在开放的硬件平台上,而且TRA自己的前端应用程序采用的.NET的Visual Studio开发,这大大降低了投资成本。“我们仍然使用MySQL,用户界面采用DevExpress开发。”Lieberman补充说 。
  他预计,大数据技术有可能会彻底改变高达700亿美元的电视广告销售业务。因为传统的测算收视率的方法需要安装专门的机顶盒,调查抽样点在全国范围内不少于20000户家庭。而今天,详细数据可以直接从250万个DVR和有线电视分线盒得到,并可以对这些数据进行详细分析。
  “我们让这个700亿美元的广告市场变得可以测算,这就给广告主带来了更多的信心,让它们可以确信电视是个做广告的好地方。”Lieberman说,“这是一个巨大的进步,而这一切都是应为有了大数据分析。”
  Aberdeen集团的分析师Greg Belkin说,TRA和其他公司使用的这些工具因为符合大数据技术所要求的速度、数量和数据类型而被贴上了“大数据”这个标签。 “零售行业拥有很多数据源,其数据也处于爆炸状态,传统上无法对这些数据进行分析处理,更不可能对其进行挖掘,如社会媒体网站、视频监控和零售商的销售数据。”Belkin说,“就整个零售行而言,这一问题是非常尖锐的。因为数据量是如此巨大而且数据是如此复杂,使用传统的基于数据库的方法根本无法分析,因此零售行业纷纷转向大数据技术寻求帮助。”
  应用2:分析顾客的购买数据
  同样,大数据技术也让Catalina公司的市场营销发生了革命性改变。这家位于佛罗里达州圣彼得堡的公司拥有2.5 PB的顾客购买数据,它们记录着超过1.9亿美国购物者多年来的购买行为。其最大的单个数据库里保存的数据达到惊人的4250亿条,该公司每天都要对这个数据库中的6.25万亿条记录进行更新处理。
  通过对这些数据进行分析,Catalina帮助其主要的消费品制造商和大型连锁超市预测:哪些商品客户最有可能购买,谁会对新产品感兴趣。
  “我们希望把这项技术应用到我们的数据上,而不是让数据适应技术。” Catalina执行副总裁兼首席信息官Eric Williams说,“幸运的是,这项技术现在已经存在,比如SAS公司就把它们的数据分析技术应用到数据库上。”
  应该说,这项技术给Catalina整个公司带来了巨大改变。以前,该公司也曾想做这些事情,但由于存在很多限制,使得它们的很多想法无法实现。最终该公司不得不自己开发一些工具,但是它们实在太简陋,无法完成我们设想的目标。而大数据技术的出现改变了整个组织。
  如今,在Catalina的专有系统中除了应用了一些开源软件外,还在Netezza数据仓库应用平台上使用商业分析软件,包括SAS的分析工具SAS Analytics。
  Williams介绍说,公司还在研发可以在通用的、基于英特尔的硬件上运行的技术,这使得未来可以对二级和三级的产品进行分析或者预测,比如,让SAS Analytics的评分解决方案可以运行在Netezza上,而Netezza直接基于数据库运行。“能够利用这种技术并让它直接运行在数据库之上,意味着Catalina的数据挖掘方法可以从几周变成几个小时,这是非常有意义的。”
  应用3:识别商业欺骗
  曾任美国银行大数据和分析的常务总经理Abhishek Mehta在去年Hadoop World 上的演讲中表示,大数据技术从根本上改变了美国银行的业务运作方式。
  “我认为今天Hadoop的作为与20年前的Linux非常相似。我们都看到了Linux在企业软件领域的表现,它给企业软件市场带来了巨大的冲击。Hadoop正在做同样的事情。现在不是我们要不要部署Hadoop,而是什么时候部署的问题。”他说。
  美国银行除了利用Hadoop对网页的点击行为和交易进行分析之外,还利用Hadoop来快速解决业务问题――识别商业欺骗。
  “作为一个银行,我们非常希望能识别出欺骗行为。” Mehta说, “现在我可以针对每个人建立一个模型来分析他过去5年的每一次欺骗行为。而过去,我们只能抽取几个样本来建立一个模型,然后来看看是否有例外,如果有就重新建立一个新的模型,今天这样的日子已经结束了。”
  应用4:实时分析电力供应状况
  公用事业行业才刚刚开始注意到它手头已经积累了非常庞大的数据以及如此海量的数据可以为其带来的巨大价值。美国中西部的一个政府部门尝试使用Hadoop来分析智能电表送来的数据。
  “智能电表”主要用于对用电自动进行计费,但它们也能收集供电线路的电流波动状况。
  “如果能收集这些信息,并能建立一个适当的数学模式,就可以在变压器出现故障之前预测出它可能要出现故障。”Olofson说,“或者,如果某个电厂发生停电事故,可以通过电流的波动及时发现并采取行动,而不是直到客户来电才知道有停电事故 。”
  Olofson预计,未来公用事业部门将使用大数据技术来对电网进行监测和进行故障检测,从而具备对电网进行微调整的能力,最终不仅改善对客户的服务,并减少运营成本。不过,在此之前可能需要对老旧的基础设施进行大幅度的升级改造。
  另外,关注公司品牌的市场营销人员也正在尝试在社交媒体中使用Hadoop来进行“情绪分析(sentiment analysis)”,而且市场来涌现了一批服务提供商,它们使用Hadoop来对Twitter上发布的内容进行搜集和分析,以了解用户对某一个产品是如何定位的,对该产品是积极的认可还是消极的排斥。
  
  ============链接======
   关于大数据的三个误区
  如今,业界有大量关于何谓大数据以及它可以做什么的说法,其中有很多是相互矛盾的。这里是关于大数据的三个典型的错误说法,都存在一定的片面性:
   1.关系型数据库不能扩展到非常大的数据卷,因此不被认为是大数据的技术。
   2.无论工作负载有多大也无论使用场景如何,Hadoop(或,推而广之,任何MapReduce的环境)都是大数据的最佳选择。
   3.基于数据模型的数据库管理系统的时代已经结束了,数据模型必须采用大数据的方式来建立。
   (资料来源:IDC 2011年市场研究报告)
  


转载注明来源:https://www.xzbu.com/8/view-1075044.htm