当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
ODPS让大数据分析平民化
  • 2014-8-8 10:24:57
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:余师良
  • 作者:
【电脑报在线】如果要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务领域,逐渐成为重要的生产因素,而对大数据的挖掘正是业界的流行趋势。面对海量的数据,如何挖掘其中的真金白银呢?现在你已经不用为这个问题烦恼了。前不久,阿里云计算最重要的一款产品——ODPS(OpenData Processing Service,开放数据处理服务)正式开放商用,一下就让“高大上”的大数据分析应用接地气了。


如果要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务领域,逐渐成为重要的生产因素,而对大数据的挖掘正是业界的流行趋势。面对海量的数据,如何挖掘其中的真金白银呢?现在你已经不用为这个问题烦恼了。前不久,阿里云计算最重要的一款产品——ODPS(OpenData Processing Service,开放数据处理服务)正式开放商用,一下就让“高大上”的大数据分析应用接地气了。

 

“数”中有黄金,掘金是难题

     阿里云推出ODPS分析工具,站在大数据前沿

  大数据是什么?听起来虚无缥缈,实际上我们在日常生活中已经被它包围了。有数据显示,2012年全球产生了2.4ZB的数据,到2020年,数据还将增加14倍,达到40ZB。大量的数据使得从海量数据中分析出人类的行为习惯成为可能,这就催生了无限的商业机遇。沃尔玛是最早通过利用大数据而受益的企业之一,它一度拥有世界上最大的数据仓库系统,通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。而卡夫食品也曾通过采用IBM大数据与分析方案,在10.5亿条博客、论坛和讨论版的内容中抓取了47.9万条关于Vegemite新产品的讨论信息,并进行深层次分析,最终高效地完成产品升级。另一个大数据分析的典型案例是,2012年成功获得连任的美国总统奥巴马背后,有一个几十人的数据分析与挖掘团队,帮助奥巴马在获取有效选民、投放广告、募集资金方面发挥了巨大的作用。

   从以上的例子不难看出,大数据的价值和重要性已经毋庸置疑。不过现在最关键的问题是,每个企业如何才能获取大数据中的黄金呢?你得有相应的“挖掘”工具,意思就是先得拥有大规模的数据分析和处理能力,然后才能找到自己想要的“黄金”。传统的做法是:租个机房,买一堆昂贵的设备搭建数据库,再请一帮技术人员来维护运转。虽然Hadoop开源系统很伟大,大大降低了“掘金”成本,但自建一个像样的Hadoop集群,也需要百万元以上的起步资金及专业的Hadoop人才,门槛还是太高。而现在有了阿里云ODPS这项服务,只需要花几百元就能从海量数据中“掘金”了。

阿里云ODPS解析

  阿里云开放数据处理服务(ODPS),是构建在大规模分布式计算系统上的海量数据处理服务,以REST API的形式支持描述性查询语言SQL的数据处理,适用于海量数据统计、数据模型、数据挖掘、数据商业智能等诸多互联网应用。

我们来看看ODPS都可以干些什么吧,ODPS服务的第一个对象就是阿里小额贷款业务。阿里小额贷款业务从第一天开始,就生长在ODPS之上了。如今,超过36万人从阿里“小贷”借款,最小贷款额为1元,并实现3分钟申请、1秒放款、零人工干预。要做到这一点,阿里“小贷”每天得处理30PB数据,包括店铺等级、收藏、评价等800亿个信息项,运算100多个数据模型,甚至还得测评小企业主对假设情景的掩饰和撒谎程度,这背后都离不开ODPS提供的海量数据存储和计算能力。更重要的是,阿里“小贷”每笔贷款成本3角钱,不到普通银行的1/1000。ODPS另一个应用案例就是天弘基金旗下的余额宝,利用ODPS平台进行全方位、多维度的数据挖掘分析,用数据“说话”,使原本需要8个小时的清算工作在30分钟内完成,而构建成本几乎是传统方案的1/7。

天弘基金是ODPS的受益用户

目前你直接登录阿里云官网aliyu*.c*m,就可以直接申请开通ODPS。虽然ODPS采取按流量收费的模式,但中小企业用户绝对用得起:目前定价0.3元/GB,即开即用,一个月内免费。ODPS商用,一下子就让高大上的大数据分析应用接地气了。

大数据产品逐渐增多

当然,阿里云并不是业界唯一“帮你挖金山的人”,目前提供与阿里云ODPS类似服务的还有谷歌和亚马逊。

Amazon Elastic MapReduce(EMR)是亚马逊提供的大数据分析云服务。这是一个商业化的Hadoop基础设施服务,基于它所提供的分布式计算能力,企业、研究人员、数据分析师和开发人员能够方便地根据自身需求来处理和分析海量数据。它通过在Amazon 云上运行的虚拟服务器的Hadoop集群,来分析客户提交的海量数据分析作业。在 Hadoop 架构上面运行的开源项目,例如 Hive、Pig、HBase、DistCp、Ganglia、Mahout等,都已与 Amazon EMR 集成。Amazon EMR能即时灵活配置自身所需的容量,执行数据密集型应用计算,完成 Web 索引、数据挖掘、日志文件分析、机器学习、财务分析、科学模拟和生物信息研究等任务。所有这些操作都由启动和管理Hadoop 集群的 Amazon EMR 控制软件协调安排。当然,这些Web服务的集成,大多需要单独的使用费用。从EMR目前的定价看,基本上是按照计算的时间来计算费用,具体价格可以在官网查询到。

BigQuery是谷歌提供的大数据服务

  BigQuery是谷歌基于Dremel和Hadoop集群所提供的大数据分析云服务。BigQuery允许用户上传他们的大数据集到谷歌的存储器中,开发者可以使用BigQuery来运行类SQL语句,对大数据集进行查询和交互式分析。用户不但能将BigQuery用于自身业务分析,还能在BigQuery的基础上开发对外的商业大数据分析服务,例如法国一家公司WeAre Cloud就在BigQuery的基础上,提供面向中小企业的大数据分析服务。BigQuery的服务也是收费的,每月1GB数据的存储费用是12美分,实时分析服务每月每处理1GB数据收费3.5美分,每月前100GB的实时数据分析免费。

看到阿里云、谷歌等IT巨头掘金大数据,国内的百度、新浪等公司也坐不住了。如百度已建成了包括百度指数、司南、风云榜、数据研究中心和百度统计在内的五大数据体系平台,帮助营销平台上的企业了解消费者行为、兴趣变化,以及行业发展状况、市场动态和趋势、竞争对手动向等信息。互联网企业所提供的这种基于云计算的大数据分析业务,其便捷性是非常明显的,用户不必购买和搭建自身的大数据技术基础设施,虚拟化服务器集群的配置和管理将更加方便灵活,用户只需要直接提供数据和分析需求,即可获得数据分析的结果。

从Hadoop向垂直一体化方案演进

不过,将大数据直接作为产品和服务核心支撑的大数据产品,并不完全适用于所有的企业级应用。毕竟大数据在企业级应用的核心不是简单分析出有价值的数据信息,而是更注重数据分析后产生的结果,从而可转换成企业自己的产品和服务。这就带来了另一个维度的挑战——开发企业级大数据开发平台,目前提供大数据产品的企业包括那些帮用户制造“掘金机器”的,他们能够存储海量数据或者将海量数据与业务场景结合,进行分析和挖掘,或者提供相关产品,如微软、英特尔、IBM、甲骨文等巨头在大数据领域率先做出了Hadoop的商业化应用,将Hadoop当作自己大数据解决方案中一部分。

如针对企业大数据方向开发者,IBM就推出了多款产品和技术。其新版本的企业级Hadoop产品InfoSphereBigInsights,开发者可以利用现有的SQL技术,更便捷地开发应用组件,兼具安全性强和高可用性等特点,新版的BigInsights能够更加契合企业的部署需求。惠普则在接连收购Vertica、Autonomy后,推出了与Vertica6实现高级集成的大数据应用平台HP AppSystem for Apache Hadoop。而英特尔则针对大数据的开放架构核心产品线,推出了英特尔Hadoop分发版,让用户可以实现“软硬协同、体验至上”的创新效果。

浪潮云海大数据一体机具有一定的优势

不过,Hadoop工具仅仅是大数据解决方案的基础架构部分。开源开发社区里有关Hadoop的组件有数千个,哪些组件能与底层相匹配,哪些计算和存储平台运行更高效,都需要一一验证,或是重新开发,这些都足够考验企业的软件能力、服务能力和硬件能力。显然,不少企业更需要的一个具有强悍处理能力的大数据集成平台,而不是一个单纯的Hadoop技术方案。因此垂直整合、提供“硬件+软件+数据”的一体化方案成为了大数据产品的发展趋势。目前IBM、微软、EMC、曙光、浪潮、联想等都已经推出了大数据一体机,如IBMPureData大数据专家、EMC Greenplum大数据一体机、曙光XData大数据一体机、浪潮云海大数据一体机都是其中的代表。不过,国外企业采取“软绑硬”的策略推出一体机,将软件装在特定的基础硬件上并对特定应用进行调优,使产品性能、可用性和可管理性有了一定的提升。而国内企业的软肋是软件整合能力,特别有些产品是基于Hadoop的开源平台开发,在可用性、安全性、高可靠性方面仍存在一定的不足。

小结:大数据的影响仍在继续,它体现的不只是商业价值,还有企业IT架构和技术的颠覆性变革,而大数据市场正被越来越多的企业认为是蓝海市场。不过,从大的环境来看,目前大数据分析、应用还处于起步阶段,针对大数据,无论是软件技术、硬件技术还是软硬件一体的技术,国内企业要想在大数据市场发展中获得更多的话语权,现在就必须高度重视并着手在大数据应用实践中找准切入点。

                                                        @梁敏

本文出自2014-08-11出版的《电脑报》2014年第31期 A.新闻周刊
(网站编辑:shixi01)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交