时间:2023-01-29 13:24:51
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇大数据量解决方案,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
这正是白宫网站的《大数据研究和发展倡议》所追求的——“通过收集、处理庞大而复杂的数据信息,获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,转变教育和学习模式”。
各行各业都能用得上大数据,只是对大数据重要性的意识程度不同:凯捷咨询(Capgemini)的调研结果显示,76%能源和自然资源行业的高管相信公司是数据驱动的,在医疗医药行业和生物科技行业这个数字为75%,在金融行业为73%。包括英特尔在内的有能力提供大数据解决方案的IT厂商正在努力让各行各业的企业切实感受到大数据的魔力。
能否置身事外?
随着网络应用和多媒体应用的兴起,互联网成为大数据的主要来源。随之而产生的网络营销调整围绕大数据而展开。淘宝是国内公认的对用户数据利用得较好的公司——淘宝网利用大数据统计分析得到诸如“欧洲杯的球队胜负如何影响各队球衣的销量?花露水的最佳搭配是电蚊拍还是痱子粉?”等问题的有趣结果,并以此为依据来更好地调整营销战略。
近日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),负责全面推进阿里巴巴集团成为“数据分享平台”的战略。这直接证明了大数据对于互联网企业的意义。
别的行业能不能对大数据冷眼旁观呢?赛迪智库软件与信息服务业研究所研究员安晖认为,虽然目前大数据的主要来源是互联网,但许多以信息流作为核心竞争力,如金融、电信、零售等行业的机构或企业,其数据量也不容低估。例如,美国国家海洋和大气管理局(NOAA)数据中心存储的数据超过20PB,沃尔玛数据中心的存储能力超过4PB,eBay分析平台每天处理的数据量高达100PB。并且,由于这些机构和企业所存储的数据更加有针对性,其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切。
安晖以数个典型行业为例来说明大数据能带来什么好处——电信行业可以从庞大的数据中分析出不同群体的差异化需求,实现套餐制定等精准营销;制造行业可以通过整合来自研发、工程和制造部门的数据以实行并行工程,显著缩短产品上市时间并提高质量;交通行业可以通过整合和处理相关数据,实现智能交通(管理)与高效物流调度。
赛迪顾问软件与信息服务业研究中心研究总监胡小鹏认为,金融行业中证券、信用卡、电子支付等数据规模庞大,具有使用对象多样化、信息可靠性、实时性、保密性要求高等特点;电信行业中大数据主要体现为电信业务系统产业的计费账务数据和用户信息(包括客户资料、客户服务数据等),不仅数据量大,而且保存时间长;能源行业大数据主要集中在石油勘探以及电力生产、经营、管理等数据,具有数据量大、分散、类型复杂等特点。其中,在金融行业,利用大数据的挖掘和分析改善用户体验、监督欺诈行为、验证合规性、服务创新等,从而助力金融智能决策,提升竞争力;而对于电力行业,大数据分析有利于电网安全高效运行(安全检测与控制、灾难预警与处理、供电与电力调度决策支持和负荷预测)、电力营销(用户用电行为分析)、集团集中管控与精细化管理等。
大数据这场盛宴上,哪个行业也不愿意没有一席之地。
谁能站出来?
大数据的热度可以由英特尔、IBM、EMC、惠普等厂商纷纷推出面向大数据的一体化产品和解决方案直接反映出来。
然而,一个不能逃避的现实是,虽然越来越多的行业用户尝试应用大数据的解决方案,但是大多数行业用户对于大数据的认知仍然比较有限。面对林林总总的不同厂商提供的大数据解决方案,用户分不清这些解决方案的差异在哪里,也就不会真正了解哪种解决方案适合自己。
有用户反映,大数据解决方案容易给人的错觉是该解决方案就是把数据分布存储,再并行处理。即使采用国外厂商的工具,这些工具成熟度不是特别高,导致解决实际问题的时间过长。
英特尔相关专家表示,从总体上看,中国大数据市场发展迅速,特征明显,相关技术和应用可改进和提升的空间巨大。而且大数据要落地,必须实现包括芯片商、软件企业等在内的IT基础设施与服务层平台的开放。
英特尔在硬件上的领先无需多言。在软件层面,考虑到Hadoop的开源特性,很多厂商都有机会在Hadoop的基础上推出产品,但行业解决方案提供商面临的一个苦恼是,他们不得不进行底层开发。实际上,底层解决方案是有很多共性的。对行业解决方案提供商来说,如果有一个由可靠厂商优化过的平台再好不过了。利用这个平台,行业解决方案提供商可以抛开重复的、无意义的劳动,将注意力和精力更加集中在行业特点上,进而开发出满足行业所需的实打实的行业解决方案。在这种情况下,英特尔适时地推出了英特尔Hadoop发行版,打造一个优秀的、高价值的底层平台。
对于如何从大数据中发掘价值,英特尔指出,这需要在IT基础设施与服务层、数据组织与管理层、数据分析与发现层、决策支持与IT服务层全面引入新的技术,特别是在堪称大数据应用“载体”的IT基础设施与服务层,采用基于开放架构的平台将是最佳选择。
O‘Reilly Strata和Open Source Convention大会委员会主席Edd Dumbill曾指出,使大数据真正变得强大的方式之一就是让上层程序员可以将精力放在数据而非底层Hadoop设施的抽象特征上。他们编写更简短的程序,能够更清晰地表达出对数据所做的处理。这些将有助于为非程序员创建更好的工具。
延伸到企业层面,“行业解决方案提供商需要稳定性和可用性都足够好的平台。在这样的平台上,行业解决方案提供商可以从不必要的重复性劳动中解放出来,从而把更多的精力放在提供差异化特色方案和服务上。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔的看法类似。进而,他解读了英特尔Hadoop发行版的优势:“英特尔Hadoop发行版的优势在于:处理接近于实时;能在英特尔平台上实现最优化的性能,比非英特尔发行版有成倍的增长;通过和电信、智能城市、医疗等行业客户的合作,英特尔Hadoop还做了更进一步的优化。”
除了提供平台,英特尔(中国)行业合作与解决方案部中国区总监凌琦强调,英特尔还会把大数据解决方案的研究和服务作为投资部门的重点。英特尔的风险投资部门也对大数据中所涉及的关键平台、关键应用、提供商,给予关注。
行业侧重点
英特尔硬件平台的特点让其可以用“通吃”来形容,行业特色则由软件来体现。
正如英特尔Hadoop发行版白皮书所指出的,它“为企业应用而优化”,其拥有的增强高可靠性、增强分布式文件系统HDFS扩展性(使集群的I/O吞吐量能够随着节点数量的增加而线性增加)、动态调整数据复制策略(提高热点数据的并发访问能力)、改进分布式计算框架调度算法(避免并行任务退化成串行执行)、增加Hadoop集群监控管理、优化HBase查询、实现细粒度的HBase合并调度控制(避免合并风暴)、创建异地HBase大表、均衡负载等相对开源Hadoop和其他Hadoop发行版的核心优势在多个行业中均不可或缺。
满足用户的个性化需求
中桥咨询的一份大数据调查报告显示,大部分中国用户还处于“系统整合”阶段,需要对来自企业内外部的大量数据进行收集和整理。
“为什么现在用户对大数据解决方案求贤若渴?”高国辉自问自答,“因为传统的技术和解决方案已经无法解决用户当前遇到的诸多应用难题,比如实时交易数据的处理和分析等。金融行业提出‘小核心、大’,电信运营商积极构建双活的数据中心都是从各自的实际需求出发,以应对大数据带来的新挑战。美国的某电信运营商就采用戴尔的SharePlex技术构建了双活的数据中心。”
其实,无论企业的数据量有多大,数据是结构化还是非结构化,戴尔都可以提供具有针对性的解决方案。Spansion是一家知名的制造企业,它希望通过升级现有的数据库来更好地支持其关键统计流程,从而达到提升业绩的目标。为此,它采用了戴尔的SharePlex技术对原有的Oracle数据库进行升级,不仅安全地完成了数据库的迁移,而且节省了大量资金。
“诸如此类的例子还有许多。”高国辉介绍说,“不同的用户,在大数据方面的需求不同,而且对价格的敏感度不同,这就决定了用户在选择大数据解决方案时有其‘个性化’的需求。比如,许多互联网企业十分热衷采用基于Hadoop的解决方案,就是考虑到经济性的问题。戴尔的优势就在于,可以为不同的用户提供适合其需求的大数据解决方案。”
戴尔软件事业部已成为戴尔企业级端到端解决方案的核心组成部分。具体到软件解决方案本身,戴尔也强调端到端,比如戴尔软件可以提供从移动办公管理到信息数据管理再到数据中心和云计算的全面软件解决方案。其中,信息数据管理软件就与大数据直接相关,它包括数据库管理、应用系统及数据集成,以及大数据分析等产品。
全面的软件解决方案
上文提到的SharePlex以及Boomi等就是用户比较喜欢的戴尔软件产品。高国辉举例说,无论是结构化数据还是非结构化数据,无论数据在本地还是云端,通过Booming都可以实现整合和统一管理。“在大数据方面,我们强调的是如何帮助客户实现简化。比如,通过戴尔Toad软件,可以连接不同类型的数据库,借助Boomi还可以将本地的数据库与云中的数据相结合,然后通过戴尔的商业智能套件进行分析和展示,甚至还可以基于戴尔Kitenga软件进行深度数据挖掘。”高国辉补充说。
【关键词】大数据 体系架构 国产化 自主可控
1 前言
在全球已经全面进入信息时代的今天,数据已经成为与水、石油、天然气同等重要的国家战略资源。IDC报告指出,截止2011年底,全球的数据量已达到了1.8万亿GB,未来十年还将增长50倍,迅速积累的海量数据蕴含着重大的商业价值和社会价值。作为云计算领域的重要延伸,大数据在行业内的热度在不断升温。2012年我国大数据市场规模为4.5亿元,同比增长40.6%。IDC预计,全球大数据2016年将达238亿美元,中国市场规模未来5年将增长近7倍。
大数据技术最近几年在迅速发展,国内外的厂商和组织已经推出了多种大数据解决方案。在金融领域,已经利用大数据技术解决诈骗检验、IT风险管理和自助服务等问题,未来大数据技术将会起到越来越重要的作用。目前国内外很多金融机构如摩根大通、花旗银行,以及风电、太阳能发电、石化企业等制造业企业也开始采用大数据的解决方案进行设备监控、优化和故障预防[1]。
由于国内外针对商业机构系统频频发生的安全事件,国内各行业的信息化目前正在向基于国产软硬件和自主可控方向发展,大数据也是目前国内各行业重点关注的技术。很多厂商和企业纷纷进行技术研究、方案准备和内部测试,并逐步开始在历史数据查询、分析,非结构化数据检索等方向上开始使用[2]。从最近几年的趋势来看,安全、自主可控的大数据解决方案在大数据的行业领域有非常大的市场需求。
国内的很多关键行业应用,如金融信息系统的许多关键设备都没有采用国产产品,导致无法准确判断其安全隐患,这使得我国信息化建设的安全底数不清。迫切需要国内IT企业和行业共同研发自主可控、自主知识产权的信息系统、信息环境和信息安全产品。针对这种状况国家银监会提出了“自主可控,持续发展,科技创新”的三大战略[3],国产的信息化产品,在金融领域的应用已经开始了破冰之旅,事实也已经开始证明,自主可控的软硬件产品,在关键行业领域的应用是可行的,但是缺乏完整的经过验证的整体解决方案和实际案例,无法复制和推广。
本文基于国产软硬件产品进行自主可控的大数据体系架构研究要打破国外技术依赖,掌握技术命脉。针对现有行业关键系统多数是直接引用国外成熟技术,关键、复杂、核心的应用系统大多是建立在非自主产品上,形成了对国外的技术严重依赖的现状,本文的研究将可以在大数据领域打破国外技术的垄断,形成有竞争力的国产解决方案。
2 主要研究内容
本文主要研究面向行业应用、基于自主可控基础软硬件产品的大数据体系架构,研究内容主要包括:
2.1 行业大数据应用的需求分析
2.1.1 面向多源异构业务数据的采集和管理需求
在客户信息为例,行业内的集团企业经常会面临急需解决的数据集成问题,企业存在大分散的客户信息资源,并由各系统自主采集和维护,没有良好的共享体系,客户信息、订单信息等异构的存在不同数据源中,没有横跨多个业务领域的客户信息的统一管理和分发体系。因此,要求统一建设行业信息大数据管理系统,是一套为所有在线业务服务的、整合的行业信息大数据管理与分析系统,并具有行业先进水平的大数据管理和分析能力,以满足企业形成市场竞争优势的要求。
2.1.2 针对海量异构大数据的高性能存储需求
通过调研发现很多大型企业的信息系统已经积累了大量的业务数据,而且随着业务拓展的需求,大数据分析的数据源已经不仅局限于企业内部,如对客户流失分析或者产品销售趋势预测,就还需要互联网社交网络或者电商消费信息等。这些多源、异构、海量的数据对于大数据平台的存储提出了极高的要求。以某大型企业集团的客户和生产经营信息为例,数据规模已经达到上百TB容量,且相关数据量,特别是生产线的传感器数据和用户行为等数据还在持续大幅增长。
2.1.3 多样性大数据分析和处理需求
大数据分析系统不但集成了多个系统的数据源,未来大数据分析应用系统也会被多个部门,多个业务中使用,而且不同的部门和不同业务对大数据分析处理 的响应时间、数据量、结果准确程度以及具体的分析算法都会有很大差异。因此需要完整的对这些分析和处理需求进行分析,以便于设计满足当前和潜在需求的大数据分析处理架构。
2.1.4 行业大数据的安全监控和隐私保护需求
面向行业和企业的大数据平台都将集成来自于不同数据源的数据,其中有很多数据会涉及商业秘密和个人隐私等安全问题,所以这些数据在大数据平台中应该被合理的授权使用,并有完善的安全监控和隐私保护措施,以避免引起数据泄密或者隐私纠纷。
2.1.5 行业大数据平台的业务应用和可视化展现的需求
大数据分析的结果是更好的支持业务推广和运营决策,所以企业大数据分析还是要和现有的业务应用紧密结合,并且以简单友好的操作,以及可视化的方式直观的展现分析结果,这样才能被各部门和各级别的人员使用好大数据系统。
“大数据是当下最热门的一个IT话题,随着移动终端和电子商务的普及,人类社会已经进入了数据打包站的时代,如何应对‘大数据’是每个行业和企事业单位都必须面对的机遇和挑战。”荣之联公司董事长王东辉如是说。显然,作为多年专注于行业用户服务的IT方案商,荣之联已经意识到“大数据”给整个IT产业带来的变革和机会。
不过,知易行难。
尤其是随着社交网络、电子商务以及物联网的发展,结构化数据和非结构化数据并存,无论是数据的类型、来源还是数量等方面,都已十分复杂。而依靠传统的IT技术,已经很难对这些海量数据进行高效的分析。因此,是否能够找到一套涵盖业务、技术和IT基础架构的全面的大数据解决方案,就成为IT服务商决胜大数据市场的关键因素之一。
而这也正是荣之联公司与Alpine公司合作,共同拓展国内大数据市场的重要原因。“Alpine公司在大数据处理方面有着很多创新的技术和面向各个行业的解决方案,而这些可以帮助我们很好的解决国内行业用户所面临的大数据问题。”王东辉说。
其实,对于大数据,荣之联公司并不陌生。“过去几年,我们帮助华大基因等企业建设了巨大的数据库,计算量超过200万亿次,我们的生物云也马上要,数据量将会更大。而如何在生物行业中结合大数据分析,也是过去一年多我们一直在讨论的问题。”荣之联公司总经理张彤介绍道。
而荣之联公司多年积累的行业用户基础,以及良好的本地化服务能力,显然对于Alpine公司也有着十分大的吸引力:这将帮助Alpine的大数据解决方案在国内行业用户中迅速落地。
IBM全球高级副总裁、系统与科技部(STG)总经理RodAdkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本;IBM希望通过智慧的运算,实现智慧的地球的愿景。
英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔认为,大数据本身其实是信息革命的一个新引领。在未来几年随着物联网的发展,可能会有2100亿个RFID或者集群,在我们的环境之中,如果未来的移动互联、物联网如果变成现实,我们的生活会被传感器、会被数据采集装置所拥抱,这时候数据量将更大。这些数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。
VMware全球高级副总裁范承工认为,在过去三年当中,看到大数据的发展从无到有,市场上大家说大数据的趋势,三年前可能还没有人说这个词,现在已经如火如荼。然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据的需求、快的需求、开发者数据多样化的需求难以满足,使各种各样的解决方案大行其道。
EMC的大数据和存储专家、EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。
对于大数据给云计算带来的影响,Teradata技术总监StephenBrobst表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
其实云计算与大数据的不同之处主要在于应用的不同,主要在两个方面:
关键词:大数据;云计算;虚拟化
1认识大数据
相信大家都还记得2013年5月10日淘宝十周年晚会上,阿里巴巴集团董事局主席马云在其卸任集团CEO职位的演讲中说到:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”
什么是大数据?
早在1980年,当时著名的未来学家阿尔文·托夫勒便在其著作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。
环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。
随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。
而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。
2大数据应用的现状分析
最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?
一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。
Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。
果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。
利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。
随着社交网络在人们生产生活中地位的快速提升,大量UGC(User Generated Content用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。
事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。
目前典型的大数据应用领域有:
商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IPTV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。
公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。
政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时在了YouTube等网站上。
3大数据解决方案的现状分析
以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。
虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。
于是革命爆发了!
哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。
驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。
IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:
2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。
这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。
于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。
怎么办?
很多人立即想到了另外一个热词:“云计算”。
IBM全球高级副总裁Rod Adkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。
EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监Stephen Brobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。
然而事实真的如此吗?
让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:
面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。
IBM给出的解决方案是:
首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。
其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。
而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性,能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。
总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。
可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。
4结束语
大数据业务值得期待
在云计算方面,曙光多年的努力已经看到了成效。在曙光自己建设和运维的云数据中心里,存储容量基本都超过10PB,承载了大量来自地质勘探、视频监控、电子政务等方面的数据。其中,结构化数据与非结构化数据的存储比例是1∶4,大量非结构化数据存储主要存储的是图片和视频,这也为下一步的数据挖掘奠定了基础。曙光为企业级客户提供的云存储解决方案涉及公安云、税务云、教育云、医疗云等。
在大数据产品方面,曙光已经成竹在胸。针对结构化、非结构化和半结构化数据,曙光都能提供匹配的存储解决方案。比如,针对非结构化和半结构化数据,曙光的ParaStor就是一个非常好的存储平台。再比如,曙光利用自己的文件系统对Hadoop平台进行了优化,可以更好地发挥Hadoop的优势。惠润海表示:“当前,虽然大数据带来的直接收入并不如预期,但是大数据市场的前景十分广阔。”
不赶一体机的时髦
在大数据市场上,一体机越来越流行,曙光却一直按兵不动。“我们一定要透过现象看本质。一体机的核心还是软件。”惠润海表示,“将相关硬件拼凑在一起,再加上Hadoop就能构成一个简单的一体机,但是这样的产品会有竞争力吗?我们只要推出一个新产品,就希望这个产品具有一定的竞争力,能够在市场上取得较高的占有率,而不是搞噱头。”
在大数据业务方面,曙光的核心竞争力主要体现在它有一支强大的技术服务团队,可以为用户提供代码级开发的服务能力。由于自身的复杂性以及存在Bug,Hadoop通常不能直接使用,这就需要大数据解决方案厂商在Hadoop平台上进行相关调整和优化。“由于数据种类繁多,数据量又大,如何快速将大数据导入到大数据挖掘系统中是一个难题。如果厂商没有过硬的技术服务团队,不能根据数据的情况对解决方案进行调整和优化,那么大数据应用落地就将成为一句空话。大数据应用之所以难普及,一个重要的原因就是具有代码级开发能力的专业技术人才太少了。”惠润海表示。
在推广大数据解决方案时,曙光并没有与某一个应用软件厂商签定产品捆绑协议。不过,曙光还是针对一些主流的应用软件进行了方案的优化。举例来说,在结构化数据处理方面,曙光主要针对Oracle数据库进行了方案优化。曙光利用基础的硬件,结合自己的大数据挖掘系统,可以将Oracle数据库的查询速度至少提升50倍,而成本只有传统的“小型机+高端存储”解决方案的十分之一。
存储服务器已获认可
软件定义的网络也好,软件定义的存储也罢,无非都是在强调一个重点:软件将成为未来IT架构和应用的核心。“从存储的研发上看,除了少量的硬件研发以外,我们90%的研发人员从事的都是软件研发。”惠润海表示,“曙光在软件研发上强调的是精英文化,近百人的研发团队具有代码级的开发实力。未来,我们研发的重点将放在海量存储、大数据挖掘和云存储上,而对于传统的磁盘阵列不会有太大的研发投入。”
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。
通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。
EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。
EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。
杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。
EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。
方案点评
EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。
HDS UCP:统一平台 应用优化
HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”
大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。
大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。
HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。
方案点评
其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。
HP StoreAll :快速部署 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。
第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。
目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。
惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。
如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。
方案点评
惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。
对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。
无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。
在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。
NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。
NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。
用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。
方案点评
NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。
首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。
其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。
最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。
从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。
针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。
“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”
曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。
针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。
曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。
针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。