时间:2023-03-06 15:58:24
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇大数据整体解决方案,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
数据的变化,从来不是一个循序渐进的过程。随着信息的砰然爆发,谁能合理地分析、管理、挖掘海量数据的内在价值,谁就有可能成为下一个行业巨头。无论从应用、需求还是解决方案层面,大数据都已经到了“应时而生”的时代。
“可以说,这是一场数据的‘工业革命’,数据迎来了量与质的改变,非结构性数据激增,计量单位已从T级升至P级,甚至是E级。”英特尔亚太研发有限公司总经理何京翔在接受本刊记者采访时称,“目前这些数据大部分是‘冷数据’,即采集完成后并没有进行实时分析,没有挖掘其潜在价值。”
包装的艺术
大数据涉及数据采集(存储)、数据传输(网络)、数据处理(计算),而这些恰恰都是英特尔的专长。“Intel Distribution for Hadoop是对传统英特尔平台的优化,然而,对Hadoop(目前最受欢迎的对网络搜索关键词进行内容分类的工具)进行逐一模块式的优化仍然是零散的,需要形成整体的、打包式的解决方案,这就进一步涉及管理。”何京翔解释,“目前仅Hadoop涵盖的20个模块是开源的,仅将开源软件定为企业级应用,其稳定性、可靠性、可维护性都成问题。因此,如何把零散的模块包装起来,形成整体效益,才是英特尔的‘绝活’,换句话说,Hadoop管理才是让‘1+1>2’的核心。”
何京翔表示,英特尔正在利用不同级别的处理器架构、不同的数据应用架构,以及相关的解决方案,帮助用户从端到端找到完整的解决办法。综合解决方案,意味着从芯片到存储,再到网络,最后到软件应用,形成链型优化,其直接效果就是原先4小时的处理时间能够被压缩至7分钟。
英特尔的综合解决方案并非一站式服务,这符合英特尔一贯主推的横向商业模式(Horizontal Model)。何京翔称:“英特尔大数据解决方案的客户都是我们的合作伙伴,我们认为,为不同客户提供不同层次的、灵活、强大和开放式的解决方案,方能真正为企业预留出创造价值和发挥优势的空间,帮助企业解决实际难点。”
群狼与雄狮
目前,英特尔大数据技术主要应用于四大领域:电信、金融、智能交通和医疗。
以电信行业为例,中国用户群庞大,自动产生的数据量大,数据分析是个很现实的问题。“电信公司的客户通讯数据产生的时候是结构化数据,但是数量太庞大,传统的结构化数据分析方式做起来比较吃力,所以现在我们先把它转成非结构化的,输入Hadoop,通过分布式处理,生成并存任务,然后再将结果写回结构化数据,最后我们合作伙伴看到的还是结构化的分析数据。”何京翔比喻说,“这是一个典型的‘一头雄狮子斗不过一群狼’的例子。”
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。
通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。
EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。
EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。
杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。
EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。
方案点评
EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。
HDS UCP:统一平台 应用优化
HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”
大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。
大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。
HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。
方案点评
其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。
HP StoreAll :快速部署 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。
第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。
目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。
惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。
如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。
方案点评
惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。
对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。
无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。
在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。
NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。
NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。
用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。
方案点评
NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。
首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。
其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。
最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。
从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。
针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。
“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”
曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。
针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。
曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。
针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。
面对大数据时代愈加复杂的应用环境和特点,同有科技针对不同的用户需求和市场,率先提出“应用定义存储”和“定制”两大革命性战略。通过专业、高效的产品及解决方案,帮助各行业用户积极应对大数据时代新兴应用的挑战,在业界掀起了一场新型数据中心变革的热潮。
EDC引领中高端市场新变革
大数据时代,各种具备大数据特征的新兴应用需求逐渐增多,中高端用户对数据中心的性能、效率、安全等各方面的需求都有了革命性的变化。针对新型需求,同有科技提出划时代的“数据改变未来,应用定义存储”战略,对数据中心存储架构进行了重新定义。通过一系列“E”型产品和“E”型解决方案,帮助用户构建EDC(Efficient Data Center)高效能数据中心,满足大数据时代各种新应用对数据中心存储的不同需求。
与传统的数据中心不同,同有科技EDC高效能数据中心,对数据中心存储架构进行重新规划、设计与定位。它涵盖产品、解决方案、咨询与服务三个层面,为用户规划了先进的产品和贴近应用的解决方案,帮助用户构建高效能大数据存储架构。
通过全系列 “E”型产品和方案,同有科技EDC为用户部署的高效能数据中心,能让数据中心拥有极高的IT资源、存储资源利用率;NCS虚拟交换技术和固态存储系统,保证数据中心整体性能无瓶颈;物理机与虚拟机之间的自动漂移技术,实现数据中心业务无缝闪电接管;深度条带技术,让数据中心具备超强自愈功能。
EDC理念为用户构建新型数据中心提供了全新的思路,在市场应用以来,受到了众多用户的青睐,引发了新一轮中高端存储用户在大数据时代数据中心建设的革新热潮。
定制化引爆中小存储新理念
大数据时代,作为中国存储行业最具成长性的领域,中小存储市场迎来了爆发增长期,传统的单一产品和方案已远远不能满足用户需求。作为同有科技专为中小存储市场和安防市场打造的独立子品牌,存储小金刚了划时代的“存储,从定制开始”战略。通过“定制”的产品及解决方案、渠道政策、供应链管理和服务政策,满足各行业用户的个性化需求,全面开启定制时代。
全面区别于业界单一产品行天下的模式,存储小金刚针对中小存储市场和安防监控市场的不同行业与应用,为用户打造量身定制的产品及解决方案;根据业务模式、市场拓展、培训支持、价格体系等方面的不同需求,为合作伙伴提供定制的渠道政策;同时,更为不同类型的用户及合作伙伴,定制不同的供应链管理和服务政策,满足不同行业、不同应用的个性化需求。
目前,存储小金刚已经成功为政府、教育、医疗、企业以及安防行业等用户提供定制的存储服务,成为了中小存储市场和安防市场当仁不让的领导品牌。
坚持自主创新 推动国产化
大数据时代的到来将会给各行业带来前所未有的变革性影响,通过对海量数据的挖掘和分析会获得全新的、更具竞争力的服务和更大价值的产品。数据的安全和信息系统的不间断运行将成为关注的重心,IT系统基础构建也将以此展开从而防范可能发生的管理危机。北京蓝科泰达科技股份有限公司(以下简称北京蓝科泰达)成立于2002年,作为容灾备份领域的厂商和行业专家,致力于保障大数据时代数据安全和信息系统持续不间断运行。北京蓝科泰达以客户需求为导向,以大数据时代数据安全和信息系统不间断运行为着力点,推出“PlusWell全业务保障整体解决方案”。
“PlusWell全业务保障整体解决方案”是构建基础IT系统的关键技术也是大数据时代数据安全和信息系统不间断运行的重要保障,是积极应对危机事件必要的技术手段和管理方向。全面涵盖了服务器高可用,满足信息系统7×24小时不间断运行;数据多点存储冗余避免存储故障带来的数据丢失、业务停顿;数据自动备份、在线还原规避逻辑错误和人为误操作保证数据“零”丢失。
PlusWell SyMirror同步镜像系统采用虚拟磁盘技术,提供透明化的数据存取功能和智能增量数据实别功能,确保两台物理存储设备的数据在任何时候的一致性,确保加入虚拟系统中的存储设备进行快速增量同步,存储设备容灾切换时间小于1秒。同PlusWell HA软件系统紧密配合,协同切换,实现真正意义的高可用冗余存储方案。PlusWell HA 集群软件系统提供服务高可用(热备)功能,保障信息系统7×24小时连续运行。PlusWell VBS虚拟备份系统提供业务数据的自动备份和在线还原功能,保证数据的“零”丢失和海量数据5秒内还原到任意备份点;同时提供对服务器操作系统的灾难备份和一键还原功能(可以选择还原到各种历史备份点)。“PlusWell全业务保障整体解决方案”一经推出便有不俗的表现。2008年,经过严格的方案评审和苛刻的入场测试从众多解决方案中脱颖而出,圆满完成了“北京奥运会、残奥会开闭幕式指挥监控系统工程项目”。北京奥运会开闭幕式运营中心给出了以下的评价:“PlusWell品牌热备份软件自2008年6月12日进国家体育场(鸟巢)安装,经过3个月的运行,其间经过奥运会开闭幕式、残奥会开闭幕式的检验,产品运行稳定可靠、各项技术指标满足工程要求,圆满完成奥运会演出与仪式的指挥监控任务!”
奋进中的北京蓝科泰达不满足于获得的已有成绩,持续创新,推出了“智能数据交换机”产品系列。“智能数据交换机”是北京蓝科泰达十余年的技术积累和行业经验的结晶,将引领大数据时代灾备市场变革潮流、迈进灾备平台崭新时代。
“我特别担心有客户对我说,请富士通来帮我做一个大数据解决方案,帮我解决包括研发、生产和销售在内的所有问题。说实在的,富士通真的做不到。大数据解决方案的形成是一个过程,是IT厂商与用户一道在分析企业自身运营状态与所在行业发展趋势过程中不断改进的过程。”富士通(中国)信息系统有限公司副总裁兼市场战略总部解决方案服务战略事业部总经理黄邦瑜7月11日在贵阳大数据国际年会上接受采访时表示。
数据决策的5个阶段
黄邦瑜在接受采访时强调,大数据应该是一个帮助企业决策的工具,企业管理者千万不要认为IT能代替他们做出决策。他介绍说,富士通把企业的决策分为五个阶段:
第一个阶段,以传统的根据企业管理层的经验来做决策为特征。这其中涉及一些数据,这些数据可能是管理者的纸面记录和报告,或者新闻媒体的一些信息。管理者认为该怎么做,于是拍脑袋就做出决策了。
第二阶段,以办公软件中的Excel等表格中的数据为依据进行决策。这种表格可能很大,横向纵向都有好几页。
第三阶段,为了把企业管理层从各种各样的电子表格和电子表格中庞杂的数据中解放出来,IT部门会用IT手段把重要的信息及时提炼出来,并且每天早上发给管理层供其决策使用。这一阶段的数据来源是多样化的,如ERP、财务、人力资源、生产等系统产生的结构化数据。经过提炼后,这些数据会以图形化的方式呈现。还有一些来自网络、媒体等的外部数据。所以,管理者会看到结构化与非结构化两种数据。
第四阶段,借助IT手段从大量的数据中找出规律并提醒管理层,而不是要管理者针对各种数据做出快速反应。
第五阶段,根据内外部各种数据对未来的一些业务场景进行模拟,以评估决策的效果。
“因为管理层的时间和精力有限,这就要求IT能够采集企业运营过程中产生并积累的大量准确的数据,并且从外部海量数据中摄取相应的辅助数据,然后通过数据挖掘和分析等方式,将其规律找出来,并且比较精炼地展现在决策者面前,使其能够在短时间内做出精准的判断和决策。”黄邦瑜说,“当然,前提是企业的信息化基础要足够好。如果企业没有存储运营过程中产生的大量的有价值数据,一切也都无从谈起。”
大数据对决策的辅助支持不仅适用于管理层。企业会遇到战略、市场或技术等各种不同层面、不同范围的决策问题。黄邦瑜举例说,富士通众多业务中包括医药领域的基因与新药研究。以往的新药开发主要凭借科研人员的智力和经验。如今,研究人员如果有了一个灵感或者设想,可以在高性能计算机上进行模拟和验证。大数据已经颠覆了传统的新药开发模式。
企业必须参与其中
科学与技术之间一个基本的区别在于,科学是去发现自然界中原本就存在的规律,而技术则是为了发明自然界中原本不存在的东西。就目的而言,大数据更像科学,它要做的是去发现原本存在于海量数据中的关联性规律,只不过先前IT的存储与计算能力难以胜任。
“企业在上马大数据之前首先要练好内功。以制造业为例,企业要从研发、生产、营销等流程上进行审视,看这些流程中的数据是封闭在各自的流程中,还是可以被其他流程共享,因为在从产品研发到销售的整个业务流程中,某个流程上产生的数据可能会对其他流程产生影响。上大数据应用的前提是打破企业的信息孤岛。”黄邦瑜说。
在之前的企业信息化建设中,IT供应商与用户的职责很清晰。系统集成商要根据用户的应用需求,结合企业所在行业的属性,制定并实施相应的解决方案;系统建成后,交由用户使用。而大数据应用则要求打破甲方、乙方泾渭分明的界限,要求用户与系统集成商一道完成大数据解决方案。
“现在大数据非常火,以至有的企业认为大数据就是一副灵药,马上能够解决企业存在的所有问题。实际上这是一种认识误区。”
黄邦瑜说,制造企业拥有大量的各种类型的数据,不可能找到一种解决方案把企业经营者想找的规律一下子都找出来。富士通会根据用户的需要找一个主题,用户从业务分析着眼,让数据与业务关联;而富士通则从IT入手,分析如何从海量数据中找出与该主题相关的规律,然后制定并实施相应的解决方案。
“当前,大数据尚处于起步阶段,中外企业最大的差别在于,国外企业信息化应用更成熟一些,他们会针对大数据提出自己的问题和需求。”黄邦瑜说。
云计算,特别是SaaS应用的普及,使得企业的数据越来越多地向云迁移,企业的数据安全问题因此凸显出来。黄邦瑜因此特别强调云计算下大数据应用的安全问题:“现在,企业的云应用还处于初步阶段,如办公系统、人力资源等,一旦企业的ERP等核心应用迁移到云上,而相关的法律、法规和行业监管没有及时跟上的话,企业的核心数据就有可能被他人恶意盗用,或者被服务供应商为了商业目的而滥用。”
“欧美日在这方面的监管非常严格,市场准入门槛非常高,需要企业具备多种资质。如果不能在机制上有效地保护用户数据不被滥用,那么企业会因为出于对数据安全的担心而对云计算乃至大数据应用裹足不前。”
贵在理解用户的业务
传统上,日本IT厂商比较低调,不像美国IT企业那样通过强势的市场营销开辟新的市场,并借助合作伙伴的力量迅速进行市场扩张。日本的IT厂商通常会与客户保持长期而密切的合作关系。比如说,富士通现在提倡的精益IT理念就源自几十年来与丰田汽车在生产管理方面的合作。
“传统日资IT企业与德国企业比较接近,都比较务实,注重产品品质和细节。而且日资企业的员工流动率没有美国企业那么高,技术队伍的稳定使得日资IT企业对其客户所在行业的知识和经验积累得更多。这些因素使得日资IT企业与他们的客户保持密切的长期合作关系。”黄邦瑜说,“今天看来,在与客户长期合作中形成的对用户业务深刻的理解,以及由此形成的良好的用户体验非常重要,因为大数据的实施既要尽可能理解用户的业务,又要与用户一道持续不断地对解决方案进行改进。”
黄邦瑜说:“富士通既是IT企业,也是制造行业企业,因此我们会基于自己的最佳实践,为不同的客户提供更细致的产品和服务。从产品上看,富士通的特点是比较全,包括后台的服务器、存储、网络、中间件,以及客户端的智能手机、平板电脑、笔记本电脑等。因此,富士通的整体解决方案会更加优化。
“从系统整体上规划、设计和实施大数据解决方案是富士通的优势所在。比如说,在医疗影像领域,有的美国影像设备供应商会在卖设备时附送该设备的处理软件,但它并不能满足医院除了医疗影像设备之外的其他需求。”黄邦瑜说,“而作为IT厂商,富士通更关心如何用IT系统来支撑医院的整个影像业务,即在包括挂号、门诊和影像科检查等在内的整个流程中,不同科室如何分享影像数据,如何分门别类地存储这些数据,如何与医院的信息系统对接等。”
2013年,惠普了大数据解决方案平台HAVEn,这是一个能够处理所有数据类型,能够实时分析且安全的开放架构。目前,该平台在国内外的金融、电信、能源、互联网等行业中已经拥有了许多成功应用。惠普中国区副总裁、软件集团大中华区总经理于志伟表示,HAVEn的推出标志着惠普已经脱离了初始的数据汇集的阶段,步入了大数据应用的新阶段。
行业、能力、人才
于志伟认为,目前中国的大数据应用还处于起步阶段,而且由于行业需求、区域和人才储备等情况的差异,造成了大数据应用水平参差不齐的现象。在某些行业,用户对大数据的需求是十分迫切的,但是相当多的用户仍纠结于数据量“大”这个问题,还没有考虑结构化、半结构化和非结构化等不同类型的数据应该如何处理。
国外的大数据应用水平已经达到很高的程度。举例来说,在美国,一个区域内的所有医院的信息都会被搜集起来用于分析,据此可预测某种疾病的死亡率。“国外的大数据应用已经走入行业,可以挖掘出行业中真正有价值的东西。虽然国内的大数据应用还停留在初始阶段,但在某些行业,比如互联网,其大数据应用的复杂程度比国外更甚,发展水平也较高。”于志伟向记者表示。
大数据的应用要经历一个过程,不同的行业对大数据应用的需求是不同的。于志伟表示,企业在实施大数据应用时应注意以下几个问题:第一,注重大数据的行业应用价值;第二,企业要不断提升自身的能力去获得想要的信息;第三,大数据人才非常重要。“目前,我国大数据行业面临着人才严重匮乏的局面,从数据模型专家到通晓行业应用的复合型大数据人才都十分短缺,这会影响大数据应用的发展速度。”于志伟表示。
HAVEn是一种方向
今天,产品集成并不是难事,那么HAVEn是不是简单地将相关产品攒到了一起呢?于志伟澄清说,从HAVEn本身的标准架构来看,H代表Hadoop,表明HAVEn是一种分布式的架构,能够支持各种类型的数据,而且存储成本非常低廉;A代表Autonomy,表明HAVEn可以高效地处理非结构化信息,特别是机器语言;V代表Vertica,表明HAVEn可以实时处理和分析大量信息;E代表Enterprise Security,主要针对半结构化数据的处理;n代表的是各种在大数据平台上开发的应用。
HAVEn是一个平台,它可以处理所有类型的信息,而且能做到实时分析,同时具有安全性。那么,HAVEn能不能代表未来大数据方案的发展方向?于志伟并没有正面回答记者的问题,而是举了一个例子,全球最大的社交媒体公司,之前采用Hadoop架构对信息进行处理。但是在半年前,它们采购了Vertica。很多人认为,Hadoop代表了大数据主流的发展方向,那么这家企业为什么会转而选择Vertica呢?最主要的原因是,Vertica可以实现实时分析。对于以广告收入为主要来源的这家企业来说,实时推送精准的广告是至关重要的,而Vertica可以实现。这家企业用Hadoop处理非实时的数据业务,而用Vertica进行实时的业务分析。虽然相比Hadoop,Vertica的采购价格略贵,但这家企业还是一次性采购了20PB。还有一家美国的知名电信公司,一次性采购了25PB的 Vertica解决方案,用于4G业务。
“我们不去争论HAVEn是不是业界最先进的产品,但是综合上述这些已经使用了HAVEn的代表性企业的实践,HAVEn代表了一种发展方向。”于志伟分析说,“Hadoop将来会不会更全面,也能实时处理信息?有这种可能性,但需要时间。三年或五年以后,什么都可能发生,一种新技术甚至会消失。事实证明,我们的大数据平台能够解决用户的问题,而且很多用户都在使用。”
在中国,也有用户在使用HAVEn,比如一个运营商使用HAVEn中的Vertica,分析用户的上网行为,每天分析的记录达到几十亿条。以前,这样的分析工作很难在一天之内完成,而使用Vertica,分析速度提高了60倍。另外,国内某知名能源公司采用HAVEn中的Autonomy,支持其信息共享平台。
于志伟认为,HAVEn还只是一个大数据平台,而用户购买的是应用。因此从这个角度说,惠普提供的解决方案还不够全面。HAVEn中为什么会有一个“n”,就是表明惠普要在大数据领域开发更多的应用。惠普与全球最大的几家咨询公司合作,并在亚太和中国市场上寻找类似的合作伙伴。“行业解决方案是有区域性特征的,不可能直接照搬国外的。在一些垂直细分领域,我们一方面自己开发,另一方面也和合作伙伴共同开发解决方案。”于志伟补充说,“我们与政府合办的IT培训基地也把大数据当作一个重点。中国极缺大数据人才,我们从现在开始就要培养。这些人才今后可以为我们的合作伙伴所用,有利于我们共同构建一个良好的大数据生态体系。”
树立行业样板
记者在采访很多用户时,他们都表示已经认识到了大数据、云计算的重要性和可能给企业带来的收益。但是认识与接受是两回事,目前真正将大数据、云计算用于业务并取得显著经济利益的用户毕竟是少数。大数据是当前用户最迫切需要的、关系企业成败的技术,还是只是起到了锦上添花的作用?
于志伟对于大数据的前景十分乐观:“目前在客户中,真正使用大数据的比例可能低于5%,但即使是这5%已经是巨大的客户量,而且这5%的企业都是超大型的企业和最需要大数据的企业。惠普一定是先与这些企业合作,树立大数据的应用标杆,然后再引导更多的企业加入。惠普目前在做的人才教育和培养工作,也是为了更好地普及大数据应用。我们不确定大数据市场何时会井喷,但我们会一直持续地给用户和市场更多方案、经验和信心。”
大数据的一个典型特征就是实时处理和分析,能够实现实时处理的解决方案价格相对昂贵,而客户往往追求的是高性比的解决方案。那么,价格会不会是阻碍大数据普及的一个因素呢?Vertica是实时分析工具的一个代表,它的价格是普通企业用户能接受的吗?“相对于Hadoop大数据方案来说,Vertica的成本高相对高一些。”于志伟并不讳言,“Vertica运行于开放的硬件平台架构之上,不管是惠普自己的硬件还是第三方的硬件,即使在低端的x86平台上也可以良好运行。我们可以为用户提供灵活的选择,既能提供Vertica软件,也可以提供软件与硬件组成的整体解决方案,包括一体机。无论从整体拥有成本,还是灵活性的角度来分析,相比市场上的其他一体机或大数据解决方案,Vertica大数据解决方案还是非常有竞争力的。”
链接
惠普中国软件集团的四件大事
2014年,惠普软件的整体战略相较去年不会有太大变化。于志伟表示,惠普软件在今年将主要做好以下四件事。
第一,在大数据、云计算方面继续加强与政府的合作,同时抓好人才培养工作。
第二,在大数据、云计算、移动应用等领域,寻找并树立更多的成功用户样板,吸引更多新客户。
在锐捷网络RG-BDS产品上,锐捷网络安全与应用交付产品事业部总经理项小升表示:“锐捷网络拥有完整的安全产品线,但我们多年来在安全产品的用户部署过程中发现很多用户并没有真正地发挥出安全设备应有的作用,其原因在于缺乏好的工具对安全日志进行充分挖掘与利用。同时,安全的发展到了一个变化的时代,移动、云计算、大数据成为各领域有效的变革技术,我们可以通过这些新的技术去改变传统的安全,让用户体验到新技术带来的新价值。”
网络安全“态势感知”是新兴技术,是未来十年中国互联网安全的创新方向之一,它包含漏洞挖掘、网络攻击、用户行为分析等一系列技术和相关创新产品,而其中最关键的一项便是“大数据”。锐捷本次的RG-BDS大数据安全平台,则采用了业内领先的整体结构和精准的大数据分析模型,将用户的高危风险准确、实时、直观的呈现地出来。
据锐捷网络安全与应用交付产品事业部解决方案部经理蔡铮鸣介绍,锐捷大数据安全平台RG-BDS整体架构包括了安全管理对象、事件采集、专项管理、大数据分析、业务功能和综合展现,共计“六层模型”。另外,RG-BDS大数据安全平台通过智能的“四步法则”,即:第一,收集并标准化海量数据,构建安全大数据仓库;第二,日志、资产、漏洞关联分析,直击要害问题;第三,工单系统+知识库,实现闭环安全管理;第四,量化呈现安全业绩,实时跟踪安全态势;最终达成掌握安全态势和量化展示安全工作业绩的管理目标。
在虚拟化、云计算、BYOD、大数据带来变革与创新机遇的同时,黑客的进攻手段和安全防护技术也都经历着快速进化。随着大数据时代的到来,海量的数据不断在企业中流动,进入企业内部网络的途径也越来越多,黑客会利用APT等更高级的定向式攻击,不断寻找出网络“弱点”,并隐藏其中,随时发动致命的攻击。但是,另一方面,大量数据的流动变化,也为我们寻找黑客的非法行为提供了蛛丝马迹,利用不断创新的大数据安全技术就可以做到“听其声、辨其形”,而网络安全“态势感知”也必将成为抵御未知威胁最锋利的武器。
“态势感知”的数据从何而来,就此,蔡铮鸣表示:“大数据不仅仅来自于锐捷网络自身的设备和分析报告,还来自于与很多合作伙伴或第三方紧密的合作,比如其他厂商的设备或者一些分析、管理平台允许锐捷网络RG-BDS大数据安全平台接入,收集数据,然后对数据实施标准化,最后才能对数据进行分析,得出分析结果。锐捷网络目前已经与一些主流安全厂商的安全设备实现对接,比如思科、华为等。此外,锐捷网络的网络设备也支持Linux、Windows操作系统进行管理。”
锐捷网络新推出的这款大数据安全平台日后会向哪个方向发展呢?会和RIIL平台做联动吗?
归档到磁盘
传统上,人们习惯用磁盘做备份,用磁带做归档。随着数据量的不断增加,人们需要更快速地处理、归档数据,而且要保证归档数据随时可查。虽然从成本的角度考虑,磁带仍然是最经济的归档介质,而且磁带可以实现离线的数据保护,这有利于数据的异地保存和安全性,但是性能始终是磁带最大的掣肘。Janae Lee举例说:“在美国,我们的一个客户为了提高系统的整体处理性能,在一级存储中使用了固态硬盘(SSD),之后不经过任何中间环节,就将数据直接归档到磁盘系统中。”一些互联网企业和游戏客户可能会对这种高性能磁盘归档方案感兴趣。
从技术的角度看,将磁盘用于归档是否可行呢?当磁盘上的数据越聚越多时,即使有RAID等技术作为保护,磁盘还是会容易出现故障。退一步说,就算RAID技术能够起到保护作用,RAID进行数据重构时,也要花费一定时间,当数据达到PB量级时,这种重构所花费的时间可能是用户难以忍受的。由此可见,将磁盘用于备份,一个前提是必须提升磁盘的效率、安全性,同时降低其整体拥有成本。为此,昆腾将一种原先用于通信领域的技术引入到磁盘归档方案中,推出了基于Wide Area Storage(WAS)技术的磁盘备份方案。与RAID磁盘相比,WAS的安全性大大提高,效率提高50%~70%,整体拥有成本降低50%~70%。Janae Lee介绍说:“我们的磁盘归档方案基于NAS界面,可与StorNext软件配合使用,非常适合云归档应用。磁盘归档方案将于2013年初面世。”
磁带是数据保护的最后一道防线。Janae Lee表示:“磁盘归档方案与磁带归档方案之间不是替代的关系,而是互补的关系。磁带归档市场仍在不断扩大。对于那些办公场所位置分散,又希望快速存取数据的用户来说,WAS是比较理想的选择。”
磁带不受影响
在大数据时代,磁带的重要性会进一步被削弱吗?昆腾公司大中华区总经理张金华介绍说:“从2011年昆腾在中国的销售业绩看,以DXi系列产品为代表的磁盘业务始终保持高速增长的态势,每个季度的增长率都能达到两位数,而磁带业务则与2010年持平。”虽然昆腾的业务重点已经转向数据保护整体解决方案和大数据,磁带不再是业务核心,但是昆腾并没有放弃磁带业务,对于磁带的研发投入也没有减少。
“我们为磁带库产品增加了一些新的功能,比如EDLM自动磁带内容检查功能、双机械臂、Active Vault等。这些新功能的加入,可以让磁带库与StorNext软件更好地配合使用。”Janae Lee举例说,“在广电领域,10%的数据存储在磁盘上,90%的数据存储在磁带上。用户还要经常调取磁带上的数据。StorNext 4.3版本增加了一项新功能,在将数据写入磁盘的同时,也会写入磁带。这种技术非常适合电视台节目上传的应用。”
软硬件都重要
在昆腾的大数据解决方案中,StorNext扮演了极其重要的角色。以前,StorNext都是以软件的方式提供给客户的。但是有客户反映,StorNext的部署和调优比较复杂。为此,从2011年开始,昆腾开始提供基于StorNext的软硬件一体化解决方案。