时间:2023-03-22 17:36:43
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇大数据分析论文,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
大数据背景下的机器算法
专业
计算机科学与技术
学生姓名
杨宇潇
学号
181719251864
一、 选题的背景、研究现状与意义
为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。
在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。
随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。
二、 拟研究的主要内容(提纲)和预期目标
随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。
三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)
1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。
四、 论文(设计)的工作进度安排
2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。
2020.04.28-2020.04.30 :设计实验。
2020.05.01-2020.05.07 :开展实验。
2020.05.08-2020.05.15 :准备中期检查。
2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。
2020.05.29-2020.06.26 :论文修改完善。
五、 参考文献(不少于5篇)
1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.
2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.
4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.
5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.
6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.
7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.
六、指导教师意见
签字: 年 月 日
七、学院院长意见及签字
关于移动通信论文参考文献:
[1]谢显忠等,基于TDD的第四代移动通信技术[M].电子工业出版社,2005.
[2]解梅,移动通信技术及发展[J].电子科技大学学报,2003,02.
[3]宋文涛、罗汉文,移动通信[M].上海交通大学出版社,1996.
[4]何林娜,数字移动通信技术[M].机械工业出版社,2004.
[5]吕昌春,李林园.移动互联网产业链平台竞争与电信运营商增值业务发展策略研究[J].邮电设计技术,2012(11):16-20.
[6]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下),2011(01):52-53.
关于移动通信论文参考文献:
[1]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下),2011(01):52-53.
[2]吕昌春,李林园.移动互联网产业链平台竞争与电信运营商增值业务发展策略研究[J].邮电设计技术,2012(11):16-20.
[3]刘文婷.以运营商为主导的移动互联网业务商业模式研究[J].中国工业经济,2012(08):66-74.
[4]冯文高.我国移动通信产业的竞争均衡分析[J].现代经济信息.2009(16)
[5]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下).2011(01)
[6]马云泽.我国移动通信产业的市场结构与规制改革[J].经济问题.2009(01)
[7]张平王卫东陶小峰《WCDMA移动通信系统》人民邮电出版社
[8]詹炳根,《工程建设监理》,中国建设工业出版社,1997
[9]谢坚勋浅谈工程监理与项目管理接轨建设监理2004(2)
关于移动通信论文参考文献:
[1]赵刚.大数据:技术与应用实践指南[M].北京:电子工业出版社,2013.
[2]漆晨犧.电信企业大数据分析、应用及管理发展策略[J].电信科学,2013(3):12-16.
[3]刘洁,王哲.基于大数据的电信运营商业务精确运营平台的构建化[J].电信科学,2015,29(3):22-26.
[4]张俊.移动通信网络中大数据处理的关键技术研究[J].电信网技术,2014(4):10-12.
[5]康波,刘胜强.基于大数据分析的互联网业务用户体验管理[J].电信科学,2013,29(3):32-35.
[6]谢华.大数据在移动通信中的应用探讨[J].科技创业家,2014(1).
[7]夏磊.探巧大数据下的智能数据分析技术[J].科技创新导报,2014(10):21.
[8]侯优优,隋化严.网络优化中的大数据应用[J].互联网天地,2014(l):34-37.
[9]刘震,付俊辉,赵楠.基于移动通信数据的用户移动轨迹预测方法[J].计算机应用与软件,2015,30(2):10-13.
DSE杂志主编、哈尔滨工业大学李建中教授认为,现在大数据概念过热,几乎每个人都在谈大数据,但真正了解大数据的人并不多。所以,对于大数据到底是什么,应该怎样促进大数据的实际应用是学术界首先要探讨的问题。DSE杂志希望成为全世界大数据研究者的交流平台,让我国大数据方面优秀的研究成果能够发表在国际学术期刊上,推动我国的学术界走向世界。另外它也为全世界的企业界和学术界搭建了一个桥梁,促进大数据的研究成果向实际应用的转化。
在很多技术领域,中国的发展都是在跟随国外的脚步,但发展到今天,我们需要在一些领域做出创新,数据分析就是其中的一个突破口。现在国内很多领域、尤其银行领域用的数据分析软件都是国外产品。
对于此次合作,中新赛克CEO凌东胜说道,作为软件开发供应商,中新赛克希望通过这次合作能够把学术界的研究成果转化到产品的实际解决方案中去,提升产品的核心竞争力,开发出领先的数据分析软件,让国内企业在大数据领域真正做强、做大。在2015年,中新赛克将把信息安全领域和银行领域作为大数据产品的主要研发方向,努力推出优秀的产品解决方案。
对于大数据从学术研究到实际产品的应用,清华大学计算机系博士生导师、计算机系学术委员会主任周立柱教授认为还存在一些问题需要克服。首先就是要保证数据质量,目前数据噪声、数据不一等问题还有待通过研究来解决;其次是数据大了以后,如何利用合适的数据模型从复杂性的数据中筛选出目标数据;再次是数据分析得出的结果如何向用户解释,背后的基础是什么。
[关键词]Hadoop;大数据;分布式计算;HDFS;MapReduce
doi:10.3969/j.issn.1673 - 0194.2015.20.032
[中图分类号]TP308;TP311.13 [文献标识码]A [文章编号]1673-0194(2015)20-0041-01
1 大数据
大数据需要新处理模式才具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的核心是预测,它把数学算法应用到海量数据上来预测事件发生的可能性。大数据同时意味着思维的变革:①小数据分析的是随机样本,而大数据分析的是全体数据,全面展示样本无法表达的细节信息;②小数据分析追求精确性,而大数据分析具有混杂性,这意味着大数据的简单算法比采样数据的复杂算法更有效;③小数据分析关注因果关系,而大数据分析更关注相关关系,通过分析事物之间的关联性,来预测事件的发展趋势。
2 Hadoop大数据平台
Hadoop是Apache的开源分布式计算平台。受Google大数据论文的启发,Doug Cutting用JAVA实现了以MapReduce和HDFS为核心的Hadoop,并将源代码完全贡献出来。Hadoop充分发挥集群的计算和存储能力,快速完成海量数据的处理。Hadoop采用分布式存储来提高读写速度和扩大存储容量;采用MapReduce整合分布式文件系统上的数据,实现数据高速处理;采用存储冗余数据来保证数据的安全性。
2.1 HDFS
HDFS是基于流模式访问和处理超大文件的需求而开发的,它可以运行于廉价的商用服务器上,HDFS的主要特点有以下3个方面。①处理超大文件:在实际应用中,HDFS已经能够用来存储管理PB级的数据了。②流式访问数据:请求读取整个数据集要比读取一条记录更加高效。③运行于廉价的商用机器集群上:HDFS对硬件要求较低,无需昂贵的高可用性机器。
HDFS体系结构中有两类节点:NameNode和DataNode,NameNode负责管理集群中的执行调度,DataNode是具体任务的执行节点。当执行任务时,客户端访问NameNode获取文件数据信息,与DataNode进行交互以访问整个文件系统。HDFS向用户提供类似POSIX的文件接口,开发者在编程时无需考虑NameNode和DataNode的实现细节。
2.2 MapReduce
MapReduce是Google公司的核心计算模型。在Hadoop中,用于执行MapReduce任务的机器有两种角色:JobTracker和TaskTracker,一个Hadoop集群中只有一个JobTracker,用于任务管理和调度。一般来说,为了减轻网络传输的压力,数据存储在哪个节点上,就由哪个节点进行这部分数据的计算。JobTracker监控任务运行情况,当一个TaskTracker出现故障时,JobTracker会将其承担的任务转交到另一个空闲的TaskTracker重新运行。TaskTracker用于执行具体的工作。
3 大数据在智能电网中的应用构想
通过Hadoop大数据平台,技术人员可实时观察到全网范围内的电能流动状态、电能负载热区、设备故障高发区和客户集中区等数据,实现更加智能化的电网。具体包括以下4个方面。
3.1 电网数据可视化
在未来智能电网中,通过大数据分析融合调度、配电、输电、发电和用电客户数据,实现实时和非实时数据的高度信息化集成,通过实时可视化运算分析,全面展示完整和精细的电网运行状态图,为管理层提供辅助决策支持和依据。
3.2 电网负载趋势预测
在未来智能电网中,通过大数据分析电网负载的历史数据和实时数据,展示全网实时负载状态,预测电网负载变化趋势,通过现代化管理技术的综合应用,提高设备的使用效率,降低电能损耗,使电网运行更加经济和高效。
3.3 设备故障趋势预测
在未来智能电网中,通过大数据分析电网中部分故障设备的故障类型、历史状态和运行参数之间的相关性,预测电网故障发生的规律,评估电网运行风险,开展实时预警,提前做好设备巡检和消缺工作,为电网安全稳定运行保驾护航。
3.4 客户电力需求预测
在未来智能电网中,通过大数据分析电网客户的用电数据,预测区域用电和大客户用电需求变化趋势,针对客户需求提前制订高质量的服务计划,提升社会满意度。
4 结 语
Hadoop充分发挥集群的计算和存储能力,完成海量数据的实时处理。在未来的智能电网中,大数据分析可以应用到电网运行全景可视化、电网负载预测、设备故障趋势预测和客户需求趋势预测等需求,充分挖掘海量数据的价值,为智能电网提供技术参考。
关键词:技术创新;大数据;双螺旋模型
一、引言
自2013年被确定为“大数据元年”以来,大数据应用已广泛渗透到各行各业。伴随着数据规模和类型的剧变、数据存储成本的迅速下降、数据采集更加密集和广泛,学术界和企业界开始站在战略的高度重新审视大数据的价值。2008年9月,《自然》杂志推出了名为“大数据”的封面专刊,随后IDC(2011)描述了大数据的“3V”:规模性(Volume)、多样性(Variety)、实时性(Velocity),之后又加入价值性(Value)来描述大数据特征,称之为“4V”[1]。麦肯锡(2011)将大数据定义为无法用常规软件收集、储存、处理、分析的庞大数据集。Forrester突破了以往单一对数据本身描述的局限,通过数据价值实现的角度将大数据定义为数据存储、处理和访问的流程与业务目标的集成。国内学者涂子沛在其专著《大数据》(2012)、《数据之巅》(2014)中反复表达“尊重事实,用数据说话”[2]以及“推崇知识和理性,用数据创新”的观点,并描述了未来对于建设“SmartCity”的构想[3]。孟小峰(2013)指出大数据研究的火热,并不能代表研究的深入,相反大数据的研究还处于一个非常起步的阶段,还有诸如关键技术、利用方式等很多基础性的问题需要解决[4]。大数据的发展和进步是以数字信息技术的发展和应用为主线的。数据分析、数据挖掘、数据存储是拉动大数据发展的“三驾马车”,这三项数据技术需要不断进行创新才能进一步发掘大数据的价值潜力。由于大数据具备准确预测趋势的能力、从海量数据中萃取有应用价值信息与知识的能力以及对市场技术需求方向突出的把控等能力,使得技术创新的效率有较大幅度的提升。同时,数据分析、挖掘和存储本身作为技术手段也需要进行创新。因此,大数据与技术创新之间存在着密切的联系。朱东华等(2013)提出了大数据环境下面向技术创新管理的双向决策模型,以期提升我国技术创新管理研究在大数据环境下提取知识与观点的能力[5]。赵亮等(2015)通过大数据的收集和预处理、大数据存储、创新源数据可视化以及创新应用子项目的实施,实现对技术创新评估预测、风险把控能力的提升[6]。针对大数据与技术创新有关文献的梳理,不难看出,在大数据时代下,大数据对于各类技术创新具有较大的提升作用,而“大数据”概念下作为技术支撑的数据技术同样需要创新,同时也需要对数据技术的创新进行管理。对于大数据和技术创新这种“你中有我,我中有你”的相互作用关系,论文尝试以双螺旋结构模型为研究工具,提出大数据———技术创新双螺旋模型,从而厘清在大数据与技术创新作用关系中的动力因素,以达到大数据与技术创新共同发展进步的目的。
二、双螺旋结构理论
双螺旋结构模型起源于生物学中的DNA双螺旋结构,生物学家为了研究人类的遗产规律,从人类遗传密码———“基因”的角度出发,提出并绘制了DNA双螺旋结构模型。1953年,沃森和克里克首次提出了DNA双螺旋结构模型,该模型开启了分子生物学时代。利用该模型,人类直观地认识到遗传信息的构成和传递路径,并对人类遗传信息复制上升的互融联动关系有了初步的了解。在生物分子学领域,DNA双螺旋结构模型是由两条主链和碱基对组成,两条主链相互盘旋形成类似于“麻花”状的螺旋结构,而碱基对位于螺旋内部,两两对应。碱基对的排列顺序就决定了生物体的不同性状,而在DNA双螺旋进行发展进化之时,碱基对的不同组合以及排列顺序就确定了未来生物的发展走向。随着管理科学的发展,在管理科学领域中有许多互相影响、互相促进、互相融合的二元关系,为了清晰地描述这种关系,管理学中引入分子生物学的DNA双螺旋结构模型进行描述,从而形成了管理科学中的双螺旋结构模型。质量管理学家戴明通过对计划———执行———检查的研究,提出这三个步骤不是原地循环往复的,而是一种螺旋式上升。于渤(2008)将知识创新双螺旋作为企业知识创新过程,指出创新的过程需要经历一套复杂的过程,最终实现自我超越的知识螺旋转化[7]。管理科学与分子生物学的结合提炼出螺旋式系统方法论,又称作螺旋式方法论。该方法论指导双螺旋结构模型在管理领域的应用,而其基本的解决问题的精神是,按照事物发展的规律和演变的过程,通过螺旋内部重大影响因素的互相作用,循环使用不同的方法,推进事物有序的发展,最终达到事物发展的某种目标。
三、大数据与技术创新双螺旋模型及分析
1.大数据与技术创新双螺旋模型对于各类技术创新,大数据提供了庞大的样本数据分析预测、精细的市场技术需求定位、详尽的技术创新需求对象画像刻画等服务,使得技术创新的效率大幅度提升。而数据分析、挖掘和存储是推动大数据自身发展的核心技术,这些技术的创新也将直接影响到大数据对其他技术创新的拉动作用。利用双螺旋结构模型研究大数据与技术创新相互作用关系具有积极的现实意义,论文提出大数据———技术创新双螺旋结构模型(BigData--Tech-nologyInnovation双螺旋结构模型;BT双螺旋结构模型)。依据BT双螺旋结构模型,本文将大数据与技术创新视为两条主链,即“大数据链”和“技术创新链”。这两条主链的相互作用是依靠碱基对进行链接的,为了推动“大数据链”与“技术创新链”的发展增长,碱基对的不同搭配,相互作用,促进BT双螺旋模型的不断发展。数据挖掘、数据分析、数据存储是推动大数据发展的技术核心,技术创新的发展需要技术创新管理理论的指导,以技术创新管理理论指导数据技术的创新,从而实现BT双螺旋模型的发展。故将数据挖掘、数据分析、数据存储和技术创新管理理论作为碱基,进行两两配对。图1BT2.大数据———技术创新双螺旋模型分析BT双螺旋结构模型中将大数据与技术创新作为研究的主要对象,将其作为两条主链进行分析。各类技术的创新需要在大数据以及大数据相关技术的支持下进行。同样的,大数据自身数据技术的创新又归属于技术创新范畴,需要相关技术创新管理理论来给予指导和管理。BT双螺旋结构模型需要向纵深发展,就必须要经历双螺旋结构的破裂———复制———重组———再破裂这样的一个循环过程,从而循环往复,推动BT双螺旋模型不断发展。碱基一:数据挖掘技术,大数据需要通过从海量的数据中提取有效信息和知识,因此,数据挖掘技术是大数据未来发展的一项核心技术。凭借数据挖掘技术提炼出有价值的信息与知识,可以为技术现状进行评估、技术创新未来趋势进行预测、技术创新源进行汇总提供强大的信息支撑。碱基二:数据分析技术,数据分析技术是通过对现有数据进行分析,归纳、整理、总结并对所分析对象提供相应的预测。该技术是连接数据与结论的重要桥梁,通过分析技术可以顺利地将“冷冰冰”的数据转化成为有价值的结论成果,碱基三:数据存储技术,存储技术是数据挖掘技术与数据分析技术的基础。信息时代的数据不仅仅是结构化的数据,更多的则是非结构化或是半结构化的数据,大量的数据需要有存储空间,并且要做到随用随取,这样才能使得数据的挖掘和分析更具时效性和针对性。碱基四:技术创新管理理论,数据技术的不断革新需要从管理学的角度给出指导性的建议。大数据的三项核心数据技术本身作为一种技术手段,需要进行科学的发展,在数据技术的创新过程中,离不开技术创新管理理论的协助。大数据链与技术创新链作为BT双螺旋模型的两条主链担负着不断进步发展的使命,以数据挖掘技术、数据分析技术、数据存储技术和技术创新管理理论为碱基对负责对两条主链的发展进行指导。在DNA双螺旋结构模型中,碱基对必须是A-T,G-C进行定位搭配互补,而在BT双螺旋模型中,通过借鉴DNA双螺旋结构模型的碱基对互补理论,从而进行多元轮回式的互补结合。BT双螺旋模型中的碱基对不再像DNA双螺旋模型那样必须定位对象式的配对,当进入破裂阶段,大数据链与技术创新链进行分离,两主链破裂时连带自己链条上所携带的碱基一并分离。进入到复制阶段,各碱基进行复制,也即各项数据技术以及技术创新管理理论的推广应用。而后,进入重组阶段,碱基随机两两结合,重新配对,在不同的空间、时间进行不断的随机结合,就会产生奇妙的化学反映。从而在不同随机两两碱基结合的过程中,产生创新,发挥动力作用,就如同图2所示地推动BT双螺旋模型向纵深方向进行发展进步。
四、结论与展望
云计算、物联网和互联网的快速发展,使得数据量以极快的速度增长,大数据成为研究热点。大数据的价值产生于分析过程,所以大数据挖掘与分析是整个大数据处理流程的核心。本文介绍了大数据数据体量巨大、数据类型繁多、价值密度低、处理速度快的4V特征、以及基于这些特征的大数据挖掘与分析需要解决的关键技术。
关键词:
大数据大数据分析大数据挖掘可视分析
随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。
1大数据的定义与特征
大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。
2大数据挖掘与分析的意义
在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?
3大数据挖掘与分析的关键技术
大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。
3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。
3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。
3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。
3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。
3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。
4结语
传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。
参考文献
[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.
[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
(湖南城市学院图书馆,湖南 益阳413000)
【摘 要】在云计算、物联网等技术的推动下,世界已经进入了一个“大数据”时代。本文旨在讨论大数据时代下,图书馆与大数据相关的研究内容、发展存在的问题以及总体发展趋势。在大数据时代下,图书馆应该进行服务模式创新与重构、服务内容创新与重构,从而解决发展瓶颈。
关键词 大数据;图书馆;云计算
0 引言
在云计算、物联网等技术的推动下,世界已经进入了一个“大数据”时代。如何有效地利用大数据成为政府公共管理和企业界共同关注的问题,但这些数据集的规模往往超出数据处理者的能力。图书馆主要工作为实践,研究和教育。以最大限度地利用人类的知识,促进专业的交流为责任。图书馆职业无法离开专业知识和信息,影响人类社会的可持续发展。数据是图书馆藏书的重要组成部分。数据作为原始类的产品,可以加工、整理、分析,最后提炼成人与人之间的生产和生活中发挥更大作用的信息和知识。因此,大数据主题是图书馆行业内应当研究的问题,展示了图书馆界在信息社会求生存,谋发展能力的提升。本文旨在讨论大数据时代下,图书馆与大数据相关的研究内容、发展存在的问题以及总体发展趋势。
1 图书馆学研究教育与大数据现状
图书馆已有的研究中有文献计量学等和大数据有关。研究人员为了促进信息科学与社会科学的进步,通过大型网络规模的收集获得数据和分析数据得出相关结论来实现目标。由于大数据技术的应用,传统的文献计量学的研究从过去只有简单的描述性研究扩展到评估和预测的研究。图书馆学研究人员参与了很多相关的项目,例如,新西兰的奥塔哥大学的图书馆承担了研究数据管理项目的任务,在麻省理工大学设立项目研究图书馆数据存储、需求分析数据的管理,和传播数据,并完成数据收集保存标准的制定工作。乌里韦和麦克唐纳在认为数据监测工作将从传统的信息技术受益。Huwe建议采取政治手段,以促进图书馆和数据中心的发展,他认为高等教育机构应该认可图书馆对学术研究的支持。通过分析2008非常流行的“数字化监控中心的生命周期模型”,希金斯提出,图书馆的“数据保留计划”的生命周期可以被纳入其数字机构库文件管理实体。此外,美国学者对馆员在大数据环境中的作用和专业知识进行了调查,他们一致认为图书馆可以在大数据时代承担数据管理职责。谢菲尔德大学还安排了基础的信息学专业课程。 2011年6月伦敦国际监护教育论坛投入使用的,也给数字监控领域的发展提供了一个机会。
国内目前的相关研究课题还处于刚起步的状态,CNKI与该主题相关的文章也只有寥寥几篇。相比之下,国内对“数据监护权”的关注度更高这,主要是针对大学图书馆在这个专业领域展开更多的研究。这方面的论文在2012年之后有一个井喷式的增长,但总体来说,国内相关文献还相对较少,研究项目也几乎没有。
2 图书馆的大数据特征
在数字化时代,数据处理更容易、更快。图书馆的数据资源种类多、数量大、形式多样。截至2008年底,CALS的文档数据量达到180T,2010年底的国家图书馆数字资源总量达到480 T。目前,国家博物馆进行维护之后,数字图书馆的非结构化数据的存储容量将非常大。总数字资源工程也达到108TB。由此看来,图书馆的数字资源总量已聚集为一个大的数据集。再次,图书馆自动化服务水平已发展到了一个新的阶段。此外,用户服务信息每日激增,用户对服务的要求越来越高,图书馆要根据用户的服务信息,做出相应的调整。因此,根据各自限定的环境和条件,从大量的数据分析中挖掘出用户当前和未来的需求都非常迫切。
3 大数据背景下图书馆发展趋势
3.1 服务模式创新与重构
目前,随着科学技术的不断发展,传统的纸质图书馆向电子、数字图书馆的转变,因此图书馆服务的性质已经发生了很大的变化。传统图书馆是点对点的服务,而目前数字图书馆已经成为综合,服务的风格和方法等方面都发生了很大的变化。在服务理念上,数字图书馆是基于数据服务的基础上,在大数据的基础上,从数据采集,智能服务,提供综合服务,创新了服务模式。在大数据时代,数据资源是丰富的,每个图书馆可以利用网络来收集大量的数据资源,基于资源共享提供各种数据管理的资源之间的无缝连接。
3.2 服务内容创新与重构
在大数据时代背景下,竞争已经不再是一个简单的数据资源所有权的竞争,而是在数据的结构以及类型上、数据的开发以及利用上的竞争。从图书馆的角度来看,它是在大数据背景下,为了避免自己被边缘化,就必须分析数据,来进行相关的数据分析服务。分析数据库业务有以下几个方面:首先,图书馆需要建立自己的大数据分析,数据分析通常在现有的数据,如读者爱好的书籍等。另外是对读者的分析,这类似企业和其他客户群体参考提供的数据分析、竞争情报分析,但也有很大的区别,不同之处在于数据分析对象、用于数据分析和数据分析的目的等。对于这样的数据,可能不会被图书馆所拥有,所以它必然成为在这个行业发展的瓶颈限制,我们应该想办法解决这些问题。
参考文献
[1]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013(8):112-113.
[2]孙琳.大数据时代图书馆服务体系创新研究[J].理论观察,2013(4):99-100.
[3]李立.大数据在数字图书馆中的应用分析[J].高校实验室工作研究,2014(3): 35-37.
【关键词】大数据;高等教育;大数据思维模式;教育改革
一、大数据与高校
伴随着人类存储信息量的增长,越来越多的领域开始加入大数据阵营,越来越多的行业开始利用大数据分析,大数据给我们带来的影响已经悄然成为社会各行业运行的基础。
高校作为社会培养人才的一个重要的组成部分,目前多数学校仍延续着传统的教育范式,教学策略依赖教师的经验,教师的学术严重落后于社会科技的发展,学校的评估机制存在很多漏洞等等。许多专家发现了高等教育存在的问题,却没有更好的解决办法,以前我们常说“让事实说话”,现在我们大声呼吁“让数据说话,用说话的数据”。
二、迎接大数据
迎接大数据的到来首先要做的就是思维模式的改变。大数据科学本身其实是许多学科例如统计学,数据挖掘技术,机器学习,计算机技术,方法论相结合的跨学科科技,以多种理论为基础而诞生的新兴科技,使用者必须要对自己原本的思维模式进行相应的变革。
大数据首先强调的是“大”,采集一切有关甚至表面上看似“无关”的数据,也就是以后用于分析的数据要是全体数据,我们称之为“全数据”;其次,采集的数据讲究的是模糊,而不是精确,数据的种类模糊,数据的分析模糊,而预测分析的准确度来源于数据量之大,正所谓“量变带来质变”;最后,就是对于大数据分析的结果,我们要明确“是什么”,而不必在乎“为什么”。于是,大数据体系形成了思维的改变去采集数据,从而获得“大数据”,利用数据分析技术和算法来得到更为有效更为精准的数据。
三、使用大数据
(一)大数据的来源。高校中其实蕴含着更加丰富的数据,从学生的角度来说,学生的消费,家庭情况,宿舍活动,选课信息,学习进度,作业完成进度,考试成绩的比对,参与的社团,参加的竞赛,参加的活动,已经毕业的学生就业情况,社会职业供求关系,就业的满意度调查等等太多数据,从教师的角度,教学过程的监控,教学内容的整理,课程设计,,学生的成绩变化,论文质量,参与活动,科研项目等等数据,还要从社会,从家长,从宿舍,从第三方机构采集数据。由此可以看到整个校园的数据其实是一个极度庞大的数据,这些数据的集合才是“大数据”。
(二)大数据不是单纯的“数字化”。例如,某个教师采用计算机多媒体课件,或者使用在线视频课程,或者加入MOOC的阵营,这仅仅是简单的将原本文字的东西变成“0和1“而已,这是数字化,不是大数据,充其量算是实现“大数据”而使用的计算机技术。我们真正要做的是在这些计算机平台中去采集我们需要的数据,甚至收集我们看似毫无关联的数据。
(三)广义量化的数据。建立大数据,需要将一切信息进行量化,把文字量化,把数字量化,把地理位置量化,把沟通语言量化,把一切可以量化的信息都变成数据,构建大数据平台。
(四)大数据的作用。高校的大数据,要还原真实的教学质量,真实的就业情况,真实的师资力量,真实的管理决策成效,不能简单的用问卷调查得出“好、不好”的结论。大数据发掘了时间价值,节约了时间,历史数据的总结,实时数据的分析,以及对未来的预测。这一切都是建立在时间这个维度上的大数据成果。
四、小心大数据
(一)数据的隐私和安全。在高校中,学生的成绩,学生的基本信息,学生在网站上发表的信息,对老师客观的评价,学生参与的活动,教师的论文,就业信息等等一些相对可以公开的数据,但是经过分析和预测得到的评估结果,却涉及到了个人隐私。这也就是非隐私数据经过大数据分析得到的隐私结论的现象。那么我们该如何保护这些隐私,是需要相应的规范去保护,对于数据的使用和加工者要有详细的法律责任,以保护非隐私数据提供者的合法权益。
(二)永久存在的数据。高校对于学生在校期间或者对于教师在校期间所有发生的数据,比如大到一次奖学金,一次公开获奖,小到每次活动记录,一次出勤,一次缺勤,这些曾经否定我们进步的数据在大数据的时代变成了永久存在的数据,我们如何对待和处理这部分数据,是一个值得深思的问题。
(三)知“难”而“退”。高校利用大数据的分析得出对于某个学生的学习建议,让该学生能够轻松避开自己的弱项,选择相对平坦的路线进行学习,那么这样的结果是不是教育者希望看到的。我们一直崇尚学生学者要迎难而上,不要轻言放弃,要主动迎接挑战,现在有了大数据分析,他们可以轻松避开困难,为学生创造一条平坦的道路。这样的结果是我们作为教育者希望得到的吗?
结 语
任何新的变革,都需要时代的磨练,大数据时代刚刚起步,他要走的路还很长很长,他需要完善的地方还很多很多。现在我们要做的就是接受大数据,然后忘记大数据,让大数据这个理念变成“计算机”一样的通俗,一样的深入人心。我们需要关注大数据,使用大数据,我们也需要和大数据一起成长,更好的发挥它的作用。高校未来离不开大数据,大数据的发展也离不开高校,让每个学生、每个教师都步入大数据时代,去体会其中的奥妙,去感受他给我们带来一场划时代的变革,每个高校建立大数据信息平台势在必行。
参考文献: