时间:2023-01-14 09:17:20
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇数据挖掘技术研究,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
关键词:Web应用;数据挖掘技术;互联网;研究
中图分类号:TP393.09
随着互联网的产生,其网络上各种不同服务也正在快速产生而得到发展,很多公司急切需要通过利用互联网巨大的信息源对客户行为进行分析,搜寻最佳商机。Web数据挖掘技术就是从该种商业角度进行考虑,它是在二十世纪八十年代末的时候被研发出来,该数据挖掘技术是在Web网络原有的基础上纳入挖掘数据的方法与思想。在Web网络中通过该方法解决遇到出现的问题,以此形成Web的数据挖掘,基于Web网络的数据挖掘,它是数据挖掘中的一个全新的研究领域与方向,能够满足对未来电子商务的发展趋势的需求。
1 Web数据库及数据挖掘的特点
在对大量的网络信息进行认真分析研究的基础上,我们才可以进行Web数据的挖掘活动,在这个过程中一定要注意使用最佳的方式来进行,在具体的模式可使用过程中,必须要进行数据信息的提炼、信息选择、信息调整、数据挖掘和模式分析,然后再进行归纳总结,对使用者的习惯以及细化哦进行推测,以实现合理地信息数据管理,将可能存在的安全性问题的发现进行防御。Web数据挖掘所包含的内容及其宽泛,除了对信息数据进行的处理,还涉及计算机胡网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等多方面的内容。
从海量的信息中找到一个有意思的模式就是信息数据的挖掘,这些数据可以存放在数据库、数据仓库或其它信息存储中,从学科方面来说它已经具有了跨学科的性质,比方说数据库体系、信息储备中心、统计、机器学习、数据可视化、信息提取和高性能计算。
2 Web数据挖掘技术的概念与类型
所谓的Web数据挖掘技术,它是在挖掘数据技术的基础之上,针对网络数据中的服务日志文件与Web文档进行分析数据、归纳与汇总,并且在当中发掘与索取有用潜在的知识及信息的技术。应用Web挖掘技术能够发现更多的隐藏信息资源或者其他潜在的有趣应用模式,同时在信息过滤技术的协助下使客户获取层次更高的知识和规律。按照有关技术原理,可把Web数据挖掘技术分如下几大类:
2.1 Web的结构挖掘
结构挖掘是指在Web挖掘中运用Web构造组织之间的链接关联,从而对网页系统里具有实用价值的形式进行计算。在海量的Web超链接数据中,为Web网页面创造出足够的合适的数据信息资料,它可以对文档当中的引用、从属及包含关系聚集地反映出来,同时经由对Web文档当中信息资料体系进行分析,能够有效地处理掉存在的任何问题,以有便于搜寻到权威性的网页面。
在Web结构挖掘范围内,HITS和PageRank算法是应用最多的算法,这两个方面都是通过固定的计算手段进行测算的,在这种情况下可以对网页超链接的质量进行有效保护,比方说:在百度中搜索方式的使用可以提高计算水平。
2.2 Web的内容挖掘
内容挖掘主要是在Web挖掘中搜集有利的Web资源信息(例如:内容、数据及文档等)。Web包括许多不同种类的资源信息,现在绝大部分网络资源信息基本上均都是从www资源信息当中获得,这除了这些可以个体可以直接检索得到并加以使用达到目标的信息资源以外,还有一些信息数据是通过加密的普通个体是无法检索得到的,要向获得这些信息数据必须对其采取Web挖掘的手段来进行。
2.3 Web的使用挖掘
使用挖掘是在Web挖掘中实施挖掘网页面中的对应站点信息数据与日志文件,从而去对相应的站点进行有效地访问。这是因为在网页面的信息访问中,质量具有很重要的作用、复杂的信息,而每个资源信息在服务器的上面,都存在一个形式化的日志访问页面,当用户提出了访问页面的要求以后,访问服务器会自觉地将所需的数据进行记录。因此对Web不同的使用的日志访问进行分析,有助于掌控Web结构与客户的动态行为,更加有利于使网站的工作效率得到有效提升。
3 数据挖掘工作流程
3.1 定义问题
先对信息挖掘体系的主要目的进行评论,明确其具备的具体价值以及将会带来的实际效果进行分析。
3.2 形成数据挖掘库
对于数据挖掘来说数据挖掘体系是最重要的一个关键点,我们可以通过相关信息资料的搜集来证实,对数据体系的行程内容进行研究,生成“数据表述报告”,将信息资料库中所有的信息进行合理地整合,把来自不同数据源的数据并到同一个数据库中,让冲突的以及不一致的数据统一化。建好数据挖掘库以后应该安排专门的人员对它进行定期的检查管理,防止任何安全隐患的存在,在对它的安全性进行维护的过程中,需要定期备份,监视它的性能,还需要根据实际的需要不断地扩大它的存放空间,对那些专门用来存放复杂数据的系统中心,必须要将这项工作交给专业的工作人员来完成。
3.3 清理分析数据挖掘库
不正确的信息数据都是广泛地存在的,所以说对于很大的信息数据储存中心来说保证数据的正确性。所以,一定要采取有效的措施对其进行合理的管理,将数据保存与使用中可能会出现的机械性错误率降到最低,处理好模型与整个数据体系的完整性。
3.4 探索分析数据挖掘库
这样做主要是为了对信息数据的模型进行管理。主要包括选择变量、选择记录、创建新变量、转换变量、探索分析。
3.5 创立数据挖掘模型
做好这项工作对于信息数据的高效保存有很重要的作用,为了让模型更加合理,具有正确性与稳定性,我们必须要从宏观上来对这个模型所需的材料进行处理,让模型能为后续的数据保存工作提供一个依据与参考标准。
4 基于Web的数据挖掘应用
4.1 数据控掘在高校教学中的应用
使用该种体系有利于对学生学习生活的实际状况进行客观有效地分析,掌握学生的实际学习状况,为教师的教学活动提供详细的信息,提高教学效率的同时提高学生的学习效率,帮助学生在最短的时间内提高学习成绩;端正学生的学习态度,提高学习方法。
4.2 数据控掘在电子商冬中的应用
对于现代市场营销来说,网络方式引进就是其信息化的最有利的证明,随着我们的商务活动的不断完善,网络营销将会成为营销业的全新发展趋势。因此我们可以看到,将这一技术充分地应用到电子商务活动中,能够帮助企业进行客观的市场发展状况的分析,确定有效的发展目标,找到最佳发展方式。
5 结束语
总而言之,Web数据挖掘技术的应用有利于企业编制具有远见性的营销战略,促使企业可以在市场激烈竞争中掌控更加有利的发展时机。随着迅速发展的电子商务,Web数据挖掘技术在未来的发展空间将变得更加广阔及前途无量。
参考文献:
[1]柴文光,周宁.网络信息安全防范与Web数据挖掘技术的整合研究[J].情报理论与实践,2009(03):97-101.
[2]范建中,王福庆.基于Web的数据挖掘技术研究与应用[J].电脑编程技巧与维护,2009(12):32-33+42.
[3]居晓琴,周学全.Web数据挖掘技术探索与应用[J].山东纺织经济,2009(06):144-147.
关键词:空间数据挖掘;地理信息系统;研究分析
随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。
1 空间数据挖掘研究概述
空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、 处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。
关键词:人工智能;数据挖掘;发展前景
当今社会已经进入了人工智能时代,人工智能的应用,大大改善了我们的生活。大数据时代已经来临,不论是从数据的使用,挖掘,处理等方面,都为人工智能的应用起到了基础和保障。
1人工智能
1.1人工智能的定义。人工智能(ArtificialIntelligence),简称AI。属于计算机学科下的分支,顾名思义,它是一门专门研究类人化的智能机器学科,即利用现阶段科学的研究方法和技术,研制出具有模仿、延伸和扩展人类智能的机器或智能系统,从而实现利用机器模仿人类智能的一切行为。1.2人工智能的研究背景。在1956年的达特矛斯会议上,“人工智能”这一术语正式由麦卡锡提议并采用了,随后人工智能的研究取得了许多引人注目的成就。在这之后,科研人员进行了许多的研究和开发,人工智能这个话题也取得了飞速的发展。人工智能是一门极具挑战性的科学,从事这项工作的人必须了解计算机知识、心理学和哲学理念。人工智能的研究包涵广泛的科学知识,以及其他领域的知识,如机器学习、计算机视觉等。一般来说,人工智能研究的主要目标是使机器能够做一些通常需要人工智能完成复杂工作的机器。1.3人工智能的研发历程。早期研究领域:人工智能专家系统,机器学习,模式识别,自然语言理解,自动定理证明,自动编程,机器人,游戏,人工神经网络等,现在涉及以下研究领域:数据挖掘,智能决策系统,知识工程,分布式人工智能等。数据挖掘的出现使得人工智能的研究在应用领域得到广泛的发展。以下简要介绍其中的几个重要部分:(1)专家系统。所谓专家系统就是控制计算的智能化程序系统,通过研发人员总结归纳了专业学科知识和日常经验,能够知道计算机完成某个领域内的专业性活动或者解决某些专业级别的问题。人工智能技术可以合理利用已知的经验体系在复杂环境中,解决和处理复杂问题。(2)机器系统。机器系统简单说就是机器人通过人造神经系统,借助于网络或者存储系统汲取系统的知识进行开发研究。(3)感知仿生。感知仿生系统通过模拟人类的感官,感知生物学特征,通过人工智能机器的感部件对外界外部环境进行感知,识别,判断,分析的能力。能够更好的适应环境,做出判断。(4)数据重组和发掘。是指通过人工智能系统,结合当前先进的理念,对大数据的总结归纳,识别存储,调取等应用。通过数据的加工处理,能够主动做出判断和分析。(5)人工智能模式。分布式人工智能是模式之一,该系统利用系统有效的规避和克服系统资源在某段时间内的局限性,并能有效地改善因资源造成的时间和空间不均衡问题。它具备,模式自动转换,并行处理,开放启发方式,冗余且容错纠错的能力。
2数据挖掘
2.1数据挖掘的定义。数据挖掘(DataMining,DM)是揭示数据中存在的模式和数据关系的学科,强调处理大型可观察数据库。数据挖掘的出现使得人工智能的研究在应用领域得到了广泛的发展。这里包括数据挖掘和智能信息提取过程,前者从大量复杂的现实世界数据中挖掘出未知和有价值的模式或规则,后者是知识的比较,选择和总结出来的原则和规则,形成一个智能系统。2.2数据挖掘的研究现状。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。2.3数据挖掘的研究发展。具体发展趋势和应用方向主要有:性能方面:数据挖掘设计的数据量会更大,处理的效率会更高,结果也会更精确。工具方面:挖掘工具越来越强大,算法收敛越来越多,预测算法将吸收新颖性算法(支持向量机(SVM),粗糙集,云模型,遗传算法等),并实现自动化的实现算法,选择和自动调谐参数。应用:数据挖掘的应用除了应用于大型专门问题外,还将走向嵌入式,更加智能化。例如进一步研究知识发现方法,对贝叶斯定理和Boosting方法的研究和改进,以及对商业工具软件不断的生成和改进,着重建立整体系统来解决问题,如Weka等软件。在先进理论的指导下,按照国内形态发展,至少需要20年的时间,才能改进数据挖掘的发展。
3数据挖掘与人工智能技术的联系
数据挖掘属于人工智能中独立系统。它于人工智能的存在关系属于,并存联系,且独立运行,互不从属。此设计体系一方面可以有效促进人工智能提升学习能力,增进分析能力,另一方面还对分析,统计,OLSP,以及决策支持系统模块等起到推动作用。在收挖掘应用领域,处理可以对WEB挖掘,还能够有效进行文本,数据库,知识库,不同领域不同学科的信息进行序列矩阵模式挖掘。基于数据本身的分类,辨识,关联规则,聚类算法更加博大精深。因此,独立于人工智能的数据挖掘,更加便于科研团体或者领域对数据的使用和分析。数据挖掘是人工智能领域的一部分。首先,高智能是数据挖掘和人工智能的最终目标,正是由于这个目标,人工智能和数据挖掘有很多关联。其次,数据挖掘和人工智能是各种技术的整合。数据挖掘和人工智能是许多学科的跨学科学科。最后,数据挖掘的出现逐渐发展壮大,加强了人工智能,因此可以说,它们两者是不可分割的。
4人工智能和数据挖掘技术的发展前景
在当前环境下,人工智能和数据挖掘技术具有以下发展前景:(1)在大数据互联网中的应用。将人工智能的技术应用于互联网中将会使网络技术带上智能的特性,可以为人们的生活提供智能化的帮助,给人们的生活带来便利。还可以提高网络运行效率、增加网络安全性等。(2)智能化服务的研究。人工智能和数据挖掘都很注重对智能化服务的研究,例如很多智能机器人便应运而生,它们已经能胜任许多简单的工作,可以为人们提供人性化的服务。高度的智能化是数据挖掘和人工智能研究最终追求的目标,也是二者最终合而为一的标志。(3)使知识产生经济化。在现阶段的知识经济时代,人工智能和数据挖掘势必受到经济的影响,这决定了人工智能和数据挖掘将具有经济特征。人工智能和数据挖掘技术作为无形资产可以直接带来经济效益,通过交流,教育,生产和创新的无形资产将成为知识经济时代的主要资本。可以预期未来的人工智能和数据挖掘技术将更加经济实用。(4)交叉学科的技术融合。各行各业的理论和方法都已经开始融入了人工智能和数据挖掘之中。未来的人工智能和数据挖掘技术必将是一个融合众多领的复合学科。当今,我们已经在逐渐使用人工智能与数据挖掘技术,去攻克更多难题,解决更多问题,造福人类,改善生活,近在眼前。
作者:喻正夫 单位:汉江师范学院
参考文献:
[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(10):113-114.
[2]王翔.试论如何利用大数据挖掘技术推动人工智能继续发展[J/OL].科技创新报,2017,14(01).
[3]秦益文.微博数据挖掘中人工智能推理引擎的应用[J].中小企业管理与科技(中旬刊),2017(02).
[4]蒲东齐.数据挖掘在人工智能上的应用[J].信息与电脑(理论版),2016(19).
[5]李丹丹.数据挖掘技术及其发展趋势[J].电脑应用技术,2007(02):38-40.
关键词:数据挖掘;数据库;预处理技术
中图分类号:TP311.131
随着计算机和互联网的普及应用,由于其能够提高工作的效率,非常受到人们的重视,一些企业甚至在计算机应用的基础上,提出了无纸化办公的理念,在实际应用的过程中,计算机需要存储大量的数据,对于企业用户来说,很多数据具有私密性,如果这些数据泄露出去,将会给企业的发展带来严重的影响,甚至造成巨大的经济损失。受到特殊的历史因素影响,我国的经济和科技起步较晚,与西方发达国家相比,存在较大的差距,虽然经过了多年改革开放的发展,我国已经成为了世界第二大经济体,计算机的应用水平也有了很大的提高,但是在尖端的数据挖掘等领域中,研究的还比较少,而数据挖掘等技术,能够在很大程度上影响数据的利用效率,对于实际的工作来说,具有非常重要的作用。
1 数据挖掘的预处理技术简析
1.1 数据挖掘预处理技术的概念
数据挖掘技术是随着数据库的发展,逐渐形成的一门学科,在计算机出现的早期,受到其性能和体积的限制,能够存储的数据很少,不需要考虑数据的利用效率,但是随着晶体管和集成电路的使用,计算机的性能得到了极大的提高,相应的存储设备也有了很大的进步,计算机能够处理的任务越来越复杂,存储的数据越来越多,现在我国建成了多个大型数据存储中心,存储的数据量非常巨大。对于如此多的数据,如何筛选出自己想要的,成为了很大专家和学者研究的问题,在传统的数据应用中,通常都是利用检索技术,根据输入的关键词,在数据库中进行逐个的匹配,如果数据库的存储量较小,检索的效率就比较高,而对于现在的海量存储来说,逐个匹配显然需要很长的等待时间。数据挖掘的预处理技术,正是在这种背景下出现的,所谓预处理技术,就是在数据挖掘之前,对数据进行一定的整理,通常情况下,数据挖掘主要面对现有的数据库或者互联网上海量的数据,如果在数据库中进行挖掘,那么可以对数据库进行一定的修改,如完善数据分类的方式等,而在互联网上进行数据挖掘,显然就需要优化挖掘的方式,或者缩小数据挖掘的范围等。
1.2 数据挖掘预处理技术的特点
与正常的数据挖掘技术相比,如何增加相应的预处理环节,无疑可以极大的提高数据挖掘的效率,如在数据库中进行数据的挖掘,传统的挖掘方式下,通常都是利用检索技术,输入指定的关键词后,与数据库中的信息进行对比,这样逐条的进行检索,就可以找到自己想要的数据,如果数据库存储的信息量较大,那么利用这样的挖掘方式,显然需要很长的等待时间。如果增加相应的预处理环节,如在数据库中添加索引,对数据库中的数据进行分类,那么在输入相应的关键词后,首先与索引进行匹配,然后在指定类别的数据中进行对比,这样的方式,显然极大的提高了数据挖掘的效率,目前使用的数据库中,大多采用了这样的预处理技术,取得了很好的应用效果。受到特殊历史因素的影响,我国数据库相关技术水平较低,目前我国建设的大型数据库,都是与国外的技术公司合建的,通过实际的调查发现,现在我国还无法自主生产外部存储设备,市面上的存储设备,都是从外国引进的,但是在实际数据库的建设中,在外国存储设备的基础上,我国也进行了大量数据挖掘等技术的研究。
1.3 数据挖掘预处理技术的发展
从某种意义上来说,数据挖掘技术是随着互联网和数据库的应用,根据实际使用的需要,逐渐形成的一门技术,在互联网发展的初期,网络上的资源有限,而且受到计算机性能的限制,没有太多的娱乐项目,只能浏览一些商业网站等,随着计算机的普及应用,互联网有了很大的发展,现在已经建成了覆盖世界范围的因特网。据最新的统计调查表明,我国的网民数量已经超过了6亿,如果庞大的用户群体,为我国互联网的发展,提供了坚实的基础,但是通过实际的调查发现,我国的实际网络带宽,还没有达到世界平均水平,即使实际使用的网络带宽较低,我国互联网内容的发展速度依然很快,现在网络上出现了各种各样的网站,极大的提高了网络建设水平。在实际的网络浏览中,面对如此大的信息量,如何找到自己想要的信息,成为了一个实际问题,为了解决这个问题,出现了搜索引擎,只要输入相应的关键词,搜索引擎就可以很快的找到大量相关内容,然后进行必要的筛选,就能够得到相应的数据,但是随着互联网内容的丰富,除了传统的文字信息外,还有视频和音频等数据,如何在这些数据中,进行相应的挖掘工作,具有较大的难度。
2 影响数据挖掘预处理技术的因素
2.1 预处理的方式
在实际的数据挖掘过程中,能够影响挖掘效果的因素有很多,如数据量的大小、挖掘方式等,从某种意义上来说,数据挖掘就是数据的查找,从指定范围或者未知范围内,找到指定的数据,通常情况下,数据挖掘都具有很强的目的性,但是对于找到数据的量,并没有明确的要求,尤其是随着互联网内容的增加,现在的数据挖掘中,都会附带大量的相关信息。对于数据挖掘的预处理技术来说,预处理的方式,能够在很大程度上影响挖掘的效率,例如在一个一百条数据库中进行挖掘,为了提高实际的效率,通常情况下会采用检索的方式,根据输入的关键词,逐条的与数据库的信息进行比对,这样挖掘的效率具有很大的不确定性,如果要查找的数据排列比较考前,那么就需要很短的检索时间,如果要查找的数据刚好在第一百条的位置,显然就需要进行一百次匹配。如果采用索引的方式进行预处理,将这一百条数据根据自身的特点,分成十个类别,每个类别建立一个索引,那么在实际的匹配中,无论要查找的数据处于哪个位置,最多只需要十次匹配,就可以找到相应的数据,由此可以看出,预处理方式对于数据挖掘效率具有非常重要的影响。
2.2 数据量的大小
计算机经过了多年的发展,其自身的性能有了很大的提高,在实际的数据挖掘中,如果检索的数据较少,即使不经过任何的预处理,仍然可以具有很高的挖掘效率,但是随着数据库自身的发展,企业用户的数据库容量越来越大,在数据库中查找指定的数据,需要较长的时间,要想很好的解决这个问题,必须对数据挖掘的方式等,进行相应的优化。通过实际的调查发现,目前我国使用的数据库,大多都是国外的技术公司设计的,为了方便数据库的使用,大多采用了整体的外包,即软件和硬件都是由同一家公司提供,采用这样的方式,不但能够很好的解决软件和硬件之间不兼容的问题,同时可以提供优质的软件服务。目前市面上的数据库,大多对数据挖掘技术进行一定的优化,如增加索引环节等,通过这些技术的使用,很好的提高了实际的挖掘效率,但是这些预处理技术,并没有考虑到数据量的大小,如一些大型的数据库中,要想建立索引机制,本身就需要很长的时间,虽然在建立索引后,就可以直接的使用,即使数据库中发生变化,也不需要重新建立,只要根据数据的情况,将其存储到指定的分类中即可。
2.3 操作人员自身的素质
对于实际的数据挖掘工作来说,操作人员自身的素质,也可以在很大程度上影响挖掘的效率,经过了多年的完善,数据挖掘技术已经成为了一门单独的学科,计算机专业的学生,要进行相应知识的学习,但是通过实际的调查发现,现在的数据挖掘主要针对互联网上的内容,而互联网日新月异的发展,给数据挖掘带来了很大的难度。在这种背景下,如果没有足够的工作经验,显然很难完成相应的数据挖掘工作,因此刚毕业的大学生,数据挖掘的效果较差,即使能够完成相应的工作,也需要较长的时间,虽然这些学生在学校中,能够学习到大量的数据挖掘知识,为了提高教学的效果,老师还会讲解一些数据挖掘的实例,但是实际挖掘中,具有很多的不可控因素。如果操作人员具有丰富的数据挖掘经验,在实际的工作中,必然会总结一些相应的技巧,这些技巧的使用,可以在一定程度上缩短挖掘的时间,提高数据挖掘的准确性,对于数据挖掘工作来说,具有非常重要的作用,从某种意义上来说,数据挖掘的预处理技术,指的就是这些从实践中总结出来的技巧,然后进行科学、系统的分析,应用到实际的挖掘中。
3 我国数据挖掘预处理技术应用中存在的问题
3.1 没有意识到预处理技术的重要性
在传统的数据挖掘中,由于数据库自身的容量较少,采用检索的方式,就可以轻松的找到想要的数据,因此不需要预处理技术,随着数据库自身的发展,计算机的性能也有了很大的提高,在很长一段时间内,硬件的发展速度都要领先于软件,因此数据检索具有很高的效率,近些年互联网的普及应用,在很大程度上改变了这种现象,尤其是云计算等理念的出现。在互联网海量数据中进行挖掘,依靠单独的计算机,很难具有较高的效率,在这种背景下,如何优化数据挖掘技术,成为了很多专家和学者研究的问题,预处理技术就是根据实际工作的需要出现的,受到特殊的历史因素影响,在数据库的建设等方面,我国要落后西方国家很多,虽然近年来我国投入了大量的人力和物力,研究数据挖掘等技术,但是并没有取得明显的效果。正是受到自身技术水平的限制,使得我国数据建设中,对数据挖掘的预处理技术,没有足够的重视,导致很大数据库中,还采用传统的检索等方式,没有任何的预处理技术,在很大程度上影响了数据挖掘的效率,虽然一些数据库中集成了相应的功能,但是通过实际的调查发现,在实际使用的过程中,并没有启用相应的功能。
3.2 没有针对性的预处理方式
由于现在的数据挖掘,主要针对互联网上海量的数据,而互联网上的数据非常复杂,尤其是近些年网络的发展,出现了文本、视频、音频等各种各样的信息,在这些信息中进行数据的挖掘,显然具有较大的难度,而且互联网的数据量较大,即使借助相应的搜索引擎,依然需要很长的挖掘时间,对于现在使用的一些数据挖掘预处理技术,只有在一些特定的情况下,才能够发挥出一定的作用。数据挖掘预处理技术出现的时间较短,目前还没有形成统一的认识,不同学者根据实际工作的需要,提出了不同的预处理方式,通过实际的调查发现,这些预处理方式的应用,都具有一定的局限性,在特定的数据挖掘中,可以明显的提高挖掘的效率,但是对于其他数据的挖掘,就无法起到相应的作用。受到我国数据挖掘技术水平的限制,并没有意识到这点,在实际数据挖掘的工作中,通常都是随意的采用预处理方式,这样显然无法最大成都上提高数据挖掘的效率,有时候反而会降低工作的效率,目前西方发达国家的数据挖掘预处理中,都会根据每次工作的实际情况,针对性的设计一个预处理的方式。
4 数据挖掘的预处理技术应用措施
4.1 重视数据挖掘的预处理技术
考虑到我国的数据库建设中,很多都没有采用相应的预处理技术,在很大程度上影响了数据挖掘的效率,要想很好的解决这个问题,必须对预处理技术给予足够的重视,在数据库的设计时,就对预处理的方式等进行考虑,如果是购买的数据库服务,那么就要根据自身的实际情况,对预处理技术提供一定的要求,这样可以极大的提高挖掘的效率。通过实际的调查发现,西方国家的预处理技术水平之所以比较高,主要就是由于其重视,在实际的挖掘工作中,对于能够提高工作效率的所有细节进行完善,并总结相关的经验,方便下次的使用,正是这种供求双方的重视,使得西方发达国家的预处理技术快速的发展。我国要想提高自身的数据挖掘预处理技术,必须根据自身的实际情况,借鉴外国一些先进的经验,最大程度上完善预处理技术,要想达到这个目的,首先应该提高对预处理技术的重视程度,无论是实际的操作人员,还是管理人员和开发人员,都应该重视预处理技术的应用,然后从自身的工作角度出发,对其进行一定的完善。
4.2 提高工作人员自身的素质
数据挖掘预处理技术的应用,需要实际的操作人员,而不同工作人员,由于自身经验等不同,工作的效率会有一定的差距,如刚毕业的大学生,即使在学校中的成绩较好,掌握了足够的预处理知识,还是无法很好的完成相应的工作,尤其是近些年信息技术的发展,互联网上海量数据的挖掘,具有很大的难度。而且不同数据的挖掘,预处理方式等也应该具有一定的差异,通过实际的调查发现,目前我国的数据挖掘工作人员自身的素质普遍较低,无法根据实际的工作情况,针对性的选择一种预处理方式,在很大程度上影响了挖掘的效率,要想很好的解决这个问题,必须提高工作人员自身的素质,在实际的招聘过程中,尽量聘请一些具有丰富经验的人员。对于现有的工作人员,可以通过定期培训等方式,让其了解到最新的数据挖掘理念,以及预处理技术的重要性等,如果条件允许,还可以与一些先进的企业进行交流,学习先进的预处理技术,这样在提高预处理技术水平的同时,还可以对数据库的其他的技术,进行一定的优化。
4.3 采用针对性的预处理方式
经过了多年的发展和完善,数据挖掘的预处理技术已经非常普遍,目前的很大数据库建设中,都会采用预处理技术,甚至在日常的数据搜索中,也开始使用预处理技术,但是通过实际的调查发现,根据实际需要数据的不同,数据挖掘的环境、方式等会具有较大的差异,而这些条件的变化,必然需要不同的预处理方式。而目前我国的数据挖掘中,显然还没有意识到这点,为了提高实际的工作效率,虽然会采用一定的预处理方式,但是预处理的方式,并不会根据数据挖掘的不同,进行针对性的变化,没有真正的达到预处理的目的,在一些特殊的数据挖掘中,由于预处理方式的不当,甚至会降低工作的效率。由此可以看出,在实际的数据挖掘中,预处理方式的重要性,要想最大程度上提高工作的效率,必须采用针对性的预处理方式,对目前已有的预处理方式进行总结、分类,根据需要数据的情况,针对性的选择,如果人员的自身素质较高,还可以设计一个新的预处理方式,以此来最大程度上提高数据挖掘的效率。
5 结束语
通过全文的分析可以知道,随着近些年计算机和互联网的普及应用,数据的挖掘、存储、调用等技术越来越重要,受到特殊的历史因素影响,我国科技起步较晚,与西方发达国家相比,在数据挖掘等领域中,具有明显的差异,虽然经过了多年改革开放的发展,这种差距在逐渐的减小,但是很难在短时间内赶上发达国家的技术水平,在这种背景下,要想快速的提高我国数据挖掘预处理技术,必须结合我国数据挖掘的实际情况,借鉴西方国家先进的经验,完善目前的预处理技术。
参考文献:
[1]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(05):44-47.
[2]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发展[J].统计与信息论坛,2008(05):94-96.
[3]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报(自然科学版),2007(02):1-4.
[4]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006(01):46-49.
[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(03):10-15.
[6]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算法[J].控制与决策,2002(03):324-327.
[7]臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].数据采集与处理,2001(04):486-489.
【关键词】数据挖掘;电子商务系统
1.前言
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术,数据挖掘是一个包含多个处理步骤的知识发现过程,其主要内容包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出等。
把数据挖掘技术应用到电子商务系统中,开发出基于数据挖掘技术的电子商务系统能够加深和加强对电子商务系统数据的分析功能,为电子商务企业管理人员提供电子商务的预期信息,从而能很好的保证电子商务网站的运行效果。
现在电子商务系统主要形式B2C,涉及的数据不仅包括客户在电子商务网站上的交易数据,还包括客户的注册信息数据和商品信息等数据。电子商务系统的数据有如下特点:
(1)数据量大;
(2)数据质量差;
(3)数据种类多。
2.电子商务系统功能模块结构设计
根据B2C电子商务系统设计的目标,管理业务流程,将这个B2C电子商务系统分为:会员注册管理、会员帐户管理、商品购买管理、会员管理、商品类别管理、商品管理、优惠券管理、订单管理、留言板管理、商品评论管理、库存管理、网站管理和数据挖掘管理等功能模块(如图1所示)。
3.数据挖掘管理模块的设计
B2C电子商务数据挖掘管理模块主要通过对电子商务企业当前的和历史的交易数据进行分析。挖掘出其中隐含的知识和从中发现隐含的趋势和规律。它主要包括数据预处理模块、数据挖掘模块和数据挖掘结果显示模块。B2C电子商务数据挖掘系统从电子商务运行商品数据库、客户信息数据库和交易数据库中获取数据,根据数据挖掘算法的需要进行数据预处理,并建立数据挖掘模型,供电子商务企业的用户挖掘时使用。用户只需要输入简单的一些参数,系统就会自动的根据已建立的模型输出预测结果。电子商务挖掘系统体系结构如图2所示。
3.1 数据预处理模块
数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行挖掘,需要做数据预处理工作,其一般包括数据的选择、数据清理、数据集成和转换。数据预处理是否做好将影响数据挖掘的效率和准确度以及最终模式的有效性。这些处理技术在数据挖掘之前使用可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。原始数据通过数据选择、清理、集成和转换后生成数据挖掘库,为下一步的数据挖掘做好准备。
3.2 数据挖掘模块
数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。数据挖掘的本质就是数学建模。在数据挖掘中,可以使用许多不同的模型,如分类模型、回归模型、时间序列模型、聚类模型和关联规则模型。针对同一模型,可以使用不同的算法进行数据挖掘。算法的目的就是找到适合于数据的模型。数据挖掘涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程。
B2C电子商务网站中商品介绍页面的摆放就好比商店里的货架,商品介绍的摆放位置也会影响客户对商品的购买率。而商品之间的关联性一般不是很容易看出来的,一般人很难联想到商品之间的关联性,只有实际上通过对大量的交易历史数据的分析,才可以挖掘出它们之间的关联性。在数据挖掘过程中对关联产品和服务进行深入挖掘,可以发现其中的关联规则,利用关联规则模型进行数据挖掘可以了解客户的购买行为,这对于改进B2C电子商务商业活动的决策很有帮助。例如,可以通过改进商品介绍位置的摆放(把顾客经常同时买的商品摆放在一起),帮助如何规划市场(互相搭配进货)等。而作为B2C电子商务网站。可以针对不同客户特点动态调整网站结构,使客户访问的有关联的网页文件的链接更加直接,让客户更容易访问到自己想要的东西。这样的网站更能吸引客户,提高客户的忠诚度,提高网站的效益。
B2C电子商务网站网页主要为顾客展示商品名称或图片,为顾客推荐与当前感兴趣商品更详细或相关的网页是个性化推荐的关键。根据客户的注册信息和订单信息,通过回归模型挖掘可以为不同的用户提供个性化服务,例如系统可以向客户显示那些可能引起客户感兴趣的新商品。
随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对B2C电子商务系统收集的客户的交易数据进行聚类模型挖掘,可以确定不同类万方数据型客户的行为模式,电子商务企业便可以采取相应的营销措施,促使企业利润的最大化。
3.3 数据挖掘结果显示模块
数据挖掘结果的显示模块是将数据挖掘后得到的知识和结果用可视化形式表示出来,例如采用图形化界面把挖掘结果显示给电子商务企业的管理人员。在建立好相关数学模型后,把实际数据作为输入信息,通过挖掘模型的计算获得预测结果。B2C电子商务企业要根据不同的挖掘结果做出不同的反应。采取不同的措施,给顾客提供不同的服务,在为顾客服务的同时也为自己的B2C电子商务企业获取更多的利润。
4.结论
本文讨论了把数据挖掘技术应用于B2C电子商务系统中,并采用J2EE的B/S架构将其实现,系统采用客户端、中间服务器和后台数据库三层架构。利用数据挖掘技术可以提高B2C电子商务企业现代化管理水平方面发挥着积极的作用,它能够提高B2C电子商务企业对客户管理和商品管理方面信息的准确性和及时性,可以帮助B2C电子商务企业网站的开发人员及时、全面了解B2C电子商务企业网站运营情况和合理安排网页的页面布局,为不同浏览习惯的顾客提供个性化服务,为各项具体工作提供技术、信息支持;有效地减少各种失误并保证B2C电子商务企业网站的各项任务保质保量、按计划完成,从而提高电子商务企业网站的运作效率。
参考文献
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.实用数据挖掘[M].北京:电子工业出版,2004.
[3]廖芹,郝志峰.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
1.1对克隆代码的数据挖掘在软件工程领域中,对克隆代码的检查与测试是最为原始的数据挖掘需求之一,直到目前已经逐渐演变出了很多的方式,其主要可以分为以下几种:
1.1.1将文本对比作为基础的方式采用计算机软件系统中的对比程序代码中所包含的语句行展开进一步的判断过程,这种方法在进行后期的改进过程中针对的是对字符串的匹配效率进行提升,提升的办法有很多,最为主要的就是通过Hash函数技术进行匹配效率优化,在这个过程中最为常用的工具为Duploc。
1.1.2将标识符对比作为基础的方式将标识符对比作为基础的方式,最具代表性的方式是对由分词所组成的标识符序列构造前缀树,并将其作为依据然后进行对比,将标识符对比作为基础的方式的工具主要有CCFinder、Dup等[3]。
1.2计算机软件数据检索挖掘数据检索挖掘与克隆代码一样,同样是计算机软件工程中最为原始的数据挖掘需求之一,对于计算机软件数据检索挖掘来说其主要分为以下三步:第一步,为数据信息的录入。所谓的数据信息录入实际上指的是对于要检索的信息进行录入的过程,针对使用者的需求将使用者所需要的数据信息输入到检索信息录入框中进行数据的查找。第二步,为数据信息的查找过程。当客户所需要的信息进入到数据检索录入框中时,进行确认后数据挖掘系统将会根据数据信息中所涵盖的数据信息内容进行数据库中的查找,并且根据不同的分类,对查找信息的数据信息资料进行罗列[4]。第三步,为数据信息资料内容的导出和查看,在查找到相关的客户需要数据内容时,客户可以根据自己本身的实际需要,进行数据信息的导出或者是在线查看,在数据信息资料导出后,需要应用相关的数据信息查看软件进行查看。并且客户在导出数据信息时,会在中形成一定的历史记录,对客户及时查找的数据信息进行记录与保存,当客户想要再次进行查找时能够更为方便与快捷的找到其所需要的数据信息内容。
二、结语
关键词:数据挖掘;计算智能;应用领域
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0016-03
数据挖掘技术在当前是人工智能和数据库研究的热点问题,它是一门涉及面比较广的学科,应用范围非常广泛。通常大家都比较清楚的是,人们可以用数据库进行数据的存储,还能够借助计算机等工具进行数据的分析以及从大量数据中搜寻有用的知识,正是基于二者的结合才促成了数据挖掘技术的诞生。在当前日益激增的信息量中,传统的搜索技术显然不能满足,通过数据挖掘技术,在海量的数据库中提取有用的信息,以供人们使用,更加符合现实的需求。此外,数据挖掘技术能够被广泛应用于销售、金融等多个领域,极大地推动了信息技术的发展以及现代化进程。
1 数据挖掘技术概述
1.1数据挖掘技术的产生
随着科技的进步以及网络技术的发展,计算机从硬件到软件都有着极大的进步。随着数据信息的迅猛增加,数据库技术现在被广泛用于各行各业之中,但是如果利用数据库中的信息,利用其隐藏的信息价值,获取更大的收益,成为技术工作者不断探究的新课题。虽然信息数据迅猛增长,但是现有的数据分析工具却无法实现在海量的数据中搜寻有用的信息,为决策者提供有价值的数据作出正确的决策和发展预测。为了解决此问题,数据挖掘技术便开始发展起来。在当前全球海量的数据资源以及各行各业巨大的需求,再加上技术工作者的不断努力,数据挖掘技术的发展取得了巨大的成就,并被广泛应用于商业管理、控制、分析、设计等领域。
20世纪60年代,数据库技术从基本的文件处理发展为数据库系统;70年代,关系数据库系统、数据建模工具等迅速发展起来;80年代中期开始,关系数据库被普遍采用,促进了新型数据库系统等发展。但是,随着数据库系统等不断发展,海量的数据成为数据库的负累,如何从其中搜寻有用的数据已经成为非常困难的事,在不借助任何工具等情况下,人类已经无法进行数据的处理和分析,这样不断地存储数据就像“墓地”,不能被人们利用,决策者不能从中提取有价值的数据进行决策的制定和发展的预测[1]。在此种背景下,数据挖掘技术便开始发展起来,并取得巨大的成就,现在人们已经能够利用数据挖掘技术挖掘数据库中有用的信息,帮助人们实现信息的利用和财富的转化。
1.2 数据挖掘技术的概念
当前,随着科技的发展和互联网技术的发展,数据库中各种信息不断增多,数据库技术也随之进步。虽然数据库管理系统被运用于各个行业,但因信息量的剧增,使得数据库管理系统从中提取信息的难度非常大。许多重要的信息都包含在海量的数据里面,需要我们将它们从中提取出来,利用这些数据发挥更大的作用,创造出更多的价值,获取更大的利益。而将这些信息从海量的数据库中提取出来的技术,通常叫做数据挖掘技术[2]。
数据挖掘技术是从海量数据库中搜索并挖掘有用信息的一种技术,帮助企业或个人通过数据之间的联系和不容易引起注意的信息,作出正确的决策,并且通过挖掘的信息进行预测发展趋势。数据挖掘技术能够利用信息发现未知的东西,与先假设再验证的数据处理技术不同,数据挖掘技术显然更加真实准备,更加能够被广泛采用。目前,数据挖掘技术越来越被各行各业重视并运用,在未来也有巨大的发展前景。
1.3 数据挖掘技术的功能
数据挖掘技术的功能非常强大,能够使用此技术在数据挖掘任务中寻找需要的信息。一般数据挖掘的任务分为描述和预测:简单在数据库中搜寻数据反映数据的一般特性即为描述;利用数据信息进行推算,进行预测即为预测。当前,数据挖掘技术的功能有以下几种:
1)概念或者类描述
数据一般是与概念或者类联系着的。能够用总结的、简单的、正确的方法进行概念或者类的描述就被称为概念或类描述。通过此种描述方法能够知道:一是任务数据的特征或者整体数据的特征,二是能够将任务数据的特征与其他数据进行特征的对比,三是能够利用前述二者进行概念或者类描述。
2)关联分析
数据挖掘技术通过关联分析能够发现数据之间的关联规则。这些规则比较固定地展示了数据之间的联系。数据挖掘技术的这项功能在事务数据分析中应用较多。
3)分类和预测
分类是指在任务数据中找出不同类或者概念的数据,而后利用分类进行预测还没有被发现的信息。预测是给建立一个模型来对不知道的数据进行预测或者给定一个数值区间,进行任务数据的预测。分类与预测的不同之处为:分类是利用分散的数值进行预测;而预测是利用连续数值进行预测。
4)聚类分析
聚类就是将任务数据进行同类的聚集,这些任务数据中有着非常高的相同点,但是不同聚类之间的差异非常大。与分类大区别在于,聚类是进行未知数据的类别。通过聚类,而后进行数据的分析预测。
5)孤立点分析
孤立点一般是度量或者系统执行失误造成的,也有固定数值突变产生的孤立点。目前,很多数据挖掘技术希望通过孤立点分析将其影响变为最小。不过,一单操作很容易使重要信息损坏或者丢失,毕竟孤立点是非常重要的。
6)演变分析
数据不是固定不变的,而是会不断地进行变化,利用数据挖掘技术进行任务数据演变分析,对其规律或者趋势进行预测。演变分析包括对数据的时间序列、周期进行分析或者类似性地数据分析。
2 数据挖掘技术的分类
数据挖掘技术的分类能够根据发现知识的种类、挖掘的数据库种类、采用的技术等方法进行分类。根据采用的技术进行分类,则主要有七种。
2.1规则归纳
规则归纳就是利用设定的统计方法进行归纳对挖掘者有用的规则,关联规则挖掘就是其中的一种。
2.2决策树方法
所谓决策树方法就是建立树状模型进行决策集合。利用已有信息挖掘数据库中重要的有价值的信息,构建支点,再根据数据的不同取值进行分支构造,最后通过分析形成整个的决策树。决策者可以根据此决策树进行决策的制定或者预测发展趋势。
2.3人工神经网络
人工神经网络的应用比较多,主要是模拟人脑进行数据的分析,建立非线性预测模型,从而完成分类、聚类等多种任务。
2.4遗传算法
遗传算法是模拟生物进化过程的算法。它是通过将一个问题分解为多个个体,然后在每个个体上进行取值,从而完成信息搜索、任务挖掘。
2.5模糊技术
顾名思义,模糊技术即是利用模糊集合理论对实际问题进行预测、推断等。一般来说,数据库数据具有模糊性,通过大概的数值估计,利用期望值、随机值进行组合,使得信息挖掘能够定性定量的转换。
2.6粗集方法
1982年,Pawlak(波兰)提出的数据分析方法。粗集方法是利用等价思想将数据分散,然后利用属性的等价进行集合,形成决策集合。
2.7可视化技术
可视化技术即是利用最直观的图形方法把数据库信息、数据的关联等呈现出来,决策者能够直观地通过图形进行发展趋势的预测,作出正确的决策。
3基于计算智能的数据挖掘技术的具体技术探究
3.1关联规则的挖掘
关联规则挖掘是关联分析中的一种数据挖掘技术,利用数据库中海量的数据进行有用信息间的联系的挖掘。当前关联规则的挖掘已经取得巨大的成就,当前,关联规则的挖掘技术有:1)多循环方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在数据库增加纪录后关联规则的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于约束条件的关联规则挖掘,就是为了发现更多、有用、特别的关联规则;5)挖掘多值属性关联规则,包括扩展布尔属性的关联规则算法、K度完全方法等 [3]。
3.2分类规则的挖掘
分类规则的挖掘就是在已有数据的基础上建立分类模型,利用该模型将数据库中的数据映射到分类中,从而进行数据预测。分类模型的构造方法有许多种,通常有决策树法、神经网络算法等。由于分类模型等正确率与数据、属性等因素有关,因此在进行分类评估时需要采用以下方法:一是保留方法,将数据库中的一部分数据保留,其他的用于数据分析评估;二是交叉纠错方法,即是将分类中有重复的数据进行提取,而后进行测试,提高评估正确率[4]。
3.3聚类分析
聚类分析就是将特征相似的数据进行归类,建立成一个集合。再聚类之时要保证数据相似性最大,而不同类别的数据相似性要最小。这些数据的特性在事前并不清楚,聚类分析就是要通过将数据进行归类在进行分析,发现有价值的信息。聚类算法一般包括基于概率的聚类算法以及基于距离的聚类算法两种。在实际应用中,基于概率的聚类算法因效率低下而采用较少,基于距离的聚类算法因效率高被广泛采用。通过聚类分析,对数据进行挖掘分析,能够更加准确地获得更多地具有价值的信息,为决策者作出决策或者作出发展预测提供更加有力的数据支持。
3.4离群数据挖掘
离群数据就是指那些明显跟其他数据不同的数据类型。离群数据的挖掘时数据挖掘技术中非常重要的内容,它通过发现离群数据与其他数据的区别,获取比一般数据更有价值的信息。一般离群数据主要有以下发现方法:一是基于统计,即在已知的数据上进行离群数据的挖掘;二是基于距离,即通过计算数据间的距离进行离群数据的挖掘;三是基于偏离,即在事前知道数据的特性前提下对数据进行检测发现离群数据;四是基于规则,即是根据已有规则发现明显不同规则的离群数据;五是离群数据发现的多策略方法,即是对数据进行聚类,进行子集的划分,再根据观察发现明显不同的离群数据。
4数据挖掘技术的应用领域
随着数据挖掘技术的不断发展,各行各业越来越意识到数据挖掘技术的巨大优势,因此其应用前景非常广泛。数据挖掘技术的应用主要在以下领域:
4.1科学研究领域
科学技术领域需要运用各种最新技术,利用最新技术进行科学领域的研究。随着科学数据收集工具的运用,各种科学研究收集到了海量的数据,但是显然依靠人力或者传统的数据分析工具是不能够应付的,因此必须要使用一种能够从海量数据中自动搜寻分析提取的工具。正是科学技术领域的需求,推动了数据挖掘技术的发展以及在科学技术领域的应用,并为科学研究领域作出了巨大的贡献。比如,在遗传研究领域,涉及DNA的数据非常多,而且DNA的组合、顺序等更不相同,如果想要从中找出致人疾病的基因组,依靠人力进行数据的排练组合显然是不可能的,所以必须采用数据挖掘工具,对不同的基因组进行分析,剔除无害的基因组,选择出有害的基因组,然后工作人员再根据提取的数据进行分析[5]。此外,数据挖掘技术还能运用于对历史发展规律的预测、对人类行为规律的预测等等。
4.2商业零售业
众所周知,零售业有着大量的数据,从进货到销售,都有大量的数据,尤其是随着电子商业的发展,数据量也剧增,而处理这些数据就需要依靠数据挖掘技术。通过数据挖掘技术,对销售数据进行分析,就能够知道什么商品受到顾客喜爱,销售得最快,而后有针对性地进货[6]。利用数据挖掘技术进行分析,就能够通过数据分析,制定有效销售措施,获取最大的利益。
关键词:网络安全;入侵检测;数据挖掘
中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 08-0000-01
Research of Intrusion Detection Technology Based on Data Mining
Zhao Nan,Feng Jianlin
(College of Computer and Information Engineering,Lishui University,Lishui323000,China)
Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.
Keywords:Network security;Intrusion detection;Data mining
目前大部分入侵检测采用特征检测的方法,它们由安全专家预先定义出一系列特征模式(此处的特征模
式含义比较窄,如表达式、字节匹配或“特征字符串”,与后面提到的规则不同),用来识别入侵,同时,入侵检测系统需要不断更新自己的模式库以跟上入侵技术发展的步伐,仅仅采用这种入侵检测方法将会带来很多缺陷。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强和误警率低。
一、入侵检测技术简介
入侵检测是对网络系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。入侵检测系统是从多种计算机系统及网络中搜集信息,再从这些信息中分析入侵及误用特征。入侵是由系统外部发起的攻击。误用是由系统内部发起的攻击。所有的IDS的本质都是基于分析一系列离散的、按先后顺序发生的事件,这些事件用于误用模式进行匹配,入侵检测源都是连续的纪录,他们反映了特定的操作,间接反映了运转状态。IDS一般包括三部分:信息的搜集和预处理、入侵检测分析引擎以及响应和恢复系统[1]。
绝大多数入侵检测系统的处理效率低下,不能满足大规模和高带宽网络的安全防护要求。目前使用的主要检测方法是将审计事件同特征库中的特征匹配,但现在的特征库组织简单。导致的漏报率和误报率较高,很难实现对分布式、协同式攻击等复杂攻击手段的准确检测;此外,预测能力严重受限于攻击特征库,缺乏对未知入侵的预测能力。
二、数据挖掘技术简介
数据挖掘是从海量的数据中提取或“挖掘”知识,这些数据可以存放在数据库、数据仓库或其他信息存储中[2]。于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。数据挖掘是针对特定应用的数据分析处理过程,如何选择输入数据、变换数据集对应的挖掘算法,取决于具体的数据挖掘目标,即期望从数据中发掘出什么知识。数据挖掘可粗略地理解为三步:数据准备、数据挖掘,以及结果的解释评估。
三、基于数据挖掘的入侵检测系统
数据挖掘是从海量数据中提取隐含的、以前不知道的、有潜在作用的信息。它利用统计与可视化技术以易于理解的形式发现并表现信息。在入侵检测中,数据挖掘被定义为处理大量在中央位置收集得到的数据,从而察看其规则模式。基于数据挖掘的入侵检测系统(DMIDS)是从训练数据中得到规则模式,用于实时的入侵检测系统中的入侵检测。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强、误警率低[3]。
基于数据挖掘的入侵检测系统原理,DMIDS总体分为两部分:
第一部分是数据挖掘部分,主要采用数据挖掘技术来得出规则库,为后续的检测提供依据;其中包括:训练数据,数据挖掘模块和规则库,
第二部分为入侵检测部分,实时采集数据,处理数据,然后和规则库进行比较,判断当前用户的操作是否合法,并相应的作为响应或恢复机制。该部分主要拥有以下模块:
数据挖掘模块。数据挖掘技术是一种决策支持过程,它主要基于AI,机器学习统计等技术,它能高度自动化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测出客户的行为。
数据挖掘模块的主要作用就是从训练数据中挖掘正常和异常行为规则,构建规则库,对于不同性质的数据源,这里要求采用不同的数据挖掘算法来发现其中的隐含规律。
DM的技术基础是人工智能,它利用了人工智能的一些已经成熟的算法和技术,例如:人工神经网络、遗传算法。决策树、邻近搜索算法、规则推理、模糊逻辑等DM系统问题利用的技术越多,得出的结果精确性就越高。这主要取决于问题的类型以及数据的类型和规模。
四、结论
由于入侵检测系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性和本身的健壮性。本文对基于数据挖掘的入侵检测系统的信息提取技术作了较全面的研究和介绍,重点研究了启发式的聚类数据挖掘算法,并对其中涉及到的概化分层和聚类算法和关联算法,分类算法等进行了介绍。
参考文献:
[1]孙鑫鸽,赵跃龙.基于数据挖掘的分布式入侵检测系统[J].电子技术应用,2008,3:126-130