时间:2022-08-02 11:14:49
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇数据挖掘技术探讨论文,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
关键词: 数据仓库与数据挖掘; 研讨型; 教学模式; 教学实践
中图分类号:N42 文献标志码:A 文章编号:1006-8228(2012)12-52-02
Analysis on research-oriented teaching model in data warehousing and data mining
Huang Meili
(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)
Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.
Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice
0 引言
20世纪90年代兴起的数据仓库和数据挖掘是数据库研究、开发和应用中最活跃的两个领域。随着其理论及应用技术和产品的不断成熟与发展,数据仓库与数据挖掘不仅成为高等院校计算机专业、信息技术与信息管理类专业硕士、博士研究生的专业课程,而且相继在本科相关专业高年级学生中开设了该课程。
该课程是一门综合性和实践性很强的课程,其内容新且广,对于本科教学有一定的难度。本文针对课程自身特点及高年级学生学习及能力培养需要,结合自身教学实践,探讨以激发学生学习兴趣为着眼点、学生分析解决问题能力培养为目的的研讨型教学模式。
文中章节1具体介绍课程内容、教学过程中存在的问题及研讨型教学模式;在章节2中,以自身的教学实践为例,给出研讨型教学实践效果及该方法应用的注意事项;最后,是结论部分。
1 本科数据仓库与数据挖掘课程教学
1.1 课程教学内容
数据仓库与数据挖掘课程涉及两方面的教学内容:①数据仓库技术和基于数据仓库的联机分析处理应用技术。具体包括数据仓库的基本概念、创建技术和方法、数据仓库的体系结构以及OLAP的基本概念、多维数据库、OLAP的实现技术。②数据挖掘的基本概念、基本方法和基本技术(包括分类、预测、关联、聚类等),以及数据挖掘的应用。
1.2 课程在本科教学过程中存在的问题
⑴ 教学内容不统一
由于该课程是一门综合性很强的课程,涉及到的学科知识很广,加上在本科教学中开设的时间并不长,也没有得到大家一致认可的相应教材供使用,使得开设该课程的不同高校的教学内容与教学重点各不相同,即便是同一学校不同教师对于教学内容的把握上也有很大差异。
⑵ 传统教学方法的不适用性
虽然本课程涉及内容宽泛,而且是在已具备自主学习能力的本科高年级学生中开设的,但是课程的教学方法却多采用传统的以教师讲授为主、学生为辅的教学模式。
从本科教学过程中存在的问题可见:课程授课对象及课程自身的特点,决定了传统教学方法的不适用性[1-3]。因此,有必要探讨新的教学模式在具体教学实施过程中的应用。
1.3 研讨型教学模式
虽然课程涉及到的学科内容广且深,但是对于已学习高等数学,并熟悉数据库知识和具备程序设计能力的高年级学生而言,还是能较好地掌握数据仓库的建模以及经典数据挖掘算法的实现与简单应用。因此,在课程的教学实践中,我们把该部分内容作为课堂教学的重点;对于一些较难的和新的挖掘算法与技术,及其应用和最新发展趋势,则作为学生研讨内容。
作为传统的教师讲解教学模式的有益补充和提高,开展研讨型的教学模式,可以按照如下四个环节开展:
⑴ 教师出题&学生选题;
⑵ 相关文献查阅;
⑶ 报告撰写;
⑷ 课堂汇报与讨论。
第一步,由教师出题,学生选题。在学期初,就由教师给出研讨的主题供学生选择。这样既可以避免学生选题过于盲目,也可以避免最后课堂讨论阶段的研讨内容偏离课程教学主题。
第二步,相关文献查阅。在接下来的课程教学期间,学生除了保证基本的学习内容的掌握之外,还需要利用课余时间,利用各种手段查阅与选题相关的文献,为报告的撰写和汇报阶段做充分的准备。
第三步,报告撰写。经过大量的文献阅读后,学生需撰写文献阅读报告,报告的撰写格式可以参考毕业设计的要求。
第四步,课堂汇报与讨论。在课程后期,教师在每次课堂上抽取一定的时间,供学生课堂汇报,然后其他学生与教师一起针对学生的汇报内容展开讨论。该环节的开展,既开拓了学生的视野,又可以有效地避免部分学习不认真的学生的应付行为。
从教师出题到最后的学生课堂汇报与讨论,每个环节都要求学生的亲自参与。这样,在课时有限的情况下,以研讨型的教学模式开展教学,既可以保证教学内容的讲授,又能使学生主动参与到课堂教学中来,激发了学生的学习主动性,拓宽了学生的视野。
2 研讨型教学实践效果及注意事项
2.1 教学及其效果
我校在大四计算机专业学生中开设该课程。其中,理论32学时,实验16学时,共计48学时。教材采用韩家炜先生编著的《数据挖掘:概念与技术》一书[4]。该教材是得到业内广泛认可的经典教科书,但教材内容偏重理论。为了在有限的课时内,让学生尽可能掌握基本教学内容,使得研讨型教学模式得以开展,我们以李志刚编著的《数据仓库与数据挖掘的原理与应用》作为相关内容的辅助教材[5]。具体地,按如下方式进行。
2.1.1 教学内容及学时分配
教学内容围绕数据仓库与数据挖掘两条主线展开。涉及的相关内容及学时分配如表1所示。
2.1.3 考核方式
期末总成绩=平时成绩25%+文献报告25%+期末卷面成绩50%
在最近两年的研讨型教学模式实践中,我们选出有代表性的学生作品,如表3所示。
2.2 教学注意事项
研讨型教学模式适用于“数据仓库与数据挖掘”课程的教学,但是在相应课程中开展研讨型的课程教学模式需注意以下几点。
⑴ 注意授课对象的选择。文献资料的查阅、文献阅读报告的撰写以及课堂汇报是研讨型教学模式开展过程中的主要环节,而这些环节要求学生所需具备的能力,不适于在低年级学生中开展。
⑵ 注意教学模式的选用。研讨型教学模式不能代替传统的教师讲解的教学模式,而应是两者的有机结合。
⑶ 注意考核方式的改革。研讨型教学模式的开展,除占用一定的课堂教学时间之外,还需要学生花费大量的课外时间用以查阅文献资料、撰写报告等。如果采用传统的以考试为主的考核方式,那么在实践过程中可能会遇到部分学生的抵制。因此,为了提高研讨型教学模式的效果,需要对传统的以期末笔试成绩为主的评价方式进行适当改革,向研讨内容及成果倾斜,以提高学生的积极性。
3 结束语
研讨型教学模式的开展,可以有效地避免传统教学方法下以教师讲解为主,以学生为辅的填鸭式教学模式,较好地解决数据仓库与数据挖掘课程在本科教学过程中遇到的问题。
经过近几年在本科计算机专业毕业班对该课程采用研讨型教学模式的实践表明,该模式的开展不仅有效地激发了学生的学习兴趣,开拓了学生的视野,而且能够很好地为学生的毕业设计环节中有关文献查询、论文撰写及答辩等奠定基础。从列举的近两年的代表性学生研讨内容及成果中可以看到,该教学模式在高年级学生中开展是现实可行的,而且也是有效的。
研讨型教学模式的开展,需要占用一定的教学时间,如何在有限的课时内保证教学内容,并挤出足够的时间开展研讨是教师必须考虑的问题;与此同时,学生为准备研讨内容需要花费大量的课余时间,因此,如何调动学生的积极性也是该模式能否成功应用的关键因素之一。上述两方面的问题,都有待在今后的教过实践中,进一步深入细化该模式,以更好地达到教学培养目标。
参考文献:
[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,
2007.7:27-29
[2] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,
2007.23(3):209-210,214
[3] 韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高
教论坛,2011.1:94-96,99
[4] 李志刚,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版
社,2008.
讨论如何在图书馆个性化推荐中应用网络数据挖掘,并具体对社会网络分析的应用进行了深
入分析,提出了具体算法。
网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。
本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:
根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:
(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。
(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。
(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。
由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。
1、 图书馆个性化推荐常用分析方法
1.1聚类算法
通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。
1.2 社会网络分析
社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。
2、 基于网络数据挖掘的图书馆个性化推荐分析
2.1基于K-means聚类推荐分析
图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。
2.2 基于PageRank社会网络分析
在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。
我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:
其中DIS(j,i)定义为:
在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:
其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。
3、 结语
本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。
参考文献
[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.
[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).
[3]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究, 2006, (1):32-34.
【关键词】信息资源管理;研究生教学;财经院校
【中图分类号】G642 【文献标识码】B 【论文编号】1009―8097 (2008) 09―0125―03
信息资源管理(IRM)是为了确保信息资源的有效利用、以现代信息技术为手段,对信息资源实施计划、预算、组织、指挥、控制、协调的一种管理活动[1]。信息资源管理的理论和实践活动及以后信息资源管理类学科之间的集成和整合的需要,导致了一门渗透性很强的横断学科――信息资源管理学产生[2],其内容涉及信息科学、管理科学、数据处理、通信、计算机科学、文献情报学等各个方面。随着全球信息化基础设施建设的热潮,信息资源管理也成为国内外高校开设的一门重要课程。
一 国内外高校同类课程现状
信息资源管理作为一门新兴边缘学科,打破了原有学科界限,具有鲜明的时代特征,作为档案学、图书馆情报学和情报学的一个分支领域,多学科综合性、交叉性等特点是其典型特征[2]。在国外大学,IRM课程多设置在信息科学专业,如美国东北大学,或者图书馆学专业,如威斯康星大学。根据学科专业不同,课程侧重点也有所不同,主要可分为三大方向:信息系统学派、记录管理学派、信息管理学派。
90年代初,中国学者孟广均和卢泰宏等人系统地引入了信息资源管理理论[3]。目前,国内很多高校信息管理专业和图书馆情报学专业都开设了信息资源管理课程,大多都设置在本科专业,也有一些设立了硕士和博士研究方向。大部分还是以传统的信息管理为主线,以理论教育为主导,和企业应用及时代特点结合的较少,教学重点也依专业有所不同。
二 课程教学探讨
1 课程定位
我校自2001年开始开设此课程作为信息学院硕士研究生必修课程。不同于其他高校的信息管理专业和图书馆情报学专业,我校是财经类院校,信息学院硕士方向主要为电子商务、供应链管理、信息管理,是以管理学、经济学为主、信息技术为辅助实现手段的交叉学科,因此我们的IRM课程定位也是多学科交叉,侧重从管理思维及企业应用而不是技术角度,结合当前知识经济时代特征组织课程内容体系、分析讲解问题,和企业市场对具有复合型知识结构人才的需求紧密结合。
2 体系结构
本课程自开设以来,一直由作者承担此课程的教学及相关研究工作。作者在对当前国内IRM教材著作、教学内容深入研究及6年教学实践体验的基础上,结合在美国威斯康星大学图书馆和信息科学学院的交流学习经验,提出了适合本专业方向和学生特点的创新课程体系结构,经过多次教学实践,得到学生的认可。我们的课程体系遵循系统性和创新性原则,在保证教学内容所包含的知识是具有内在逻辑联系的完整知识体系前提下,区别于以传统信息系统管理为主线的内容体系,采用符合知识经济时代特征的体系结构,反映学科领域最新成果,在这里提出来供大家探讨。
(1) 信息资源管理概述:作为整个课程的基础,这部分主要包括数据、信息、信息资源、信息化、信息产业、知识、知识经济、知识管理等概念及其关联,目的是使学生掌握信息资源从产生到利用到再创造的过程。
(2) 知识管理:知识是从相关信息中过滤、提炼、经过人脑加工得到的有用信息,知识管理是现代信息资源(知识资源)管理的核心。这部分主要介绍知识的生命周期;企业知识管理的原因、目的、工具和手段;知识管理的企业实施和应用;知识管理系统方案和技术平台;北京移动、三星等企业知识管理案例分析。
(3) 数据挖掘:数据挖掘是数据库中的知识发现,是从海量数据中抽取出潜在的、有价值的信息、知识,是针对目前企业面对大量杂乱数据无法辨别有价值的资源进行管理,而提出的方法。本部分主要介绍数据挖掘的特点、原由、过程、人员、环境、相关技术;数据挖掘的商业应用;相关软件(重点SPSS系统);数据挖掘与CRM;数据挖掘在证券行业、网络应用、远程教育等方面的应用案例分析。不同于介绍技术和算法为主的数据挖掘课程,本课程重点在于数据挖掘的商业应用,侧重于分析、管理和应用。
(4) 信息资源规划(IRP):IRP是完全中国特色的信息资源管理内容,是指对企事业单位或政府部门所需要的信息资源,从采集、处理、传输到使用的全面规划,是针对于国内信息化建设的总体规划。主要内容包括:信息资源管理基础标准的讲解及应用;信息资源网;IRP在大型企事业单位的实施(四一三三原则);IRP与ERP;IRP2000系统软件介绍;政府信息资源规划案例。
(5) 首席信息执行官(CIO):CIO在企业的角色主要就是对企业的信息资源进行总体规划、协调、管理,因此这部分主要介绍IRM与CIO;中国CIO面临的挑战和机遇;CIO与IRP的工程化方法;CIO与本组织信息化整体解决方案(IT服务链)。
(6) 网络信息资源管理:适应当前网络发展,介绍通过网络如何对信息资源进行更好的组织和管理。主要包括网络信息资源及信息结构;网络信息资源组织;信息结构(导航、标志、检索等系统)设计;网站资源设计原则;案例分析。
(7) 信息资源安全管理:在信息资源的开发、管理和利用过程中,安全问题是一个十分重要的问题,因此本部分主要从管理和技术两方面对信息资源管理中的安全风险及应对措施进行分析,并结合案例介绍对系统进行审计和评价的方法。
3 教学资源
教师注重将所讲授内容体现在教学实践本身,随时随处体现“信息资源管理”观点和方法:利用知识管理理念,整合各方面知识资源,包括各种教材著作、专家渠道、国内外最新研究论文、案例资源等内容,形成资源库。
自课程开设以来,先后使用参考过科学出版社出版孟广均等著的《信息资源管理导论》,高等教育出版社王景光主编的《信息资源管理》,武汉大学马费成编著的《信息资源开发利用》,北京理工大学甘仞初主编的《信息资源管理》,电子工业出版社肖明编著的《信息资源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等国外著作。已有教材都对信息管理学科进行了全面系统的论述,但内容大都比较抽象,理论性较强,多以信息系统论为核心,和现实企业应用及我们专业特点结合不足。因此,教师在教学中,指定其中两本为参考教材,而围绕课程体系的内容主要来自于教师对国内外研究资料收集整理加工后形成的教案、讲义,资料来源大都为排名行业前列的学术刊物、数据库、著名专家。除了理论知识,资源库还纳入不同企业的案例,以及知识案例获取的各种专家渠道。
4 教学方法
结合课程和中国学生特点,教师在教学中注重创新性,借鉴国内外同行的经验,及时引入先进的教学理念和方法手段,采用整合的教学方式“课堂讲授+案例分析+Leading Discussion+小组讨论/作业”相结合,目的在于尽量激发学生主动学习的愿望和能力,区别于以往“高级本科生”似的研究生教育方式。
(1) 教师的课堂讲授主要在于让学生了解知识课程体系结构及关键知识点,特别是重点和难点,引导学生把点串成线,配合阅读资料和案例,进而使知识面立体化。
(2) 案例分析,主要是教师通过企业渠道获得并整理内容详实的企业案例,把理论知识融入到企业实际应用中,加深学生对理论和实践如何结合起来的理解,弥补学生由于条件所限无法亲自参与重要的企业实践环节的缺口。
(3) Leading Discussion是教师借鉴美国大学研究生课程教学方法所得,培养学生独立深度研究分析能力。由于课程内容比现有教材更新,涉及范围更广,仅靠教材难以获取足够知识。教师定期提供国际上较新的研究论文,课下每位同学独立阅读并总结出不超过一页纸的summary,提出2-3个针对性问题。课堂上每次轮流由不同学生主持leading discussion对论文进行分析讨论,并回答问题。这种方式有助于学生开拓视野,了解国际最新动向,督促其主动学习、思考、沟通能力(这正是中国学生普遍缺乏的),还能提高专业英语阅读理解归纳能力和阅读速度。
(4) 小组讨论/作业主要是教师提供案例内容框架及引导问题,学生分组讨论不同案例(课堂或课下,视时间而定),鼓励brain storming,以PPT形式进行课堂演示,实现知识资源共享。最后教师对各组案例分析就行评价总结。
全程采用多媒体教学,教学中始终贯穿着启发式、引导性和参与性的理念。启发式教学:启发学生通过以上各种方式实现自我学习、自我教育,克服教师满堂贯、填鸭式的教学方式,注重研究生教育和本科教育的区别。引导性:教师在教学中先引入问题,积极启发学生主动思考,而不是被动接受灌输;引导学生探索性阅读,进入学术研究领域。参与性:鼓励学生主动参与教学环节,师生互动、教学相长,调动学生学习的积极性和主动性。
5 考核
为体现课程的多学科交叉性、复合型知识能力特点,课程采用多形式考核方式,重在考察学生对企业实际问题分析、提出解决方案的能力,以及此过程中对现代IRM管理理念和知识的理解应用和渗透。在强调“开卷+闭卷”传统考试形式基础之上,将参与讨论、案例分析、Leading Discussion、论文撰写、企业调研、小组作业等综合起来全面考察学生学习情况,这种“非概念记忆”的能力考核方式进一步调动了学生主动学习的积极性和创造力。
三 结言
经过多次教学实践不断改进,教学内容体系和方式方法得到了专家及学生的一致认可:普遍认为课程内容新颖全面,反映信息资源管理领域的最新发展和趋势;国外资源丰富,与国际学科发展接轨;高质量案例的引入恰当充分,和实际企业应用相联系。教师在讲授中补充很多专业领域最新的知识,扩展学生知识面;注重关键知识点的掌握,培养学生独立思考和判断、分析、解决问题的能力,非常适合财经类院校研究生阶段教学的特点。
在教学中,我们也注意及时发现总结问题,充分意识到不足和需要改进之处:
1 教学中很多内容都超出现有参考教材,因此需要将教学内容资源整合成更加系统全面的教材,供学生参考。
2 对于一些最新的较为抽象的内容,以及一些专业术语,还需进一步增加关联性更强的实例,更加深入浅出的进行讲解,让学生更容易理解。
3 信息和网络时代,知识及企业应用的更新频率都在加速,需要及时更新资源库以和现实世界发展保持同步,如何追踪最新的知识资源、企业实践和专家渠道是很大的挑战。
信息资源管理课程是知识经济时代新兴的一门重要课程,教学体系、方法发展还不完善。在北京召开的北京高校信息资源管理专业高级研讨会上,大家也一致认为信息资源管理这门课程的教材的内容和教学方法需要进一步改革。本文提出了适合财经类院校研究生的教学内容体系和教学方法设计,供开设此课程的高校教师探讨,并希望能有一定的启发借鉴作用。
参考文献
[1] 王景光.信息资源管理[M].高等教育出版,2002.12.
关键词:竞争情报;企业竞争情报系统;热点;趋势
1 .竞争情报系统概述
企业竞争在当前日趋激烈,作为企业竞争制胜先导和基础的竞争情报,正愈来愈受到企业和学术理论界的重视,不少的企业正在或将要建立自己的竞争情报系统。
目前我国最流行的竞争情报系统的定义可以归纳为两种。第一种定义认为竞争情报系统就是计算机系统。王沙骋等指出,企业竞争情报系统是指将反映企业自身、竞争对手和企业外部环境的时间状态和变化的数据、信息及情报进行收集、存储、处理及分析,并以适当的方式给企业有关战略管理人员的计算机应用系统,是基于计算机和网络环境的、由先进的信息技术支持的企业竞争情报辅助分析计算机系统。我国讨论竞争情报涉及计算机网络的专家多数持这种看法,国外也有很多人持这种看法。
第二种定义把竞争情报系统视为人机系统。这种观点是我国竞争情报的先驱包昌火先生提出来的:竞争情报系统是以人的智能为主导、信息网络为手段、增强企业竞争力为目标的人机结合的竞争战略决策支持和咨询系统。按包昌火先生的定义,竞争情报系统核心就是人和计算机。
澳门理工学院社会经济研究所曾忠禄先生分析综合了以上三大类定义的优缺点,他认为,目前竞争情报系统的定义是存在缺陷的,它们都只包括了竞争情报体系的部分内容,缺乏全面性外,它们还有另外一个缺陷,即忽略了竞争情报系统各构成因素之间的相互联系和互相依赖关系。缺乏将各部分联系起来的“关系”,它们就不能成为“系统”。他认为,竞争情报系统是为用户的需要创造情报产品的体系,它由相互联系、相互影响的功能、结构(资源)和方法(流程)组成,各构成部分有机地联系在一起,并随着外部环境的变化而动态发展。这里的用户可以是企业,也可以是政府机构,或自己组织内部的某一部门或上级单位;情报产品既可以是文字的,也可以是图像的、口头的或其他方式的;创造过程既包括信息收集、分析,也包括撰写情报报告等。
2. 十年来我国竞争情报系统研究相关热点及部分成果
随着市场竞争的深入发展和日趋激烈,企业竞争情报系统的理论与实践必将愈来愈受到企业界和学术理论界的高度重视。本文选取了最近十年来刊登在《情报科学》、《情报杂志》、《情报学报》、《图书情报工作》等几本情报学主要核心期刊上关于竞争情报系统的论文,对其进行归纳总结,找出了我国竞争情报系统研究的主要几个热点问题。主要热点包括一下几个方面:
2.1 竞争情报与数据挖掘
简单地讲,数据挖掘是一种利用各种分析工具建构数据分析模型,从而在大型的数据库(或数据仓库)中提取人们感兴趣的知识的过程。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识一般可以表达为概念、规则、规律、模式等形式。
当前竞争情报系统的情报源越来越多,包括企业内部数据库、数据仓库、外部网络、外部数据库等等。竞争情报系统需要向用户提供面向主题的数据挖掘及深层的数据分析,要实现这些功能,就要将竞争情报系统建立在数据挖掘技术基础上。而数据挖掘对数据要求比较高,因此要在原有竞争情报系统基础上加强对数据的处理,以满足数据挖掘的要求。目前国内在此方面的研究多集中在web数据挖掘在竞争情报系统中的应用,将数据挖掘技术应用到竞争情报系统的构建。并提出了不同的基于Web挖掘技术的企业竞争情报系统结构模型。
蒲群莹在2005年第1期的情报杂志上提出的竞争情报系统模型是建立在大量竞争情报数据基础上的竞争情报系统,包含四个子系统,即竞争情报收集子系统、数据转换子系统、分析子系统、服务子系统(如图1所示)。
图1 基于数据挖掘的竞争情报系统模型
1. 收集子系统。竞争情报收集子系统主要包括各企业信息源以及各种信息收集工具,主要负责收集来自企业内部和外部的信息。
2. 数据转换子系统。数据转换子系统主要功能是为数据挖掘提供符合要求的数据,为下一步数据挖掘提供了良好的环境。
3. 分析子系统。经过转换的数据,送入竞争情报分析子系统中,该子系统主要包括数据分析以及模式发现工具,数据挖掘是其核心技术。
4. 服务子系统。竞争情报服务子系统是为整个竞争情报系统提供一个信息交流和共享的平台,它包括对内和对外两部分。
目前看来,数据挖掘是竞争情报系统处理海量数据唯一可行的技术,迄今为止这项技术并没有发展成熟,将它应用到企业竞争情报系统中还需要经过很长时间的探索,但是探讨将两者相结合的应用模式是非常必要的。
2.2 竞争情报系统与人际网络
竞争情报系统的横向描述为组织网络、信息网络、人际网络三大网络(如图2所示)。美国著名的公关专家李文斯顿给人际网络的定义:建立人际网络是一个互相交换资讯、意见、想法与相互介绍朋友、熟人、资源共享,也互相感激的关系。
图2 竞争情报系统横向描述结构图
在竞争情报系统中建立人际网络的必要性主要表现在:通过人际交流,可以充分获取信息,挖掘正式交流中所不能体现的情感信息,还可以实现隐含知识的转移和传递。人际网络是重要的非公开情报源,是企业获取竞争情报非常重要的途径和工具,而对于它在竞争情报系统中的重要性,竞争情报人员最近才认识到。事实上,人际网络的重要性体现在竞争情报工作的全过程,贯穿于情报收集、分析和服务这个情报循环(Intelligence Cycle)中,尤其突出地反映在情报收集阶段。
随着我国经济社会的发展,企业的竞争将越来越激烈,但是这些企业越来越意识到必须采取竞合策略才能更好地生存和发展,因此人际网络与竞争情报成为我国竞争情报系统研究的热点之一。
2.3 集成竞争情报系统—面向企业信息集成(EII)的CIS
面向EII的集成化CIS以现代信息技术为手段,为部门之间、企业与集成环境内其它供应链节点之间、供应链集成环境之间提供有效的竞争情报服务与集成化的决策支持。同时,根据战略目标和竞争环境的变化对企业资源重新组合集成,突破部门、组织、地域、时间和硬件设备的束缚, 实现以企业战略目标和用户需求为中心的集成与协同,形成敏捷的市场反应能力。与传统CIS相比,面向企业信息集成的CIS具有高度的集成性、敏捷性、实时性、持续性、网络化、虚拟化以及智能化。
面对企业信息集成的发展,搭建集成CIS平台,提供广泛深入的信息服务和决策支持已经成为一种新的发展方向。同时,这种集成化的CIS由于融合了先进的网络信息技术和管理理念,使其为企业部门之间、企业与外部供应链节点之间以及不同供应链集成体系之间的协作提供了集成化、平台化和系统化的信息环境,同时还可以根据企业战略规划和竞争环境的变迁对内外资源进行全面有效的整合处理和集成配置,使CIS配合企业信息集成发展的需求,进行动态决策调整、分布式信息服务和集成化的决策支持的实现成为可能。、
2.4 基于Internet与Intranet的企业竞争情报系统研究
在网络环境下,企业竞争情报系统(ECIS)以内联网(Intranet)为平台,通过互联网(Internet)与外部相连,应用信息技术和现代组织创新理论,建立起以竞争环境、竞争对手和竞争策略信息的获取和分析为主要内容的具有快速反应能力的工作体系。根据网络环境下企业竞争情报的需求特点,ECIS的基本功能应当包括竞争环境监测、市场变化预警、技术动向跟踪、竞争对手分析、竞争策略制订和企业信息安全等六个方面。
根据对国内外企业竞争情报系统运行与服务模式的分析,在网络环境下比较典型的服务模式主要有:竞争信息扫描、战略早期预警、竞争知识库建设、竞争对手分析和竞争策略模拟五种模式。
3. 企业竞争情报系统的发展趋势
从企业战略管理的角度来看,把CIS建设成企业的“中央情报局”,使之成为企业领导集团经营战略和竞争决策的思想库和参谋部,这将是企业CIS的主要目标和未来发展方向。
3.1 网络化方向
从企业竞争情报系统的具体运作角度来说,CIS的网络化趋势体现在系统运行的信息搜集和信息服务两个阶段中:信息搜集的网络化方面,企业可以定制适合自己的自动搜索软件,定期检索与本企业、本行业相关的网上情报源。这样既在一定程度上保证了信息搜集的完备性,又大大减少了信息搜集人员的工作量,使其可以专注于其他信息源的搜集处理,如加强对非公开信息的搜集工作力度。在信息服务的网络化方面,企业决策层应该可以不受时间、地域限制地接受所需的情报服务。未来更理想的服务模式是CIS根据用户的不同,提供特定的推送服务,为不同的决策人员提供不同的定制服务界面;而企业内的其他员工也可根据自己的需要,定制适合自己需要的Intranet服务。
3.2 智能化方向
随着信息技术水平的不断提高,各种新方法、新工具会应用到竞争情报系统中,比如智能化的自动搜集软件就是竞争情报系统智能化的一种表现。另外,系统的智能化分析功能、学习功能和检索功能的加入也都是未来竞争情报系统的重要发展方向。
3.3 决策化方向
竞争情报系统的工作重心将从单纯的、分散的日常性情报工作转向目的性很强的竞争对手跟踪、重大课题深入分析、竞争策略研究等方面,并日益成为企业决策的重要依据。
3.4 集成化方向
企业将在实物资源、财务资源和人力资源三类系统之间实现恰当的集成,这样将会使其能够在组织的协同作用方面以及在与竞争能力相关的产品、服务、市场反应、管理决策等方面都获得显著改善。
4. 结语
关键词:实验平台;教学管理;数据仓库;数据挖掘
中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03
一、引言
21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。
随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。
本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。
二、数据仓库与数据挖掘学科教学现状
随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。
市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。
1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。
2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。
3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。
4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。
三、数据仓库与数据挖掘学科教学实验平台的构建
为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。
1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。
2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。
(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。
(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。
维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。
3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。
4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。
5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。
6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。
7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。
四、数据仓库与数据挖掘学科教学实验平台的教学效果
在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。
(一)建设了数据仓库和数据挖掘课程的实验教学体系
1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。
2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。
3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。
4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。
(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境
本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。
(三)基于采样评估证明了远程网络实验教学的可行性和优越性
根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。
从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。
五、结论
在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。
参考文献:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
[2]李旭晴.学科教学网站设计的应用探讨[J].计算机教育,2009,(02):1-2.
[作者简介]王会金(1962― ),男,浙江东阳人,南京审计学院副校长,教授,博士,从事信息系统审计研究。
[摘 要]当前,我国急需一套完善的中观信息系统审计风险控制体系。这是因为我国的中观经济主体在控制信息系统审计风险时需要一套成熟的管理流程,且国家有关部门在制定信息系统审计风险防范标准方面也需要完善的控制体系作为支撑。在阐述COBIT与数据挖掘基本理论的基础上,借鉴COBIT框架,构建中观信息系统审计风险的明细控制框架,利用数据挖掘技术有针对性地探索每一个明细标准的数据挖掘路径,创建挖掘流程,建立适用于我国中观经济特色的信息系统审计风险控制体系。
[关键词]中观信息系统审计;COBIT框架;数据挖掘;风险控制;中观审计
[中图分类号]F239.4 [文献标识码]A [文章编号]10044833(2012)01001608
中观信息系统审计是中观审计的重要组成部分,它从属于中观审计与信息系统审计的交叉领域。中观信息系统审计是指IT审计师依据特定的规范,运用科学系统的程序方法,对中观经济主体信息系统的运行规程与应用政策所实施的一种监督活动,旨在增强中观经济主体特定信息网络的有效性、安全性、机密性与一致性[1]。与微观信息系统相比,中观信息系统功能更为复杂,且区域内纷乱的个体间存在契约关系。中观信息系统的复杂性主要体现在跨越单个信息系统边界,参与者之间在信息技术基础设施水平、信息化程度和能力上存在差异,参与者遵循一定的契约规则,依赖通信网络支持,对安全性的要求程度很高等方面。中观信息系统审计风险是指IT审计师在对中观信息系统进行审计的过程中,由于受到某些不确定性因素的影响,而使审计结论与经济事实不符,从而受到相关关系人指控或媒体披露并遭受经济损失以及声誉损失的可能性。中观信息系统审计风险控制的研究成果能为我国大型企业集团、特殊的经济联合体等中观经济主体保持信息系统安全提供强有力的理论支持与实践指导。
一、 相关理论概述与回顾
(一) COBIT
信息及相关技术的控制目标(简称COBIT)由美国信息系统审计与控制协会(简称ISACA)颁布,是最先进、最权威的安全与信息技术管理和控制的规范体系。COBIT将IT过程、IT资源及信息与企业的策略及目标联系于一体,形成一个三维的体系框架。COBIT框架主要由执行工具集、管理指南、控制目标和审计指南四个部分组成,它主要是为管理层提供信息技术的应用构架。COBIT对信息及相关资源进行规划与处理,从信息技术的规划与组织、采集与实施、交付与支持以及监控等四个方面确定了34个信息技术处理过程。
ISACA自1976年COBIT1.0版以来,陆续颁布了很多版本,最近ISACA即将COBIT5.0版。ISACA对COBIT理论的研究已趋于成熟,其思路逐步由IT审计师的审计工具转向IT内部控制框架,再转向从高管层角度来思考IT治理。大多数国际组织在采纳COSO框架时,都同时使用COBIT控制标准。升阳电脑公司等大型国际组织成功应用COBIT优化IT投资。2005年,欧盟也选择将COBIT作为其审计准则。国内学者对COBIT理论的研究则以借鉴为主,如阳杰、张文秀等学者解读了COBIT基本理论及其评价与应用方法[23];谢羽霄、黄溶冰等学者尝试将COBIT理论应用于银行、会计、电信等不同的信息系统领域[45]。我国信息系统审计的研究目前正处于起步阶段,因而将COBIT理论应用于信息系统的研究也不够深入。王会金、刘国城研究了COBIT理论在中观信息系统重大错报风险评估中的运用,金文、张金城研究了信息系统控制与审计的模型[1,6]。
(二) 数据挖掘
数据挖掘技术出现于20世纪80年代,该技术引出了数据库的知识发现理论,因此,数据挖掘又被称为“基于数据库的知识发现(KDD)”。1995年,在加拿大蒙特利尔召开的首届KDD & Date Mining 国际学术会议上,学者们首次正式提出数据挖掘理论[7]。当前,数据挖掘的定义有很多,但较为公认的一种表述是:“从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表现为概念、规则、规律、模式等形式。数据挖掘所要处理的问题就是在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将有意义的信息归纳成结构模式,供有关部门在进行决策时参考。”[7]1995年至2010年,KDD国际会议已经举办16次;1997年至2010年,亚太PAKDD会议已经举办14次,众多会议对数据挖掘的探讨主要围绕理论、技术与应用三个方面展开。
目前国内外学者对数据挖掘的理论研究已趋于成熟。亚太PAKDD会议主办方出版的论文集显示,2001年至2007年仅7年时间共有32个国家与地区的593篇会议论文被论文集收录。我国学者在数据挖掘理论的研究中取得了丰硕的成果,具体表现在两个方面:一是挖掘算法的纵深研究。李也白、唐辉探索了频繁模式挖掘进展,邓勇、王汝传研究了基于网络服务的分布式数据挖掘,肖伟平、何宏研究了基于遗传算法的数据挖掘方法[810]。二是数据挖掘的应用研究。我国学者对于数据挖掘的应用研究也积累了丰富的成果,并尝试将数据挖掘技术应用于医学、通讯、电力、图书馆、电子商务等诸多领域。2008年以来,仅在中国知网查到的关于数据挖掘应用研究的核心期刊论文就多达476篇。近年来,国际软件公司也纷纷开发数据挖掘工具,如SPSS Clementine等。同时,我国也开发出数据挖掘软件,如上海复旦德门公司开发的Dminer,东北大学软件中心开发的Open Miner等。2000年以来,我国学者将数据挖掘应用于审计的研究成果很多,但将数据挖掘应用于信息系统审计的研究成果不多,且主要集中于安全审计领域具体数据挖掘技术的应用研究。
二、 中观信息系统审计风险控制体系的构想
本文将中观信息系统审计风险控制体系(图1)划分为以下三个层次。
(一) 第一层次:设计中观信息系统审计风险的控制框架与明细控制标准
中观信息系统审计的对象包括信息安全、数据中心运营、技术支持服务、灾难恢复与业务持续、绩效与容量、基础设施、硬件管理、软件管理、数据库管理、系统开发、变革管理、问题管理、网络管理、中观系统通信协议与契约规则等共计14个主要方面[11]。中观信息系统审计风险控制体系的第一层次是根据COBIT三维控制框架设计的。这一层次需要构架两项内容:(1)中观信息系统审计风险的控制框架。该控制框架需要完全融合COBIT理论的精髓,并需要考虑COBIT理论的每一原则、标准、解释及说明。该控制框架由14项风险防范因子组成,这14个因子必须与中观信息系统审计的14个具体对象相对应。框架中的每一个因子也应该形成与自身相配套的风险控制子系统,且子系统应该包含控制的要素、结构、种类、目标、遵循的原则、执行概要等内容。(2)中观信息系统审计风险的明细控制标准。控制框架中的14项风险防范因子需要具备与自身相对应的审计风险明细控制规则,IT审计师只有具备相应的明细规范,才能在中观信息系统审计实施过程中拥有可供参考的审计标准。每个因子的风险控制标准的设计需要以COBIT三维控制框架为平台,以4个域、34个高层控制目标、318个明细控制目标为准绳。
(二) 第二层次:确定风险控制框架下的具体挖掘流程以及风险控制的原型系统
第一层次构建出了中观信息系统审计风险控制的明细标准Xi(i∈1n)。在第一层次的基础上,第二层次需要借助于数据挖掘技术,完成两个方面的工作。一是针对Xi,设计适用于Xi自身特性的数据挖掘流程。这一过程的完成需要数据资料库的支持,因而,中观经济主体在研讨Xi明细控制标准下的数据挖掘流程时,必须以多年积累的信息系统控制与审计的经历为平台,建立适用于Xi的主题数据库。针对明细标准Xi的内在要求以及主题数据库的特点,我们就可以选择数据概化、统计分析、聚类分析等众多数据挖掘方法中的一种或若干种,合理选取特征字段,分层次、多角度地进行明细标准Xi下的数据挖掘实验,总结挖掘规律,梳理挖掘流程。二是将适用于Xi的n个数据挖掘流程体系完善与融合,开发针对本行业的中观信息系统审计风险控制的原型系统。原型系统是指系统生命期开始阶段建立的,可运行的最小化系统模型。此过程通过对n个有关Xi的数据挖掘流程的融合,形成体系模型,并配以详细的说明与解释。对该模型要反复验证,多方面关注IT审计师对该原型系统的实际需求,尽可能与IT审计师一道对该原型系统达成一致理解。
(三) 第三层次:整合前两个步骤,构建中观信息系统风险控制体系
第三层次是对第一层次与第二层次的整合。第三层次所形成的中观信息系统风险控制体系包括四部分内容:(1)中观信息系统审计风险控制框架;(2)中观信息系统审计风险控制参照标准;(3)中观信息系统审计风险控制明细标准所对应的数据挖掘流程集;(4)目标行业的中观信息系统审计风险控制的原型系统。在此过程中,对前三部分内容,需要归纳、验证、总结,并形成具有普遍性的中观审计风险控制的书面成果;对第四部分内容,需要在对原型系统进行反复调试的基础上将其开发成软件,以形成适用于目标行业不同组织单位的“软性”成果。在设计中观信息系统风险控制体系的最后阶段,需要遵循控制体系的前三部分内容与第四部分内容相互一致、相互补充的原则。相互一致表现在控制体系中的框架、明细控制标准、相关控制流程与原型系统中的设计规划、属项特征、挖掘原则相协调;相互补充表现在控制体系中的框架、明细控制标准及相关控制流程是IT审计师在中观信息系统审计中所参照的一般理念,而原型系统可为IT审计师提供审计结论测试、理念指导测试以及验证结论。 三、 COBIT框架对中观信息系统审计风险控制的贡献
(一) COBIT框架与中观信息系统审计风险控制的契合分析
现代审计风险由重大错报风险与检查风险两个方面组成,与传统审计风险相比,现代审计风险拓展了风险评估的范围,要求考虑审计客体所处的行业风险。但从微观层面看,传统审计风险与现代审计风险的主要内容都包括固有风险、控制风险与检查风险。COBIT框架与中观信息系统审计风险控制的契合面就是中观信息系统的固有风险与控制风险。中观信息系统的固有风险是指“假定不存在内部控制情况下,中观信息系统存在严重错误或不法行为的可能性”;中观信息系统的控制风险是指“内部控制体系未能及时预防某些错误或不法行为,以致使中观信息系统依然存在严重错误或不法行为的可能性”;中观信息系统的检查风险是指“因IT审计师使用不恰当的审计程序,未能发现已经存在重大错误的可能性”。IT审计师若想控制中观信息系统的审计风险,必须从三个方面着手:(1)对不存在内部控制的方面,能够辨别和合理评价被审系统的固有风险;(2)对存在内部控制的方面,能够确认内部控制制度的科学性、有效性、健全性,合理评价控制风险;(3)IT审计师在中观信息系统审计过程中,能够更大程度地挖掘出被审系统“已经存在”的重大错误。我国信息系统审计的理论研究起步较晚,IT审计师在分辨被审系统固有风险,确认控制风险,将检查风险降低至可接受水平三个方面缺乏成熟的标准加以规范,因此我国的中观信息系统审计还急需一套完备的流程与指南 当前我国有四项信息系统审计标准,具体为《审计机关计算机辅助审计办法》、《独立审计具体准则第20号――计算机信息系统环境下的审计》、《关于利用计算机信息系统开展审计工作有关问题的通知》(88号文件)以及《内部审计具体准则第28号――信息系统审计》。。
图2 中观信息系统审计风险的控制框架与控制标准的设计思路
COBIT框架能够满足IT审计师的中观信息系统审计需求,其三维控制体系,4个控制域、34个高层控制目标、318个明细控制目标为IT审计师辨别固有风险,分析控制风险,降低检查风险提供了绝佳的参照样板与实施指南。COBIT控制框架的管理理念、一般原则完全可以与中观信息系统审计风险的控制实现完美契合。通过对COBIT框架与中观信息系统审计的分析,笔者认为COBIT框架对中观信息系统审计风险控制的贡献表现在三个方面(见图2):(1)由COBIT的管理指南,虚拟中观信息系统的管理指南,进而评价中观主体对自身信息系统的管理程度。COBIT的管理指南由四部分组成,其中成熟度模型用来确定每一控制阶段是否符合行业与国际标准,关键成功因素用来确定IT程序中最需要控制的活动,关键目标指标用来定义IT控制的目标绩效水准,关键绩效指标用来测量IT控制程序是否达到目标。依据COBIT的管理指南,IT审计师可以探寻被审特定系统的行业与国际标准、IT控制活动的重要性层次、IT控制活动的目标绩效水平以及评价IT控制活动成效的指标,科学地拟定被审系统的管理指南。(2)由COBIT的控制目标,构建中观信息系统的控制目标体系,进而评价中观信息系统的固有风险与检查风险。COBIT的控制目标包括高层域控制、中层过程控制、下层任务活动控制三个方面,其中,高层域控制由规划与组织、获取与实施、交付与支持以及监控四部分组成,中层控制过程由“定义IT战略规划”在内的34个高层控制目标组成,下层任务活动控制由318个明细控制目标组成。COBIT的控制目标融合了“IT标准”、“IT资源”以及被审系统的“商业目标”,为IT审计师实施中观信息系统审计风险控制提供了层级控制体系与明细控制目标。IT审计师可以直接套用COBIT的控制层级与目标拟定中观信息系统管理与控制的层级控制体系以及明细控制目标,然后再进一步以所拟定的明细控制目标作为参照样板,合理评判中观信息系统的固有风险与控制风险。中观信息系统中“域”、“高层”、“明细”控制目标的三层结构加强了IT审计师审计风险控制的可操作性。(3)由COBIT的审计指南,设计IT审计师操作指南,进而降低中观信息系统审计的检查风险。COBIT的审计指南由基本准则、具体准则、执业指南三个部分组成。基本准则规定了信息系统审计行为和审计报告必须达到的基本要求,为IT审计师制定一般审计规范、具体审计计划提供基本依据。具体准则对如何遵循IT审计的基本标准,提供详细的规定、具体说明和解释,为IT审计师如何把握、评价中观经济主体对自身系统的控制情况提供指导。执业指南是根据基本标准与具体准则制定的,是系统审计的操作规程和方法,为IT审计师提供了审计流程与操作指南。
(二) 中观信息系统审计风险控制体系建设举例――构建“设备管理”控制目标体系
前文所述,中观信息系统审计的对象包括“信息安全”等14项内容,本文以“硬件管理”为例,运用COBIT的控制目标,构建“硬件管理”的控制目标体系,以利于IT审计师科学评价“硬件管理”存在的固有风险与控制风险。“设备管理”控制目标体系的构建思路参见表1。
注:IT标准对IT过程的影响中P表示直接且主要的,S表示间接且次要的;IT过程所涉及的IT资源中C表示涉及;空白表示关联微小。
表1以“设备管理”为研究对象,结合COBIT控制框架,并将COBIT框架中与“设备管理”不相关的中层控制过程剔除,最终构建出“设备管理”控制的目标体系。该体系由4个域控制目标、21个中层过程控制目标、149个明细控制目标三个层级构成,各个层级的关系见表1。(1)第一层级是域控制,由“P.设备管理的组织规划目标”、“A.设备管理的获取与实施目标”、“DS.设备管理的交付与支持目标”以及“M.设备管理的监控目标”构成;(2)第二层级是中层过程控制,由21个目标构成,其中归属于P的目标5个,归属于A的目标3个,归属于D的目标9个,归属于M的目标4个;(3)第三层级是下层任务活动控制,由149个明细目标构成,该明细目标体系是中层过程控制目标(P、A、DS、M)针对“IT标准”与“IT资源”的进一步细分。IT标准是指信息系统在运营过程中所应尽可能实现的规则,具体包括有效性、效率性、机密性等7项;IT资源是指信息系统在运营过程中所要求的基本要素,具体有人员、应用等5项。根据表1中“有效性”、“人员”等“IT标准”与“IT资源”合计的12个属项,每个具体中层控制目标都会衍生出多个明细控制目标。例如,中层控制目标“DS13.运营管理”基于“IT标准”与“IT资源”的特点具体能够演绎出6项明细控制目标,此7项可表述为“DS13-01.利用各项设备,充分保证硬件设备业务处理与数据存取的及时、正确与有效”,“DS13-02.充分保证硬件设备运营的经济性与效率性,在硬件设备投入成本一定的情况下,相对加大硬件设备运营所产生的潜在收益”,“DS13-03.硬件设备保持正常的运营状态,未经授权,不可以改变硬件的状态、使用范围与运营特性,保证设备运营的完整性”,“DS13-04.设备应该在规定条件下和规定时间内完成规定的功能与任务,保证设备的可用性”,“DS13-05.硬件设备运营的参与人员必须具备较高的专业素质,工作中遵循相应的行为规范”以及“DS13-06.工作人员在使用各项硬件设备时,严格遵循科学的操作规程,工作中注意对硬件设备的保护,禁止恶意损坏设备”。上述三个层级组成了完整的“硬件设备”控制目标体系,若将中观信息系统审计的14个对象都建立相应的控制目标体系,并将其融合为一体,则将会形成完备的中观信息系统审计风险控制的整体目标体系。
四、 数据挖掘技术对中观信息系统审计风险控制的贡献
(一) 数据挖掘技术与中观信息系统审计风险控制的融合分析
中观信息系统是由两个或两个以上微观个体所构成的中观经济主体所属个体的信息资源,在整体核心控制台的统一控制下,以Internet为依托,按照一定的契约规则实施共享的网状结构式的有机系统。与微观信息系统比较,中观信息系统运行复杂,日志数据、用户操作数据、监控数据的数量相对庞杂。因而,面对系统海量的数据信息,IT审计师针对前文所构建的明细控制目标Xi下的审计证据获取工作将面临很多问题,如数据信息的消化与吸收、数据信息的真假难辨等。而数据挖掘可以帮助决策者寻找数据间潜在的知识与规律,并通过关联规则实现对异常、敏感数据的查询、提取、统计与分析,支持决策者在现有的数据信息基础上进行决策[12]。数据挖掘满足了中观信息系统审计的需求,当IT审计师对繁杂的系统数据一筹莫展时,数据挖掘理论中的聚类分析、关联规则等技术却能为中观信息系统审计的方法提供创新之路。笔者认为,将数据挖掘技术应用于前文所述的明细控制目标Xi下审计证据筛选流程的构建是完全可行的。恰当的数据挖掘具体技术,科学的特征字段选取,对敏感与异常数据的精准调取,将会提高中观信息系统审计的效率与效果,进而降低审计风险。
(二) 中观信息系统审计风险控制目标Xi下数据挖掘流程的规划
数据挖掘技术在中观信息系统审计风险控制中的应用思路见图3。
注:数据仓库具体为目标行业特定中观经济主体的信息系统数据库
中观信息系统审计明细控制目标Xi下数据挖掘流程设计具体可分为六个过程:(1)阐明问题与假设。本部分的研究是在一个特定的应用领域中完成的,以“中观信息系统审计风险明细控制目标Xi”为主旨,阐明相关问题、评估“控制目标Xi”所处的挖掘环境、详尽的描述条件假设、合理确定挖掘的目标与成功标准,这些将是实现“控制目标Xi下”挖掘任务的关键。(2)数据收集。图3显示,本过程需要从原始数据、Web记录与日志文件等处作为数据源采集数据信息,采集后,还需要进一步描述数据特征与检验数据质量。所采集数据的特征描述主要包括数据格式、关键字段、数据属性、一致性,所采集数据的质量检验主要考虑是否满足“控制目标Xi”下数据挖掘的需求,数据是否完整,是否存有错误,错误是否普遍等。(3)数据预处理。该过程是在图3的“N.异构数据汇聚数据库”与“U.全局/局部数据仓库”两个模块下完成的。N模块执行了整合异构数据的任务,这是因为N中的异构数据库由不同性质的异构数据组合而成,数据属性、数据一致性彼此间可能存在矛盾,故N模块需要通过数据转换与数据透明访问实现异构数据的共享。U模块承载着实现数据清理、数据集成与数据格式化的功能。“控制目标Xi”下的数据挖掘技术实施前,IT审计师需要事先完成清理与挖掘目标相关程度低的数据,将特征字段中的错误值剔除以及将缺省值补齐,将不同记录的数据合并为新的记录值以及对数据进行语法修改形成适用于挖掘技术的统一格式数据等系列工作。(4)模型建立。在“V.数据挖掘与知识发现”过程中,选择与应用多种不同的挖掘技术,校准挖掘参数,实现最优化挖掘。“控制目标Xi”下的数据挖掘技术可以将分类与聚类分析、关联规则、统计推断、决策树分析、离散点分析、孤立点检测等技术相结合,用多种挖掘技术检查同一个“控制目标Xi”的完成程度[12]。选择挖掘技术后,选取少部分数据对目标挖掘技术的实用性与有效性进行验证,并以此为基础,以参数设计、模型设定、模型描述等方式对U模块数据仓库中的数据开展数据挖掘与进行知识发现。(5)解释模型。此过程在模块“W.模式解释与评价”中完成,中观信息系统审计风险领域专家与数据挖掘工程师需要依据各自的领域知识、数据挖掘成功标准共同解释模块V,审计领域专家从业务角度讨论模型结果,数据挖掘工程师从技术角度验证模型结果。(6)归纳结论。在“Z.挖掘规律与挖掘路径归纳”中,以W模块为基础,整理上述挖掘实施过程,归纳“控制目标Xi”下的挖掘规律,探究“控制目标Xi”下的挖掘流程,整合“控制目标Xi”(i∈1n)的数据挖掘流程体系,并开发原型系统。
(三) 数据挖掘流程应用举例――“访问控制”下挖掘思路的设计
如前所述,中观信息系统审计包括14个对象,其中“网络管理”对象包含“访问管理”等多个方面。结合COBIT框架下“M1.过程监控”与“IT标准-机密性”,“访问管理”可以将“M1-i.用户访问网络必须通过授权,拒绝非授权用户的访问”作为其控制目标之一。“M1-i”数据挖掘的数据来源主要有日志等,本部分截取网络日志对“M1-i”下数据挖掘流程的设计进行举例分析。
假设某中观信息系统在2011年4月20日18时至22时有如下一段日志记录。
(1) “Sep 20 19:23:06 UNIX login[1015]:FAILED LOGIN 3 FROM(null) FOR wanghua”
(2) “Sep 20 19:51:57 UNIX―zhangli[1016]:LOGIN ON Pts/1 BY zhangli FROM 172.161.11.49”
(3) “Sep 20 20:01:19 UNIX login[1017]:FAILED LOGIN 1 FROM(null) FOR wanghua”
(4) “Sep 20 20:17:23 UNIX―wanyu [1018]:LOGIN ON Pts/2 BY wanyu FROM 172.161.11.342”
(5) “Sep 20 21:33:20 UNIX―wanghua [1019]:LOGIN ON Pts/5 BY wanghua FROM 191.34.25.17”
(6) “Sep 20 21:34:39 UNIX su(pam――unix)[1020]:session opened for user root by wanghua (uid=5856)”
… … …
选取上述日志作为数据库,以前文“控制目标Xi”下数据挖掘的6个过程为范本,可以设计“M1-i.用户访问网络必须通过授权,拒绝非授权用户的访问”下的审计证据挖掘流程。该挖掘流程的设计至少包括如下思路:a.选取“授权用户”作为挖掘的“特征字段”,筛选出“非授权用户”的日志数据;b.以a为基础,以“LOGIN ON Pts BY 非授权用户”作为 “特征字段”进行挖掘;c.以a为基础,选取“opened … by …”作为“特征字段”实施挖掘。假如日志库中只有wanghua为非授权用户,则a将会挖出(1)(3)(5)(6),b会挖出(5),c将会挖掘出(6)。通过对(5)与(6)嫌疑日志的分析以及“M1-i”挖掘流程的建立,IT审计师就能够得出被审系统的“访问控制”存在固有风险,且wanghua已经享有了授权用户权限的结论。
参考文献:
[1]王会金,刘国城.COBIT及在中观经济主体信息系统审计的应用[J].审计研究,2009(1):5862.
[2]阳杰,庄明来,陶黎娟.基于COBIT的会计业务流程控制[J].审计与经济研究,2009(2):7886.
[3]张文秀,齐兴利.基于COBIT的信息系统审计框架研究[J].南京审计学院学报,2010(5):2934.
[4]谢羽霄,邱晨旭.基于COBIT的电信企业信息技术内部控制研究[J].电信科学,2009(7):3035.
[5]黄溶冰,王跃堂.商业银行信息化进程中审计风险与控制[J].经济问题探索,2008(2):134137.
[6]金文,张金城.基于COBIT的信息系统控制管理与审计[J].审计研究,2005(4):7579.
[7]陈安,陈宁.数据挖掘技术与应用[M].北京:科学工业出版社,2006.
[8]李也白,唐辉.基于改进的PE-tree的频繁模式挖掘算法[J].计算机应用,2011(1):101104.
[9]邓勇,王汝传.基于网格服务的分布式数据挖掘[J].计算机工程与应用,2010(8):610.
[10]肖伟平,何宏.基于遗传算法的数据挖掘方法及应用[J].湖南科技大学学报,2009(9):8286.
[11]孙强.信息系统审计[M].北京:机械工业出版社,2003.
[12]苏新宁,杨建林.数据挖掘理论与技术[M]. 北京:科学技术出版社,2003.
Risk Control System of MesoInformation System Audit:From the Perspective of COBIT Framework of Date Mining Technology
WANG Huijin
(Nanjing Audit University, Nanjing 211815, China)
关键词:学业预警系统;B/S架构;数据挖掘;.NET技术
中图分类号:TU 文献标识码:A文章编号:16723198(2012)10016401
1绪论
1.1 选题背景
由于各方面的因素,每年到了毕业的前夕,仍有相当比例的学生不能完成基本的学分绩点,从而不能正常地毕业。学校为了使这些学生能够顺利地毕业,采取了“清考”等措施,但这些措施是被动的,带有较大的负面影响,并且也增加了教学成本。
为了解决这一问题,学校提出了学业预警系统,但目前的学业预警系统仅仅提供了学生的成绩,而没有有效地信息技术支持,需要人工来查找和发现学分绩点过低的学生,使得这种预警系统的效率不高,达不到学校的预期目的,仍不能有效地消除“清考”现象。
1.2 本课题研究的主要内容
本文是以学分制下学生培养方案和学生成绩数据库为支撑,依托数据挖掘技术的有关方法和实施工具,自动搜索数据库,并根据关联规则对学生的课程学习进行预测,从而更加智能的对学生的学业进行深入的研究,并根据专家系统对每个学生的相关信息进行分析给出相关的建议。
1.3 文章结构
第一章讨论选题背景和主要研究工作及全文结构。
第二章是系统需求分析,提出系统要实现的功能。
第三章主要介绍学业预警系统的总体设计思路、系统的框架结构等。
第四章对系统实现过程中用到的系统软件产品的选择做了简要说明。
第五章为结束语,总结论文所开展的工作和下一步工作设想。
2系统需求分析
2.1 系统总体目标
学业预警系统的总体目标:本系统能够自动录入学生学业信息,并根据学生已修课程给出相关课程的预测成绩,并能自动计算绩点与平均分,如发现可疑学生数据(绩点或平均分不够)可以对学生发出预警,并且向院系工作人员及辅导员发送预警信息,督促学生学习,达到使学生能够顺利里毕业的目的。
2.2 系统可行性分析
2.2.1 技术可行性
学业预警系统所用的数据挖掘技术能够自动录入及查询信息,能够节约人力和物力,并且此技术已相当成熟,有专门的开发平台作支撑。
2.2.2 经济可行性
现今,计算机的价格已经十分低廉,性能却有着长足的进步,它已经被应用于许多领域。所以,系统所需的开发费用并不是很昂贵,然而这套系统的成功投入使用可以节约大量人力,提高信息管理的质量,也方便学校的管理。
2.3 系统需求
2.3.1 功能划分
录入信息:录入本院学生学业信息及专业培养方案。
学业信息查看:学院登录系统查看学生的相关学业信息及预警信息。
个人预警信息查询:学生登陆系统查看自己的预警信息。
预测成绩查询:学生登陆系统查看系统对自己的学业做出的预测。
用户权限管理:系统为学生及院系工作人员设置不同的权限。
成绩管理:后台操作人员对学生的成绩进行管理。
2.3.2 功能描述
图12.4 性能需求
2.4.1 数据精确度
要按照严格的数据格式输入,否则系统不给予响应进行处理。
系统管理员具有数据修改权限,其他用户在系统开放时间过后无权进入系统。
2.4.2 时间特性
一般操作的响应时间应在1~2秒内,对软磁盘和打印机的操作也应在可接受的时间内完成。
3 系统设计
3.1 系统设计的原则和目标
适应目前及今后一段时期信息化管理的要求,系统化、结构化、模块化,保证整个系统的完整性、一致性,可适时更新升级,以满足需求变化的需要。
(1)符合人们的思维习惯。
(2)便于各种事物的安排处理。
(3)易于扩展。
3.2 系统架构设计
通过需求分析学业预警系统采用B/S结构。本系统在构架上采用分层的体系结构,将软件分为三个层次,表现层(Presentation)从用户收集信息,将用户信息传送给业务服务层;Web层用来响应浏览器客户发来的请求,并调用业务层组件,将业务层组件返回的结果发送给浏览器客户;数据层(Data)提供接口进行永久数据的存储。
3.3 数据库设计
根据学业预警系统需求分析,设计对应的数据表:
(1)学生信息表:存放与学生信息相关的信息数据。
(2)专业培养方案表:存放与专业培养方向相关的信息数据。
(3)学生学业表:存放学生的详细学业信息数据。
(4)院系信息表:存放有关学生所属院系的基础信息数据。
(5)管理员信息表:存放管理员的相关信息数据。
3.4 小结
本章首先提出了系统总体设计时遵循的设计思想即符合人们的思维习惯、便于事务的安排、易于扩展、便于人工干预,并按照上述设计思想,在确定了学业预警系统功能的结构基础上,对与系统相关的数据库表做了介绍。共设计了5个数据库基本表,各表之间通过外键连接。
4 系统实现
前面我们阐述了学业预警功能的需求,这里我们选取几个相关功能对管理功能的实现进行详细描述。
4.1 开发平台的搭建
CPU:Intel PentiumD 925
内存:DDR 400 1G
操作系统:Microsoft Windows Server 2003
开发工具: Visual Studio 2010
数据库:SQL Server 2000
4.2 用户权限设计
4.2.1 基于角色的访问控制策略
安全访问控制策略占据着至关重要的作用。为了保证资源的安全,系统一要确认使用者的身份是否合法:二要判定该使用者是否有权使用或更改某一项信息资源。基于角色的访问控制策略简单来说就是在用户(user)和访问许可权限(permission)之间引入角色的(role)的概念,把用户和权限通过角色联系起来,用户被赋予某种角色,也就拥有相应的权限。
4.2.2 身份验证
本系统中用户身份信息是由以下字段组成:用户登录账号、密码,这些字段在数据库中作为一个数据表,用户每次登录时,需输入登录账号和密码,采用表单提交用户输入的账号和密码,并通过数据库访问该数据表,进行身份标识与鉴别,并利用数据验证控件进行验证。
4.2.3 授权
授权是指准许或拒绝特定用户访问资源的过程。在该体系结构中,授权主要包括两种方式:“模块访问安全性”和“模块功能操作安全性”,且这种两种方式都是基于用户所隶属的角色来实现的。
5 结束语
本文对学业预警系统的总体规划、需求分析、系统设计等方面进行了详细研究。通过研究,加深了对各种开发模式的了解,初步了解了实现三层客户机/服务器模式的系统开发技术。
参考文献
[1]陈晓红.管理信息系统教程[M].北京:清华大学出版社,2003.
[2]任泰明.基于B/S结构的软件开发技术[M].西安:西安电子科技大学出版社,2006.
[3]彭东主.SQL Server 2000应用开发技术指南[M].北京:清华大学出版社,2000.
在江苏省政府2003年度公派留学计划“访问学者”项目资助下,我于2006年3月~2007年2月对美国德雷克塞尔大学(Drexel University)进行了访问研究。在美期间,我观摩了信息科学与技术学院信息处理专业、软件工程以及工程学院计算机科学与技术系计算机科学专业的软件工程、数据结构、数据库及数据库管理系统、高级人工智能、数据挖掘、数字图书等的教学,接触了导师所申请到的美国国家自然科学基金课题和宾夕法尼亚(PA)州的研究基金课题(NSF Career Grant IIS 0448023;NSF CCF 0514679;Dept of Health Tobacco Settlement Formula Grant, PA, No.240205 and No.240196; Dept of Health Grant, PA, No.239667),参与了博士生的研究指导活动和每周的专题学术研讨会,并撰写了7篇研究论文(后来陆续在国际学报Kybernetes、国际学术会议上公开发表),取得了圆满的访问成果。
采用计算机科学技术、现代信息技术和新的数学理论和工具处理复杂的信息,从各类文本、数据、表格、图像、视频等浩瀚的数据海洋中挖掘规律,发现有用的潜在知识,指导人们进行科学分类、预测、决策,是多年来美国及国际计算机、信息科学和数学家一直在探索的研究领域。知识获取、知识表示和智能化的人机交互,甚至实现计算机可视化信息处理,建立新颖的知识库,从而获得领域信息和知识分析结果,将有助于商业活动、生物信息处理、蛋白质结构分析、科技研究动态分析,有助于科学家在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据,探讨和预测学科知识的发展前沿,准确把握学科研究方向,从事科学创新和研究。
多年来,我一直在智能信息处理这一研究领域进行探索。这次联系到美国德雷克塞尔大学信息科学技术学院Tony• H教授,在他的指导下进行数据挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授现担任国际学报《Data Mining and Bioinformatics》和《Granular Computing》等的主编和国际粒计算会议的程序委员会主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等内容,是近年来在世界智能信息分析中最具特色和影响力的研究领域。从2000年至今,他在这一研究领域中发表的研究论文达60多篇,出版的研究专著为3部。在为期一年的时间里,我与Tony•H进行了很好的合作研究,采用新的研究方法,对前沿领域进行了有益的探索研究,并接受了Tony•H等教授们的研究思想、研究方法、教学思想和教学方法的熏陶,对相关课程的教学方法、教学手段、教学组织方式进行了深入的交流和探讨。此外,我还以志愿者的身份参加了在美国举办的两个大型的全球性国际会议:美国工业数学联合会举办的2006年国际知识发现与数据挖掘会议(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);国际知识发现和数据挖掘会议(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
这次访问研究使我开阔了眼界,接触到很多当今信息科学研究领域中最先进的思想和方法。对Rough Set Theory、Data mining、Bioinformatics等前沿性探索和预测的科学研究也有了更深入的认识。同时,能够有机会和这一研究领域的世界知名专家和教授进行面对面的学术交流与探讨,参加各种类型的学术研讨会,我觉得受益匪浅。我所感受的学术氛围、学到的教学思想和教学方法是一笔宝贵的精神财富,我会将他们直接应用到自己的教学和科研中。下面就我在访美期间印象深刻的几件事谈谈体会,以期对我们的工作有所启示。
2优秀的学习环境
2.1优美的校园环境
我所访问的德雷克塞尔大学地处美国费城的市中心西部,紧邻世界著名的宾法尼亚大学(世界上第一台电子计算机ENIAC在这里诞生,现在这里还保留有部分元件的展览)。虽然离市中心较近,校园也没有围墙与外界明显隔开,由跨南北东西几条街和大道的建筑组成,但校区及周边环境寂静优雅。校园中央有一座代表性的龙雕塑,路边插的许多旗杆上挂着印有龙的图案和Dragon字样的杏黄校旗,几只松鼠在校园内的树上自由地跳跃活动,小道边或树下都设有长凳,供教职工或学生休息、讨论。
教学楼、实验楼、办公楼、图书馆、体育馆内中央空调处于恒温状态,非常适合工作学习。每栋楼的大厅或较宽的走道边的墙壁上都贴有各种名言及名画,营造着好的学习环境,渲染着极其重要的文化氛围。大厅内布置有椅子和圆桌,在上课、实验或面谈之前,教师或学生可在此休息等待,这一点的确做到了以人为本,给我留下了十分深刻的印象。
体育馆内各种体育设施齐全,如健身、跑步、球类等,全年对学生免费开放。游泳也只需支付少量的费用(3个月只需25美元),全天多时段使用。
9月迎接新生、校际间的篮球比赛等活动举办得井井有条,充满生机。
2.2完备的信息化建设
首先,信息化建设表现在数字资源的建设上。图书馆大厅内设有很多计算机,学生可在此上网浏览,查阅资料。书架周边靠墙处设有自习的桌椅,供有网络插口,学生可链接自己的笔记本电脑。图书馆资料丰富,如果在本馆找不到相关资料,也可请图书管理员在馆际间查找,将返回的电子文档通过邮件发送到学生校园网内的电子邮箱中,十分方便。
校园无线网覆盖了整个校园,教室周围也预设了网线插口,在教室内上课或自习的学生均可免费无线或有线上网。在校的本、硕、博学生都有自己的校内学号,凭该学号可直接在自己的实验室登陆校园网的电子图书馆,查到仅在校园网上提供的论文资料。学生还可从校园网中心服务器上下载以学校或机构名义购买的正版软件,这一点国内很多高校还没能做到。
其次,信息化建设也体现在师生信息素养的建设上。无论在信息意识、信息知识、信息能力,还是在信息道德上,师生们都显现出十分成熟的高水平。良好的信息化数字资源建设为师生的教学科研提供了良好的保障,师生们利用简单的搜索机制或便捷的馆际服务就可查到需要的资源。虽然本校师生可从校园网上下载正版软件,但每个人都遵守不宜外拷的基本原则,这也体现了良好的信息素养。
3教师教学与学生学习
3.1教师教学情况
美国高校一般一年分为4个学期,每个学期大约3个月。按照校方的要求,每个教师至少3个学期要有教学任务,而且必须在每个学期完成平均3门课程的教学,个别教师甚至在一个学期要承担4门课程的教学任务。一门课的教学约32学时,这样,每个教师每学期(一学期不到3个月)约完成72~96学时的教学工作量。除非有科研课题,可以用科研任务充抵教学工作量,否则,教学任务就是相当饱满的。除了承担教学工作外,每个教师还要承担科研、指导硕士及博士生进行研究的工作。年轻教师除了要完成教学任务,还要进一步深造,提高自己的学位和水平。教师的教学情况由学生来评价,学生填写调查表格,收齐后交由学院教学秘书统计,最后由学院将统计结果通报给教师本人,类似国内高校的学生评教。所以教师同样很有压力,他们对教学一丝不苟、敬业,并非普通人所想象的美国教师工资高、工作轻松。
在课下,教师必须将所授课程的内容介绍、大纲、演示文档资料、习题等组织好,全部挂在校园网的个人主页上,以便学生随时浏览。备课、批改作业、设计实验题目等各个环节,教师都要十分认真地对待,每周有一次约定学生到办公室进行问题讨论或答疑,保证教学任务圆满完成。教师对实验项目的设计循循善诱,既不是全盘托出,也不是仅给一个题目,让学生冥思苦想地琢磨。除了将学生建立成团队,教师还布置与课程相关的大量文献和资料阅读,并要求学生写出读书报告。对于课程结束或评定成绩用的大作业,甚至要求每个学生制作成演示文稿,并加以汇报、讨论。我看到一位叫爱德华(中译名)的老师,他承担了数据库、软件工程等多门课程的教学任务,每天都在办公室工作到很晚,有时甚至在教学楼大厅的休闲式自习间伏案研究。
在课上,每门课程开始的第一节课,教师就将学生分组,形成一个一个团队。在布置学习和研讨课题后,教师要求学生先独立思考,不明白的东西可在团队内讨论,有问题还可及时问老师。也就是说,每门课都在培养学生的团队协作精神。教师在课堂上的演示文稿经过精心准备,图文并茂,层次分明,令人赏心悦目,但他们也不完全拘泥于演示稿,也在黑(或白)板上演绎关键的内容,突出重点,使学生感到他们备课充分,对教学内容十分精通。
3.2学生学习情况
在美国读书的学生,普遍感到课外阅读任务较重。学生不光要学好课内的基本教学内容,还要阅读文献,查找与主题相关的资料,并加以整理、归纳、汇总。这培养了学生自主学习的意识,清除他们完全靠老师课堂讲授的依赖心理。
课堂上,学生们会踊跃发言,认真记笔记,回答老师的提问,在老师的引导下完成课堂练习。下课后,学生到图书馆查阅资料或自习,也会在网上下载老师在主页上布置的作业,按时完成后及时提交给老师批改。如在课程结束时,教师会给学生布置大作业,学生要在一定时间内当面交给老师,并接受面试提问,作为考查依据的一部分。在接到作业任务后,学生要认真对待,完成后连带其他作业一起交给老师。老师根据学生的总体完成情况给出五级分制的成绩。
我曾遇到一位硕士生,她就接到这样一个大作业。老师给的任务是一个较大的程序,要求她调试运行通过。经过一周的调试,程序始终没能运行成功。在快要到期时,她正好碰到我,听说我是从事这方面教学工作的,就向我请教。我很想了解美国教师采用什么样的教学方法,出什么样的题目让学生做,于是答应帮他。我仔细阅读分析和反复测试网上下载的源代码,终于找出了问题所在。原来老师在程序中故意预设了两个问题,这是学生在学习此类程序设计语言时容易忽略或犯错的问题,程序在编译中并不报错,但就是运行结果不正确,得不到期望的结果,学生找不到出错的地方,感到很困惑。经过修改,程序很快调试运行通过,进一步优化和调整后,她交给了老师。老师看了她的程序运行结果,并问了她的体会,得到非常满意的回答后,表示十分高兴。
其实,这就是教师在主导学生去主动学习,自己找资料,自己研究问题,形象地讲,就是“逼”学生好好学习。这样可以解决学生遇到较难问题时无从下手的迷惑,循循善诱他们找到解决问题的方法,避免了“越俎代庖”。
4 硕士生和博士生的培养过程
在硕、博研究生的指导过程中,如何对学生加以良好的指导,始终是困扰国内外导师们的问题,至今仍无绝对规范。
从导师与学生一见面,指导工作就已开始。导师一般提供很多必要的帮助,如帮助开设相互联系的校园邮箱,确定联系方式和时间,根据学生的知识结构制定研究方向等。作为一项基本约定,指导教师每周要有一个下午与学生见面,由学生汇报学习和研究情况,导师当面给出指导意见。导师有时还会帮助学生查找并提供最相关的研究论文或资料,必要时将研究论文的电子稿发送给学生,甚至将论文复印件放在学生的信箱中――这绝对有别于国内有的指导老师因兼职过多或担任其他职务,指导缺乏或持久不到位现象。这种指导方式加强了导师与学生的交流,也便于将学生引导到相关研究领域的最前沿,而导师也始终站在研究的最高点。而通过不断的交流和指导,学生能很快系统地了解相关领域的研究进展,较早找到问题的抓手,有兴趣地开展有意义的研究,往往容易产生创新型成果,包括理论和应用性实验成果等,并能。
当学生或导师认识到某个研究点的价值所在时,就会着力加以深入研究。如导师要求学生认真阅读研究后再来参加讨论,甚至有时要求学生将讨论内容制成演示文档讲解,这样他们对重要的概念和研究结果的掌握就会更加透彻,文献跟踪程度和研究思路水平就会得到提升。这种有意识的训练大大强于“散放式”的指导方式。
5良好的学术氛围
学科建设和课程教学离不开学术研究。在德雷克塞尔大学,给人留下深刻印象的就是每个教授(正教授、副教授和助理教授)都将自己的研究方向和最新论文或成果以一幅画的形式贴在工作室的外墙上,上面有个人简介、主要方法和结果说明。这样就打出了自己的招牌,便于他人了解自己。此外,每个教授甚至普通教师都在校园网上建有自己的主页,对自己的教学科研工作进行介绍,并将研究论文、著作等目录列在其中,便于与他人交流或沟通。教师也经常根据教学内容联系国际国内的专家做学术报告,始终用新知识武装学生的头脑。
重视营造活跃的学术氛围,并使学术交流制度化、经常化,是我在美做访问学者期间感受最深的一点。每个系或学院基本上每周都举办1~2次学术研讨会,主讲者有来自世界各地的专家教授,也有某个研究领域资深的校内教师。每次学术研讨会的时间大都定在中午12:30,12:00就开始提供免费的午餐。这样既充分利用了时间,又解决了听报告者的午饭问题,也通过免费午餐吸引了不少听众,特别是一些来自第三世界国家的“穷”留学生们。通过网上邀请,大多数感兴趣的学生甚至老师都会来参加研讨会,在这里了解一些最新的研究进展和报告人的研究思路,并能与主讲人交流自己的研究体会,视野随之开阔,思想也随之富有。有时,一些大的跨国公司或政府部门(如安全部门)的技术专家也被邀请来做专题报告,这样学术交流的氛围就比较活跃,研究工作也不会是一潭死水。
6结语
在美国德雷克塞尔大学访问进修一年,我目睹了该大学在环境建设、教学科研等方面的好的做法,开阔了视野。回国后,我给我的学生们讲解我的所见所闻,也给他们留下了深刻印象。这次进修不仅使我在业务上得到进一步修炼,也获得了不少“精神财富”,如下所示:
(1) 抓实抓好教学工作的每个环节,是高校教师的永恒主题。任何一个环节,如教学方法、教学手段、实验项目设计、主导学生学习、提出学习要求、组织讨论答疑、批改作业等方面的提高,都会大大提高教学质量和教学效率,取得事半功倍的效果。
(2) 指导学生方向和过程并重,确保处于研究前沿。指导学生,特别是硕、博士生的导师,不仅在一开始就要帮助学生确定研究方向,而且要定期开展学习检查和交流活动,必要时还要为学生提供前沿性的研究论文或资料,以便将他们早日引导到国际国内的前沿阵地,保持在高新水平上从事研究工作,取得创新性的研究成果。
(3) 创造活跃的学术氛围和良好的学习环境,是高校各级领导及教师的基本责任。只有将教师和学生置于始终向前的滚滚波涛中,教学和研究才会具有不可估量的创造力,才会在科学的道路上获得可持续发展。
参考文献: