时间:2023-02-27 11:10:36
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇数据挖掘学习计划,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
关键词:远程教育;数据挖掘;个性化学习系统
中图分类号:G434 文献标识码:A 文章编号:1007-9599 (2012) 12-0000-02
目前网络远程教育的普及使得优质教学资源突破了时间和空间的局限性,使得终身学习成为可能。而当前网络教育的开展,也出现了种种弊端:技术方面,多以教学资料呈现形式的转换为主,只是书本搬家而缺少一定的交互模式;而其不同学习进度、不同兴趣、个性化的学习需要基本不能得到一定的满足,无法因材施教。因此,网络教育需要强大的技术力量帮助学生迅速高效地搜寻到满足其个性要求的教学资源,并对其学习整个进程进行正确指引与科学评价。本文试图设计一种系统模型,利用数据挖掘技术来改进当前的网络教育模式,对每一个学生都提供个性化的学习进程,达到一下学习要求:
学习系统可依照与当前登录学生相似的学生的学习步骤自动的对其后续目标知识进行预测和推荐
针对学生的学习过程进行过程性考核,并依据成绩动态改变学生的学习与练习进程,对此学生的掌握不好的地方进行再次督学
本文依据以上目标,构建了基于Web的个性化学习系统模块(Web-based Personalized Learning Core System 下文简称WPLCS)来满足远程教育中学习者个性化学习的迫切需要。
在该系统核心算法的选型上锁定了数据挖掘技术来构建WPLCS。下面图1便是基于网络的个性化学习系统核心模块(Web-based Personalized Learning Core System)数据挖掘引擎的基本架构:
数据挖掘技术是从多样的、无序的数据中,抽取提炼出有用的信息的过程。因此数据挖掘技术被广泛商用。但在教育领域中应用此技术,就不能简单的套用一些商用模式,因为电子商务中的服务器端在进行数据挖掘时只需知道大量的用户在访问了A页面后又去访问了B或者C页面,证明他们对B、C页面有潜在的兴趣,从而向访问过A页面的用户的客户端动态的推荐B、C页面,以此来达到个性化引导客户访问的目的。
而在网络教育中,若系统锁定学生感兴趣的知识和关注知识页面的时长等信息,不但可以依据此信息灵活地改变练习和考核进程,还可重构网站结构减少网络响应时长。与此同时,在设计网络课程的页面时,力图使嵌有某些特定知识页面和网络课程中的知识点形成映射关系,也就使得系统能够清楚标记出学生对于知识的掌握情况。从而在数据挖掘过程中能够做到以知识点为导向。
WPLCS利用数据处理模块将系统的用户访问日志文件和数据库构建出一个学生基本特征数据仓库,再在此数据仓库的基础上,利用多种数据挖掘算法进行挖掘从而形成学生个性化数据挖掘库。
数据预处理
本阶段首要找准挖掘数据源,本文遴选出系统服务器中的日志文件和系统数据库数据作为数据源。抽取数据源数据形成挖掘库,即学生特征数据仓库。
服务器访问日志的预处理
学生从登录到系统服务器开始,便在此服务器上留下相应的日志文件。它包括登录学生的IP、URL、Cookie等信息。首先抽取网络日志中的信息,再清洗数据缺值等脏数据,最后识别学生的IP及登录Cookie值,合并同一个学生的访问路径请求,将时间跨度大的URL进行相应的区分和记录。
构建数据挖掘库
匹配系统数据库预处理后的数据和服务器访问日志预处理得到的数据,构建出数据挖掘库,即学生特征数据仓库(学习者标识、个人信息、学业信息、偏好信息等)。
数据挖掘
综合考虑不同数据挖掘算法有不同的特点和弊端以及前文所述的个性化学习的要求,在选择数据挖掘算法时,本文选取了序列模式、聚类、关联规则发现等不同算法,并将其有机结合。为了精确匹配当前学生特征模式与规则前项,力争较高的推荐准确率,采取了基于关联规则的挖掘方式进行学习页面推荐;为了得到更高的推荐覆盖率,采用基于聚类分析进行推荐。综合了两种数据挖掘算法的优势,从而改善了推荐的测度。本文将学生特征数据仓库中的数据传送到数据挖掘核心模块来进行数据挖掘,得到的数据再存放到学生个性化数据仓库来完成整个数据挖掘的全过程。
关联规则发现
关联规则发现,即寻找数据项之间的联系规则。在服务器访问日志数据的预处理过程中,将学生访问的页面路径组成了学生访问session集,我们可以利用关联规则挖掘得到学生访问请求间的关联规则。其中比较简单的一种规则为:访问了A页面的学习者中,有60%又访问过B页面。得到这种初始化关联规则后,再通过用户访问页面与知识点的一一映射关系,我们就可以推理出更加实用的规则模式,即确定在学习过A知识点的学习者中有60%的人对B知识点表现出一定兴趣。得到这种有用规则后我们即可对所有访问A页面的学习者的页面上加上B页面的推荐链接,方便学习者导航。
聚类
聚类,即将数据划分到不同的类中,类间的差别尽可能的大,类内的差别尽可能的小,聚类分析实现并不知晓将要划分成几个类,而是利用系统服务器自动化、智能化的计算而得。产生出不同的类后,某学生的特征模式一旦符合某个类后,系统推荐引擎会自动将此学生未来可能访问的页面链接推荐给学生。由此就可以智能化地将处在不同学习阶段的学生匹配到此类本该获得的学习和考核进程。
序列模式
与关联规则发现相仿,序列模式是将数据间的关联性与时间相联系。在实际挖掘过程中,我们可以得到下列序列模式:在学习过B和C两个知识点的学生中有81%的学生在若干天后进行A知识的学习,并且在此过程中大量地频繁访问A2、A5、A7、B2等知识,而且对这些知识点的掌握情况开始下滑。因此我们可以及时干预在此时间段所有学习过C、B知识点的学生,将一定量的练习和测试推荐给他们,帮其熟练掌握上述知识,从而达到因时施教的目的。
作为一种新的教学手段——基于Web的网络教育,当前正方兴未艾。本文旨在通过计算机数据挖掘技术构建出一个智能化的基于网络的个性化学系统,以此来辅助完成对不同学生的个性化教学。从而充分发挥网络教育的优势。
参考文献:
[1]W.H.Inmon 《Building the Data Warehouse》 John Wiley & Sons,Inc. 1996
Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒体技术公选课面向全校各年级各专业本科生开课,因此选修本课程的学生来源较复杂,其计算机基础参差不齐。过往统一步调的授课模式满足不了不同层次学生的需求,所以从2011年开始,本门课程实施教学改革,以多媒体技术在线学习平台为基础,结合课堂授课开展个性化教学,把多媒体技术包含的四大媒体技术课程:图像处理、音频处理、视频处理和动画制作做成讲座的形式,每一门课程分别包含两到三次的讲座,学生根据自己的情况选听选学。每门媒体技术不同难易度的学习资料都放在学习平台里,学生可以自由选择学习资源,并通过网络或课堂与同学和老师进行学习交流。考核方式为每一门课程最后一次讲座讲完后在学习平台上进行随堂考试,要求每位学生至少选考其中三门。本门课程期末考试也在学习平台上进行,要求全体学生都必须参加。本教改实施五年来,学生反应良好,同时多媒体技术学习平台网站上存在着大量学生成绩和教师教学及管理过程中的相关数据,那么这些数据之间存在着怎样的联系,是否蕴藏着教与学之间的知识和规律?由于数据挖掘技术能够发现隐藏在海量数据中的潜在联系和规则,从而预测未来的发展趋势[1],因此我们把该技术引入学习平台中的信息资源管理系统,把大量积累的教学基础数据建立数据仓库[2],在这基础上运用数据挖掘手段从中快速准确地提取出重要的信息和有价值的知识,找出影响学习成绩的因素,为进一步改善个性化教学的教学质量提供数据支持和决策参考。
1 数据仓库多维数据模型的建立
数据仓库的逻辑数据模型是多维数据模型。目前使用的多维数据模型主要有星型模型和雪花模型。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表[3]。雪花模型是对星型模型的扩展,将星型模型的维度表进一步层次化,原来的各维度表被扩展为小的事实表,形成一些局部的层次区域[3-4]。建立本课程数据仓库时,为了减少数据冗余,改善查询性能我们采用雪花模型结构,如图1所示。建立以学生选课为中心的选课事实表,三个主维度表“学生表”、“成绩表”和“时间表”分别通过“学生键”、“成绩键”和“时间键”与事实表直接关联。其中,主维度表中的“学生表”和“成绩表”都有各自的二级维度表,与事实表间接关联[5]。
2 采用Apriori算法的关联规则挖掘
关联规则用于揭示数据与数据之间未知的相互依赖关系,即在给定的一个事物数据库D,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的支持度和可信度分别高于用户给定的最小支持度(min_sup)和最小可信度(min_conf)的关联规则。关联规则挖掘算法归结为下面两个问题:(1)找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),即频繁项目集(Frequent Item Sets)。(2)使用步骤(1)找到的频繁项目集,产生期望的规则。两步中,第(2)步是在第(1)步的基础上进行的,工作量非常小,因此挖掘的重点在步骤(1)上,即查找数据库中的所有频繁项目集和它的支持度[4]。本课题对多媒体技术课程学习平台中所有考试成绩进行关联规则挖掘,采用Apriori算法查找频繁项目集。
Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:
1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。
2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。
3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。
4)再次扫描数据库D,计算Ck中各个项集的支持度。
5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潜在频繁项集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:SL-S[4]。
本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。
设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。
挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。
本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。
从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。
最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。
从图中可以看出,这个类别的学生主要来自文科方向的专业,年级分布差异不大,大四所占百分比稍微比其他三个年级略高,有可能是学生们最后一年为了修满选修课学分而选了这门课,目的是混个及格拿到学分,因此学习积极性和学习态度不佳,导致大部分成绩徘徊在60来分。还有一种可能性是大四学生毕业在即,需要写简历找工作,做自我介绍作品等,觉得掌握一些多媒体技术可以作为辅助工具因此选了本门课程。可惜有效学习时间明显不如前三年充足,加上文科方向的同学计算机基础和软件学习能力较理工类学生薄弱,因此成绩不太理想。
关键词:方剂;肺系疾病;数据挖掘;化学成分;配伍
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2013)01-0028-03
随着大气污染、人口老龄化、吸烟等因素,肺系疾病(呼吸系统疾病)的发病率呈上升之势,已经成为严重危害我国人民身体健康重要因素之一[1]。中药尤其是复方对肺系疾病具有较好疗效,古代医籍文献对肺系疾病的治疗方剂记载颇多,近年来,有许多学者对这些方剂的有效部位进行研究,以探索其作用的物质基础。本研究利用数据库及数据挖掘技术对古代医籍
基金项目:山东省博士后创新项目专项资金(201102036)
文献所记载治疗肺系疾病的方剂进行了分析和数据挖掘研究,探索方剂组成中药物化学成分类别的构成情况及可能的配伍关系,以期为治疗肺系疾病方剂的临床应用、物质基础研究与组分配伍研究提供参考。
1 资料与方法
1.1 处方来源、筛选标准与标准化处理
本研究以《中医方剂大辞典精选本》[2]作为方剂基本信息来源。参考《中华医典》[3]、《方剂学》[4]。
本研究所筛选方剂满足以下要求:①《中医方剂大辞典精选本》所列治疗肺系疾病的方剂(以下简称“肺系方剂”);②有针对肺系病证功效的描述,如“清肺”、“润肺”、“温肺”、“敛肺”、“补肺”、“泻肺”等,或“止咳”、“平喘”、“定喘”、“化痰”等;③方剂主治病证中含有“肺痿”、“肺痈”、“肺胀”、“肺痨”、“咳嗽”、“哮喘”等;④药味≤6味;同时,要求方剂包含的信息较完整,方名、组成、功效、主治各项齐备,有较系统的化学成分研究。所有中药名以《中华人民共和国药典》[5]与《中华本草》[6]记载的正名(即目录名称)为准。
化学成分类别构成的文献资料来源于中国期刊全文数据库、中文科技期刊数据库以及美国化学文摘(CA)数据库,分别以中药的中文名、英文名、拉丁名进行化学成分的资料检索。
1.2 数据分析方法
1.2.1 频数及频繁项集 ①进行处方中中药数据信息的频数与频率分析。数据的频数分析是一种描述性统计分析[7],包含频数与累计频数两个参数,其中累计频数是依次累计得到的各组频数之和。本研究通过频数分析挖掘处方组成药物的化学成分类别构成情况,其中方剂化合物类别频数是组成药物中含某类化合物的方剂出现的次数,在本研究中累计频数采用向下累计频数,即由频数值高的组向频数值低的组依次累计频数,主要反映组成中药含某几类化合物方剂的频数和在总体频数中所占的比例。②进行频繁项集分析。频繁项集是数据挖掘技术中的一种常用方法,指的是支持度大于或等于用户指定的最小支持度阈值的项集[8]。在本研究中,项集是指处方方剂组成中药化合物类别的集合。通过频繁项集挖掘分析处方中含2类及2类以上化合物类别组成方剂的集合。
1.2.2 关联分析方法 采用关联规则[9-10]挖掘方剂中不同类别化学成分之间的关联关系,即发现处方中组成中药所含化学成分类别之间出现的关联关系强弱。其中支持度是组成中药中含某类化学成分的方剂及其集合(前项)与其他组成中药中含某类化学成分的方剂及其集合(后项)同时出现的频率,亦即前项与后项同时出现的方剂数与总的方剂数的比值。置信度是前项出现时,后项中药出现的概率,亦即前项与后项同时出现的方剂数与只有前项出现的方剂数的比值。
2 结果
2.1 化合物类别构成分析
按照筛选标准,共筛选了100首方剂,各类二次代谢产物在肺系方剂中出现的频数情况见表1。通过频繁项集挖掘,两类化合物在一首方剂的组成药物中同时出现的情况分析见表2。
从表1可以看出,100首肺系方剂中有96首组成药物中含萜类化合物,95首组成药物含甾体化合物,94首含生物碱,最少的是醌类化合物,只有13首。从表2可以看出,生物碱与甾体的组合在肺系方剂中出现的频数最多,其次是萜类与甾体、生物碱与萜类。
2.2 化合物类别关联分析
采用关联规则挖掘方法,挖掘各化合物类别间的相关性,结果见表3、表4(支持度≥80%,置信度≥80%)。
上述结果显示,在肺系方剂中,生物碱类化合物与甾体类化合物、黄酮与萜类化合物关联关系非常强。黄酮、生物碱组合等大部分2类化合物组合与萜类或甾体类化合物关联关系强。说明生物碱类化合物与甾体类化合物、黄酮与萜类化合物在肺系方剂组成药物化学成分类别的构成及配伍当中具有比较重要的意义。
3 讨论
中药方剂化学成分的研究是中药现代研究的一个主要方面。对“复方丹参方”的研究,通过采用药理与化学相结合的方法,不但明确了方剂中有效成分的配伍规律,确定了丹参主要水溶性成分丹酚酸B和脂溶性成分丹参酮ⅡA的最佳配伍比例范围,为现代中药方剂的研究开创了一条新的思路[11]。本研究通过对100首治疗肺系疾病的传统方剂中药物化学成分类别关联关系的研究,发现萜类、生物碱、甾体类化合物出现频数最高,生物碱类化合物与甾体类化合物、黄酮与萜类化合物关联关系非常强。黄酮、生物碱组合等大部分2类化合物组合与萜类或甾体类化合物关联关系强。
萜类化合物是天然物质中最多的一类化合物,如挥发油、橡胶、树脂及胡萝卜素等。目前发现的在萜类化合物已超过22 000种[12],而且许多具有较强生理或生物活性的物质被应用于临床,如穿心莲内酯、甘草酸、龙脑、齐墩果酸等。萜类化合物在中药中分布极为广泛,藻类、菌类、地衣类、苔藓类、蕨类、裸子植物及被子植物中均有萜类的存在,尤其在裸子植物及被子植物中萜类化合物分布得更为普遍[13]。萜类化合物种类繁多,结构复杂,性质各异,因而具有多方面的生物活性,其中不少化合物是常见的一些中药中的有效成分,具有较为重要的生物活性[12]。现代药理研究表明,萜类化合物对肺系疾病具有明显的药效作用。Shin CY等[14]对桔梗三萜类化合物的祛痰活性研究表明,桔梗皂苷D和D3通过雾化给药,能增加大鼠上皮细胞中黏液素的释放,而且比阳性对照药品ATP和Ambroxole的作用更强;缪氏等[15]发现艾叶提取物α-萜品烯醇对哮喘小鼠气道炎症及外周血Th1/Th2平衡具有积极影响;唐氏等[16]发现单萜类化合物具有良好气管扩张和抗变态反应作用;李氏等[17]发现土贝母苷甲对肺部肿瘤细胞的细胞毒作用大于其他部位的肿瘤细胞。
生物碱类化合物同样是肺经中药中一类重要的化合物。如
麻黄中麻黄碱具有松弛支气管平滑肌、收缩血管和升高血压等作用,临床主要用于支气管哮喘、过敏性反应、鼻黏膜肿胀及低血压等病症的治疗;山豆根中氧化苦参碱可显著减轻哮喘小鼠血管、气道周围炎性细胞浸润,改善黏膜上皮坏死脱落情况,消除哮喘的主要病理基础,起到抗炎、平喘的作用[18]。
从现代药理研究的报道来看,萜类化合物、生物碱类化合物与肺系方剂治疗肺系疾病的作用是有一定关联作用的,但是萜类化合物、生物碱类化合物与黄酮类化合物之间的配伍组合能产生何种有益效应,对治疗肺系疾病能产生何种作用,是否具有特异性,有待今后的研究进一步证实。
参考文献:
[1] 韩世伟.《内经》肺系相关理论及吉林、辽宁两省部分地区肺系疾病发病节律的流行病学调查研究[D].长春:长春中医药大学,2009.
[2] 彭怀仁.中医方剂大辞典精选本[M].北京:人民卫生出版社,1997.
[3] 长沙市宏宇科技开发有限公司.中华医典[CD].长沙:湖南电子音像出版社,2008.
[4] 段富津.方剂学[M].上海:上海科学技术出版社,1994.
[5] 国家药典委员会.中华人民共和国药典:一部[S].北京:中国医药科技出版社,2010.
[6] 国家中医药管理局《中华本草》编委会.中华本草[M].上海:上海科学技术出版社,1999.
[7] Han JW, Kambe M. Data mining:concepts and techniques[M]. San Mateo,CA:Morgan Kaufmann Publishers,2000:70-79.
[8] 荣秋生,颜君彪.网格下最大频繁项集挖掘算法的实现[J].计算机技术与发展,2007,17(1):98-100.
[9] Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases[C]∥Proceedings of the 1993 ACM SIGMOD Conference. Washington DC,1993:207-216.
[10] Agrawal R, Srikant R. Fast algorithm for mining association rules[C]∥Proceedings of the 20th Very Large Data Bases (VLDB'94) Conference.Santiago,Chile,1994:487-499.
[11] 严永清.中药现代研究的思路与方法[M].北京:化学工业出版社, 2006.
[12] 李端.中药化学[M].北京:人民卫生出版社,2005.
[13] 姚新生.天然药物化学[M].4版.北京:人民卫生出版社,2001.
[14] Shin CY, Lee WJ, Lee EB. Platycodin D and D3 increase airway mucin release in vivo and in vitro in rats and hamsters[J]. Planta Med,2002,68(3):221-225.
[15] 缪卫群.艾叶提取物α-萜品烯醇对哮喘小鼠气道炎症及外周血Th1Th2平衡的影响[D].杭州:浙江大学,2005.
[16] 唐法娣,王砚,谢强敏,等.单萜类的气管扩张和抗变态反应作用[J].中药药理与临床,1999,15(6):8-10.
[17] 李彤晖,李晔,池群.土贝母苷甲靶向制剂的研究[J].陕西中医,2004, 25(3):270-271.
关键词:数据挖掘;教师培训;教师专业发展
中图分类号:TP391文献标识码:A文章编号:16727800(2012)007011302
作者简介:徐海霞(1980-),女,宁夏银川人,西北师范大学教育技术与传播学院硕士研究生,研究方向教学设计;寇艺儒(1966-),男,宁夏银川人,宁夏银川一中高级教师,研究方向为物理学教育理论。
随着教育的不断发展,教师培训已成为促进教师专业发展的一种有效途径。而培训过程中会积聚各种资源,培训结束后也会有大量的数据需要处理。本文利用数据挖掘技术发现、捕获和挖掘有效的信息资源,使分布、异构信息的智能聚合问题得到有效解决,使网络平台上丰富的信息资源得到有效利用与深度共享,以帮助培训者更有效地制定培训规划与培训策略,从而提高培训效果。
1数据挖掘的概念
数据挖掘(Data Mining,简称DM)被称为数据库中的知识发现(Knowledge Discovery in Databases,简称KDD)。有一种比较公认的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。简单地说,就是从大量数据中提取或“挖掘”知识。
这些知识是隐含的、事先未知的潜在的有用信息,提取的知识表示为概念、规则、规律、模式等形式。数据挖掘要处理的问题,就是从庞大的数据库中寻找出有价值的隐藏事件,并加以分析,将这些有意义的信息归纳成结构模式,供有关部门决策时参考。此外,数据挖掘看重的是数据库的再分析,包括模式的构建或是资料特征的判定,其主要目的是要从数据库中发现先前未曾获悉的有价值的信息。
2数据挖掘技术的选取
为进一步加强教师培训,全面提高教师队伍素质,在联合国儿童基金会(UNICEF)的资助下,中央电教馆组织实施了基于交互式电视培训课程的“灾区教师培训”项目,加快了教师继续教育学习与终身学习的步伐,基本上每位教师都参与了不同程度、不同学科的培训学习。应用数据挖掘技术将培训对象、学习内容、模块设计、作业、发帖量、培训反思等数据生成数据库,通过对这些网络平台上的数据信息进行分析,可以得到关于培训现状与效果的一些数据信息,用以改进培训过程中存在的不足。更重要的是,通过对这些数据特征的理解与分析,可以开展有针对性的培训预测。本文利用数据挖掘技术来挖掘网络平台上的数据资源,以此来达到资源深度共享,也为提高教师培训网络平台系统的完整性、协调性和高效性。
3数据挖掘在教师培训系统中的应用
在联合国儿童基金会(UNICEF)的资助下,中央电教馆组织实施了基于交互式电视培训课程的“灾区教师培训”项目。该项目是为提高四川、甘肃地震受灾地区的小学教育质量,使四川省北川县、青川县、什邡市、绵竹市及甘肃省西和县这5个县级地区的200所学校的5 000名教师和100 000 名8~12岁的小学生从高质量的教育中受益。并在教育部国家教师培训网站(省略.cn)上建立网络学习模块,实施网络学习远程指导。本文就数据挖掘技术应用于教师培训系统中的培训对象、培训内容设置、培训效果评价等几个方面进行具体分析。
3.1培训对象方面
该项目的培训对象被分成两部分:一部分为资源教师,另一部分为学科教师。资源教师在灾区教师培训中也被称为骨干教师,由各学校的校长、语文、数学、科学等主要学科带头人组成。资源教师在接受培训后,将负责组织和实施各自学校的校本培训,因而在本校的校本培训过程中是核心人物,他们所担任的角色较多,主要是为学科教师集中授课,提供网络指导,并组织、管理校本培训,与网络远程指导团队沟通协调。所以在“灾区教师培训”项目中,我们将资源教师作为一种宝贵的资源纳入教师培训发展的关键环节。利用数据挖掘技术,整理数据信息库,充分利用资源教师和学科教师在项目培训过程中的所有信息(包括姓名、性别、年龄、职务、教龄、学科、职称等)和过程性资料(在项目培训过程中资源教师的作业提交情况、网络平台注册情况、发帖情况、回帖情况、学习成绩等),在分析资源教师和学科教师特征的基础上进行信息处理和数据分析,从中挖掘出有价值的资源信息和培训信息。我们在数据库的属性中罗列出培训对象的所有基本信息,并利用数据挖掘得到了一些意想不到的数据信息,如资源教师的教龄与发帖情况有着正向联系,资源教师与学科教师的职务与网络课程学习有着密不可分的关联。通过数据挖掘,利用足够的信息迭代,修正种种问题,尤其是对资源教师和学科教师的行为、需求及其在校本培训过程中的指导研究,可为教师培训提供科学的决策依据,以此提升教师培训的效果。
3.2培训内容设置方面
随着高校办学规模的不断扩大以及学校专业的不断增多,使得学校的教育管理工作变得越来越复杂化,越来越难管理,特别是针对学生成绩信息的管理,由于学生的倍增,成绩的管理与维护工作更是艰难。做好成绩管理工作,对学校的发展有特定的实际意义,也是各个学校最为关心并且要迫切解决的重要问题,所以随着学校对成绩信息资源利用要求的提高,原本的成绩管理模式已经不能再满足学校的实际应用需求,只有设计更为有用的,能够挖掘出学生成绩价值信息中隐藏的价值,才是最符合学校应用的应用系统。
二、学生成绩管理的作用
在高等学校的发展过程中,教学质量一直都是各个高校最为关注的重点问题,而学生的成绩是各个学校教学质量优劣的一个最重要的体现,因此,如何促进学校全体学生更好的提升学习成绩,关系到学校的长远发展计划,而对学生的成绩管理分析工作,是一个系统化的工作,所以通过对学生成绩的综合分析,明确学生在学习过程中的不足,有针对性地为学生解决学习上的困难,提升学生的整体综合素质与学习成绩,不管是对学校还是生活个人都拥有非常重要的积极促进作用。
三、数据挖掘技术成绩管理分析
数据挖掘技术在成绩管理中的应用,主要体现在学生成绩分析、考试题目优化、教学评价、教学方式选择以及课程的合理设置等几个方面。
1、学生成绩分析
学生的主要任务就是学习,学习成绩也是学生在校期间表现优劣与否的最直观的体现,也是学生在校期间所学知识掌握程度的最直观的表现方式,所以对学生提供一个全面客观的评价,是学校应该拥有的责任,也是对学生最好的关爱表现方式,然而在学校的成绩管理工作进行时,通常的做法只是简单的把学生的考试成绩录入到学校的系统软件,而通过数据挖掘技术对学生成绩进行分析之后,可以充分的找出学生成绩优劣与否与学生自身、与学校环境以及教师的教学质量之间的关系,进而为更客观的评价学生成绩的高低是学生自身原因造成的还是与学校有直接的关联,为进一步的更好的学习计划的制订提供了理论依据。
2、考试题目优化
考试的目的是为了更好的检验教师的教学效果以及学生的学习成果,是教学过程中一个重要的阶段。学校在教学时,通常是以期末考试成绩为评价学生的学期成绩的一个重要标准,然而在不同的考试教学下,学生的考试成绩是不相同的,如果仅仅以成绩评定一个教师或者学生是不客观的,为了更好的评定教学效果及学生学习的成果就要发掘学生成绩高低相关的影响,是试题较难还是教师教学方式的问题,因此就需要对这些因素进行分析,以探索更为有效的方法来评价试题的难易与成绩的关系,进而为下次试卷的出题提供帮助。
3、教学评价
评定学生对新接触事物理解及掌握程度是教育工作者的一个重要职责,通过对学生学习成绩的评定,可以触发学生的学习动力,也是考查学生真实水平的一种比较有效的方式。在学生成绩评价时,教师也要注意评价内容要客观全面、评价方式多样并注重自评与互评的结果,获取成绩评价数据才是最可靠有效的。针对学校不同学生的不同成绩评价数据,可以利用数据挖掘工具,对这些数据进行挖掘分析,通过工具获取不同学生最终的成绩结果,进而可以更客观的排除人为因素对学生评价的影响,也可以对学生的不足及时给予及时指正改正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。
4、教学方法选择
不同的教师在教授课程时因为人员之间的差异,使用的教学方式也互不相同,也因此导致了学生考试成绩可能也互不相同,为了消除因教师教学方式差异给学生成绩造成的危害,就需要对不同教师教学模式下学生的成绩信息进行分析,以选择更优的教学方式实现对学生的教学,学生成绩数据挖掘技术的应用正好可以满足这一要求,通过对不同教学方式下学生成绩差异的研究,可以协助教育工作者更好的判别采取何种教学方式对学生学习才更有帮助,进而提高学生的整体学习水平。
5、课程合理设置
许多课程之间往往还存在着一定的关联关系,拥有固定的先后顺序,只有把前修课程学习完成之后才可以继续接下来的课程学习,否则会直接影响后续课程的理解与接受,影响学生的正常学习;在高等学校,通过对成绩数据价值信息的挖掘,可以利用学校成绩数据库中存放的历届学生各科考试成绩信息结合数据挖掘的相关技术进行分析,并通过相关的数据挖掘算法分析这些数据信息中隐藏的潜在的影响学生学习的价值信息,最终找出影响学生考试成绩的原因,并根据这些原因制订出相应合理的课程安排计划,为学生更好的学生服。
6、学生特征挖掘
通过成绩与环境因素的影响数据挖掘的研究,教师可以很好的掌握每个学生的学习状况,学生个人特征,并根据学生之间的不同差异,因材施教,最终把学生往更好的学习发展方向引导。为了更好的研究这一关系,可以利用数据挖掘工具,对学生学习成绩数据进行挖掘分析,通过挖掘工具的分析,不但可以获取不同学生最终的成绩结果,而且可以更客观的排除人为因素对学生评价的影响,最终对学生的不足及时给予及时校正,不但减轻了教师的工作量还克服了教师主观评价给学生造成的不利影响,为更好的营造学习氛围以及学生之间的关系提升提供了很大帮助。
关键词:数据挖掘 ICAI 智能化 辅助教学
中图分类号:TP391.6 文献标识码:A 文章编号:1007-9416(2012)11-0077-01
1、引言
伴随着计算机技术、信息技术的飞速发展,各行各业逐步进入了信息化的发展时期,而高校教育事业也不例外。由于社会经济、文化的高速发展,人们对教育质量的追求日益高涨,而传统的教学手段和模式已经无法适应这种快速增长的需求,教学环节逐步和信息化技术相结合,比如计算机辅助教学系统。然而,传统的计算机辅助教学系统依旧存在多种弊端,比如个性化、智能化性能不足。而随着数据挖掘技术、人工智能技术的快速崛起,人们将数据挖掘技术应用到ICAI中,实现了个性化、智能化的应用,大大提高了ICAI的性能和效率。
2、智能计算机辅助教学系统
2.1 概念及意义
智能计算机辅助教学系统ICAI主要依托丰富的教学资源,为学生提供不同层次的学习服务,为教师提供教学工作的管理平台。学生可以根据需要制定学习计划,然后进行有针对性的学习,教师可以对学生进行辅导工作,学生还可以根据学习进度和效果进行调整。ICAI不同于以往的计算机辅助教学系统,它具备更多个性化、智能化的功能。
2.2 系统结构
ICAI系统通常主要包括四大功能模块:知识库、教师管理模块、学生学习模块、智能管理接口。
3、数据挖掘概述
数据挖掘简单理解为“数据库中的发现”,主要是从海量的数据中提取、分析、挖掘有用的知识信息,通过发现可用的模式,来发觉可用的内涵信息,用于提供未来发展趋势的决策信息。数据挖掘的分析方法主要包括四种:分类分析法、预测、关联规则、聚集分析法。
4、数据挖掘应用于CAI
4.1 数据挖掘在知识库中的应用
数据挖掘在知识库中的应用主要表现在下述几个方面:形成知识表示、改进教学模式与策略。
(1)形成知识表示。该过程主要将知识库中的课程信息、技能信息进行分析、拆解、建模,形成一定的知识体系,然后采用人工智能技术将这些知识库转换为ICAI系统可识别的表达模式,从而形成知识表示。在此过程中,使用聚类分析法将知识信息归类,同类的知识间距大,否则间距小;同时确定知识点的类标记,方便查找。需要注意的是,此过程要符合教学规律的需要,便于为个性化教学、启发式教学提供知识信息储备。接着,通过关联规则建立知识点、题目库、项目集的关联信息。
(2)改进教学模式与策略。对学生信息库中的数据进行样本训练,将学生对知识点学习的情况作为分类依据进行分类,标记每一个学生,并且描述学生的分类特征。根据这些分类数据,可以改进教学模式和策略,比如控制学生的学习进度,还可以直接向学生提出学习建议。同时,老师可以通过从学生的聚类分析中发现规律,找出学生成绩优异、认知能力强、学习能力差、学习能力一般等级别的学生,实施个别辅导。
4.2 据挖掘在教师模块中的应用
首先使用聚类分析法对学生的学习能力、成绩进行分类,方便老师为学生提供个性化辅导,而重点就是如何进行分类。主要使用主成分分析法、聚类分析法对学生的信息进行提取、分析、描述,从而确定学生的能力分类,可以继续分解为多个能力属性的分组,形成若干小类,大类可供参考的信息包括:学生成绩信息、考核信息等。对于学生成绩来说,小类可能包括:单一科目、综合成绩等;考核信息可能包括:单一科目考核、综合考核等。综合课程的重难点特点来分析、归类学生的学习能力趋势,据此建立每类学生和对应学习指导知识库的关联关系。但是考虑到学生的基础以及课程彼此间的关联性,因此对于刚入学的学生成绩参考性意义不大,必须要借助成分分析法对学生成绩实施预处理,使用其它的分类指标进行分类,更具有科学性;同时,还可以使用样本训练中的“马氏距离”规则进行聚类分析。最终的目的是形成学生综合能力的分类,然后建立学生类分组和教学指导知识库的关联关系,方便教师为学生提供个性化辅导。
4.3 据挖掘在学生模块中的应用
学生信息的内涵较为丰富,包括基础信息、个人高考成绩信息、个人履历信息、个人喜好信息等,丰富了知识库信息。可以对这些信息进行分类,对这些类分组进行关联分析,对于综合考评学生的综合能力具有指导意义。另外,需要考虑到影响学生学习能力、成绩的因素较多,因此需要发掘潜在的因素并进行归类。可以使用数据挖掘技术中的决策树算法、关联分析法建立影响因素的实例,进行分析,然后形成关联模型。比如,个人喜好表示个人对某方面事物、知识的特别偏好,在一定程度上反应了此人对该领域的知识掌握程度,直接影响到学生综合能力的认定结果。通过对学生进行能力分组以后,然后建立学生类分组和其它知识库的关联关系,从而方便教师对学生进行有效的辅导。
5、结语
ICAI系统在未使用数据挖掘技术之前,无法适应学生个性化、智能化学习的需求。但是将数据挖掘技术应用到ICAI以后,学生可以进行自主学习的同时,还可以由老师提供个性化的辅导,可以有效提高学生的学习效果,同时还可以优化教学模式。ICAI和数据挖掘技术的融合是未来高校教学管理信息化的主流发展趋势。
参考文献
[1]贾丽媛,张弛,周翠红.数据挖掘在网络教学评价中的应用[J].湖南城市学院学报(自然科学版),2011(02).
[2]洪洁,蒋晓川.Apriori算法在学生系统中的实现与应用[J].硅谷,2011(07).
[3]袁燕,李慧.基于数据挖掘的教学评价系统研究[J].计算机与现代化.2009(11).
决定经济增长的因素很多,人力资本是其中之一。鉴于人力资本系统构成的复杂性,通过对自组织数据挖掘理论与方法的分析,阐述它对人力资本指标体系功能和模型预测功能,并强调,自组织数据挖掘理论为有效而准确的人力资本系统复杂性研究提供了有力的理论依据,为人力资本研究提供了新的思路。
关键词:
人力资本系统;自组织数据挖掘;复杂性
舒尔茨认为,人力资本是指劳动者的劳动能力(通过五个方面投资而获取)。在《人力资本投资》一书中,舒尔茨将人力资本投资的范围分为五个方面,即⑴正规教育;⑵在职培训;⑶卫生保健;⑷校外学习计划;⑸流动迁移。我国部分学者对人力资本投资估算范围主要有:侯凤云对教育、科研、文化、健康、干中学和就业迁移六种类别分别进行了测算,是根据中国的实际情况而确定的测算范围;钱雪亚对人力资本测算范围,包括教育、在职培训等类的投资。测算范围的确定与测算的结果有决定性的关系。对人力资本的测算与衡量,国内外学者未考虑到人力资本是复杂系统(人力资本的测算范围与经济增长之间存在着某种“黑箱”,即对人力资本投资所确定的人力资本存量,并将人力资本存量通过劳动(脑力劳动或者体力劳动)物化在商品当中,这个过程能够直接推动经济增长,他们(人力资本存量与经济增长)之间存在非线性映射关系。)所以,本文提出一个新的观点:“自组织数据挖掘理论是人力资本系统复杂性研究提供了有力的理论依据,为人力资本研究提供了新的思路”。
一、自组织数据挖掘理论与方法的发展过程
选择学说是自组织数据挖掘理论基础。是建立在“遗传-变异-选择-进化”的进化论原理基础上的。自组织数据挖掘算法是从一个简单的数学模型(根据面板数据或者截面数据、统计数据样本来建模)集合出发,按一定的法则(根据自己研究的目的来确定)进行组合,产生了新的中间待选模型(筛选条件),再经过中间模型进行筛选(根据数据情况而定),不断重复“遗传-变异-选择-进化”这个过程,使其“中间待选模型”复杂度不断增加(从简单到复杂逐步改进,特别是循环过程的次数),最后得到最优的复杂模型,这个最优模型就是与自己研究目的相关的模型。对于人力资本系统,其特征是劳动者(卫生保健投资维持生命的延续)、自我不断提高(教育、在职培训投资)、不断适应环境变化(迁移投资),所以人力资本系统属于自组织系统,把人力资本归于自组织系统是一个创新。所以,利自组织数据挖掘理论可以建立人力资本系统最优复杂模型。
二、人力资本形成与指标体系建立
本文采用侯凤云六种类别。所以,本文将人力资本投资内容(范围)定为教育培训、医疗保健、劳动力迁移、经验技能和科研,建立人力资本指标体系:如表1。
三、揭示人力资本指标体系功能
“竞争而产生的优胜劣汰”是生物进化过程,自组织数据挖掘建立模型过程就是从简单系统到复杂系统演化过程,本文用贺昌政自组织数据挖掘方法,揭示了人力资本存量测算因素的功能,它能够影响的因素(19个因素)中筛选出对人力资本存量测算重要影响因素,其中外准则起着关键作用,外准则就是对人力资本存量测算因素进行筛选条件,筛选条件不能对存量的结果有大的偏差,最后对偏差进行检验。偏差越小,评价模型质量较优。
在模型构造过程中,消除建模者参与而给计算机选择自由是自组织数据挖掘算法的目的。建模者仅仅要做的是提供样本数据(截面数据或者纵贯数据),外准则算法类型,只能通过选择准则的形式来影响建模的结果(选择最重要的影响因素来确定人力资本存量的结果),然而,建模者对研究对象模型的主观想象(主观性)与建模结果无关,从而保证了模型选择的客观性。例如人力资本指标体系中劳动力迁移研究。建模者要完成的工作:样本区间(1990-2014年)数据采集;算法类型:用最小偏差准则;系统输出Y:劳动力迁移指数;系统输入(可能的影响因素):x,i=1−5i,共5个变量。
用自组织数据挖掘算法,计算机自由选择筛选出的模型含3个变量:农村居民人均纯收入,乡镇企业就业人数,从业人员占总人口比重。自组织数挖掘算法通过最优复杂度原理能够对人力资本存量进行预测,是人力资本系统的复杂性研究的另一个重要内容,为人力资本存量的测算提供新思路。
参考文献:
[1]舒尔茨.人力资本投资[M].北京:北京经济学院出版社,1991:9-10.
[2]侯凤云.中国人力资本投资与城乡就业相关性研究[M].上海:上海人民出版社,2007.
[3]钱雪亚,王秋实,刘辉.中国人力资本水平再估算:1995—2005[J].统计研究,2008,(2).
关键词:Web挖掘技术;远程教育;个性化;服务
中图分类号:TP39
1 远程教育个性化学习模式
随着信息技术的发展,远程教育这种新型教育形式应运而生。现代远程教育通过网络技术、多媒体技术和现代通信技术等手段将信息技术和现代教育思想有机结合起来,它的开放、自主和资源共享等特点满足了“人人能学、处处可学”终身学习理念。
随着终身学习理念的不断深化,远程教育适应个性化学习需求越来越高,远程教育服务平台在教学设计、平台架构和资源优化上要满足对学习者实施个性化的远程学习服务。个性化学习强调学习的开放性、自主性和灵活性,这是个性化学习的主要特征。同时完成远程教育在网络环境下个性化学习需要网络技术的支撑,因此,它具有明显的技术性特征。从数据挖掘角度看,Web 挖掘技术是实现Web个性化服务的核心技术之一,建立个性化远程教育服务平台时Web 挖掘技术不失为数据挖掘技术的一个很好的选择。
在远程教育的个性化学习研究中,构建基于网路的个性化学习模式是重点。个性化学习具有开放性、自主性和灵活性特征,而基于网络的个性化学习还具有明显的技术性特征。从技术环境要素下设计个性化的学习模式,优化现有远程教育平台。主要设计目标有:(1)重构页面超链接。通过分析学生的学习需要,挖掘学生对知识的兴趣点,使需求多、访问量大的网页能够以更快捷、更有效的访问方式展现给学生,并重新优化网页超链接。(2)挖掘潜在数据关联。通过数据关联之间的重要信息,教师和教育管理者可以修改教学内容呈现形式,指导教学设计和修改测试难度系数等。(3)聚类分析提供导向。为学生动态提供浏览的建议,提供远程教育个性化服务。
2 Web 挖掘技术
Web挖掘是数据挖掘在Web上的应用。Web挖掘内容有:提取Web页面数据信息,分析页面之间的架构,挖掘站点的设计和分析用户访问信息等,是一种重要的数据挖掘技术。Web挖掘技术过程就是提取抽象的、潜在的和有价值知识的过程。Web结构挖掘、Web内容挖掘和Web使用挖掘是Web挖掘技术的三个分类。
2.1 Web内容挖掘。从内容、数据和文档中发现有价值的信息的过程称为Web内容挖掘。Web内容挖掘的对象纷繁多样,文本、图像、音频和视频等多媒体数据都可成为Web内容挖掘的对象。文本数据挖掘是Web挖掘中比较重要的技术领域,它主要针对无结构化文本,最近Web多媒体数据挖掘成为另一个研究热点,它涉及网络、多媒体的技术、数据库以及关于知识的决策等多个领域。
2.2 Web结构挖掘。分析Web组织架构和页面中的链接关系,挖掘隐藏在每个Web页面后面的链接结构模式称为Web结构挖掘。利用这种模式对网页进行分门别类、按照同一类型聚合,在此基础上寻找所需要主题的高访问量站点和核心页面,提升搜索引擎的性能。Web结构挖掘对提高页面采集效率、提升采集可信度方面也发挥很大指导作用。典型的方法有Page Rank算法和HITS算法。
2.3 Web使用挖掘。Web使用挖掘技术通过用户访问 Web 时留下的用户访问行为记录,用户会话,Cookies Logs,Web server Logs、Browser Logs、用户注册、登录、浏览等相关数据和用户在使用时与网站、其他用户之间的交互信息进行挖掘,了解用户的网络行为数据所具有的意义。Web使用挖掘有一般的访问模式挖掘和个性化访问模式挖掘两个方向。Web使用挖掘的个性化访问模式挖掘在远程教育个性化服务中发挥重要作用,主要是分析特定使用群体,比如记录使用者的登录时长和学习习惯,分析对学习资源的使用频度,为学生提供个性化教学服务提供有效的依据,提高学生对网站访问率和教学资源的使用率。
3 基于Web使用挖掘技术的个性化推荐系统
个性化推荐是指以远程教育中的学生学习需求为中心,通过信息采集和与学生交互,了解学生的学习特点,将其感兴趣的信息主动推荐给学生,个性化推荐系统是建立在Web使用挖掘技术上的一种高级智能平台,信息检索和智能系统技术集成于个性化推荐系统。
基于Web使用挖掘的个性化推荐系统分为离线准备和在线生成两部分:(1)离线准备是个性化推荐的准备阶段。首先根据用户的基础数据,分析用户的使用特性,挖掘用户的访问模式,最终得到一个模式库,包括数据预处理和模式提取。数据预处理的作用是:清洗并删除对挖掘无效的数据,提高数据挖掘的精确度,提升数据使用效率;模式提取阶段的作用是:通过聚类用户访问模式和频度序列访问模式对用户进行推荐服务。(2)在线生成是个性化推荐的服务阶段。通过目标用户使用习惯的分析, 生成动态推荐页面,为不同的用户提供个性化服务。典型的推荐系统有优化网页搜索引擎,社会网络过滤器等。
4.Web 挖掘技术在远程教育个性化服务中的应用
4.1 Web挖掘流程
Web挖掘技术能对学生访问信息进行挖掘,在挖掘信息的基础上建立起一个智能化和个性化的远程教育平台, 使不同的求学者在登录远程教育平台时能够得到个性化的教学服务。就像聘请的“私人教练”,根据学生特点进行教和学的个性化辅导。数据采集、数据预处理、模式发现和模式分析及应用是Web挖掘技术四大流程。(1)数据采集。学生登录远程学习平台,为Web数据挖掘提供大量有用的信息,如学习的个人信息、浏览的课程、访问的URL、学习的时长、资源类型的点击率等学习行为都为采集数据提供基础资料。(2)数据预处理。滤掉多余的记录,合并相关数据并将不恰当的或冗余的数据项从数据集里清除,通过会话识别和事务识别,对用户进行识别,准备进一步的数据挖掘。(3)模式发现。通过关联规则对学生学习行为和学习记录进行挖掘,发现学习者兴趣并动态地呈现给学生;根据分类聚类结果,将学生划分成不同的类型,提供给远程教育导学教师,为个性化教学设计和分类教学提供依据。(4)模式分析及应用。在经过模式发现处理后,生成的规则依旧数目庞大,呈现的信息利用率不高。模式分析就显得尤为重要,通过模式分析,进行技术处理,构建个性特征库,显现给学习者的信息易于理解和接受,应用在学习者学习过程中,为学习者提供个性化学习资源和个性化学习指导。
4.2 Web挖掘个性化服务应用
(1)在线学习。远程教育平台应用Web数据挖掘技术,经过学生数据信息采集,数据信息预处理等流程,应用适合的数据挖掘算法处理此数据信息,最后生成一种学生容易理解和接受的呈现方式将信息传递给学生。构建针对不同学生量身定做的个性化学习计划和学习方案。(2)实时教学。通过远程教育教学平台,全天候二十四小时学习成为可能,Web数据挖掘技术实时了解学习者的学习能力和学习偏好,远程教学导学教师根据这些信息有的放矢的开展实时教学。(3)智能答疑。在远程教学平台上建立智能答疑系统,可以根据学习者的访问日志文件,运用数据挖掘技术,针对学生用户提问记录、日志不断更新,调整数据库内容,智能抽取实现为学生的智能答疑。(4)实时考试。基于Web的远程在线实时考试系统,根据课程考核目标和考核内容要求,结合学习者求学目的和学习背景,提供多种试卷组合,做到难易相当、科学组卷。实时考试系统还能同步打分,实时给出考试成绩,根据学生的答题情况按试题所涉及的知识点进行统计分析,给出试卷评价信息。
参考文献:
[1]姚梦涛.基于Web日志的数据挖掘技术研究[D].西安理工大学,2010.
[2]刘彤.Web 数据挖掘技术在个性化远程教育平台中的应用[J].科技信息,2008(21).
[3]巫莉莉等.Web 数据挖掘在远程教育个性化中的应用研究[J].微型电脑应用,2010 ,26(2).
[4]闻永萍.基于WEB数据挖掘在远程教育中的应用研究[J].电脑编程技巧与维护,2011.12.