时间:2023-03-15 14:58:30
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇网络舆情分析系统,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
关键词:网络英语学习生态系统;计算机网络;情感交互
当计算机播放某多媒体程序的时候,编程人员可以他的思想及情感发出指令控制该程序的运行,而不是程序单方面执行下去,程序在接受到编程人员相应的指令后而相应的做出反应,这一过程及行为,我们称之为情感交互
人与人之间的直接沟通一般是在双向交互的情况下实现的,比方说学校的一些具体的管理行为、教学行为及其它种种交往行为。而借助传统媒体实现的师生沟通大多数是章向交互的,是教师到学生的,学生的反馈行为一般并不通过传统媒体来实现。在这个主面,网络媒体的不同之处在于,借助它可以实现师生间的双向交互,甚至可以方便地实现学生与校园围墙以外世界的双向交流。
在当前的网络教学尝试中,师生之间的情感沟通被忽视。学生与教师远远相离,客观上使师生之间的感情沟通比较困难,可是并不见有主动的工作去弥补这些缺陷。在这种情况下,学生很难与教师产生情感上的共鸣,很难产生对教师的喜欢、喜爱乃至不很过分的“崇拜”,无法指望得到这种感情对学习产生积极的影响,更不用说在学生的人格成长方面,没有教师的行为作风的潜移默化的影响。笔者认为,这就是教师对学生可以产生意义的第三个方面。这种对教师的行为“导航”和情感沟通对于促进学生学习的必要性的认识缺陷,在近期的网络教学试点工作中一直部分地存在着,直到2000年的长沙会议也没有看到任何转机。
在新的媒体群落条件下,教师除借助传统媒体向学生递送知识信息外,还增加了借助网络媒体与学生进一步沟通的机会。理论上,这些沟通作为通常面对面沟通的补充,也可以产生多方面的意义,比方说,可以指导学生的学习,也可以进一步沟通感情,增进师生之间的了解,使教师对学生产生更多人格等方面的影响,促进学生全面发展。夫子云:“师者,传道、授业、解惑也”。这个道,即有为人之道与为学之道的双重含义。在此作一个小结,在教学活动中,教师与学生的沟通可以认为在三个层面上实现意义:其一,情感沟通;其二、管理沟通;其三、知识导航与传授沟通。
网络教学发展的最终制约瓶颈是教师的注意力资源。当前,一个不负责任的流行观念就是简单地将渠道的丰富与沟通的增进对等起来,甚至混淆为一个概念。产生的观点就是网络媒体可以几乎是无限制地扩大招生人数,提高教学效率。估我国,教育事业的相对落后使得我们急于寻找效率更高,受益面更大的教学模式。这种心情是可以理解。但是经验告诉我们,指望借助某种先进媒体的作用使教育的质量和数量在一夜之间“赶超英美”是不现实的,无疑是式的天真幻想。决定教学规模及教育水平的最终制约瓶颈是教师的注意力资源,是教师的质量与数量,与之相对应的是社会的教育投入。
教师已经不能无视网络媒体的冲击,网络上源源不断的信息和源源不断的新理念迫使教师必须有所改变,在这个改变过程中,教育思想的改变也自然而然地发生了。这正是技术进步推动思想进步的一个生动例子。所幸的是,网络媒体并不仅仅是使教师陷入被动状态,它同样为教师准备了足够的自我发展空间,为教师的继续学习和提高业务水平提供了更充分的条件。网络媒体呼唤教师在新的教育思想指导下进行新的教学方法的尝试,比方说,教师不仅仅作为知识的传授者,更多地作为学习的导航者,也作为网络海洋中知识的导航者。
教师作为知识的传授者,并不仅仅是刻板地把知识灌输给学生,而是在了解学生的基础上将知识恰当有序地传授给学生。在新的教育理念下,教师更多地扮演引导者的角色,即以引导为轴线,以知识传授为内容。就是说,教师的作用在教学活动方面也可以分为两个部分,一是作为知识的提供者和传授者,二是作为知识的导航者。这第二个部分的作用正是当前流行的教育思想所要强调的。
教师的另外一层管理意义是他在教学活动中同时在承担着具体学习过程中的“管理”任务。在课堂上:教师对学生就是一个客观的近在咫尺的行为约束,这个约束在规定着学生在课堂上可以干什么,不可以干什么;教师随时对良好的主动积极的学习态度予以鼓励,随时对出现的异常现象进行分析判断,然后按照自己对教育思想及管理思想的理解予以处理。教师深入课堂的管理是整个学校管理活动的重要末梢,忽视这个末梢,管理活动将是不完善的和低效的,不能保证学习活动高效正常地进行。这种观念 在一般的教学理论中已经是老生常谈,但笔者注意到,在过去的有关网络教学的讨论中,这个问题谈得太少且经常被忽视。
总之,如上所述,教师资源所产生的意义中应该包括有管理意义上的部分,还必然有教学意义上的部分。教师在教学方面的作用也因网络的出现而受到冲击。新的媒介带来的新观念首先对一些教师的陈旧教育思想和教学习惯形成冲击,使教师对教学信息的垄断地位受到威胁,近使教师不得不重新思考,重新为自己定位,调整自己的教育思想使之与新的条件相适应;另一方面,新的媒体群落也为教师提供了一个更为广阔的学习和提高的空间,提供了更为丰富的教学信息的表达手段,使他的教学活动更能丰富多彩、引人入胜,更易于培养和激发学生的创造力。
参考文献:
【关键字】 无线传感器网络 节点 资源 能耗 带宽 路由 路径
一、无线传感器网络中基于无线节点资源的通信路由研究的技术分支详述
笔者发现现有专利申请是基于传统类型的协议进行的多个分支的改进,经过专利统计归纳,无线传感器网络中基于节点资源的通信路由研究主要分为以下四个技术分支,均衡网络能耗的路由、分簇及簇首选择的路由、降低时延的路由、安全可信的路由。
1.1.均衡网络能耗的路由分支
由于我国关于无线传感器网络的研究起步在2009年左右,所以无线传感网路由方面的研究也是如此,利尔达科技有限公司在2010年提出了一种基于连接的无线传感器网络扩散路由算法,申请号为CN201010204302。
随后高等院校也开始这方面的申请,比如有东南大学申请号为CN201210052390、南京大学申请号为CN201210398925的专利申请,并且南京大学的该申请是在分簇网络的基础之上考虑了能量均衡,有效地延长了网络生存时间。
在大量的高等院校和公司的申请同时,也有踊跃的个人申请,比如贺静个人在2012年提出了一种面向无线传感网的能量高效洪泛方法,申请号为CN201210510337,具体涉及一种在无线传感器网络中利用局部范围节点能量次序信息,实现广播树构造方法,使得均衡使用节点能量。
1.2分簇及簇首选择的路由分支
对于该分支,本领域技术人员关注如何在无线传感器网络中更合理的分簇以及利用选择的簇首进行高效的路由。在2012年,中国联合网络通信集团有限公司就如何利用簇首节点进行路由的建立,提出专利申请号为CN201210116856的申请。
随后,国内的科研院校陆续申请了关于更多兼顾网络多种性能的簇首选择路由算法,比如,中国科学院信息工程研究所,考虑了在进行高效路由时如何更好的选择簇首节点并兼顾均衡网络能耗,提出了申请号为CN201210333412的申请。
对于后续的申请量,公司申请也在陆续增加,比如中国联合网络通信集团有限公司又继续针对兼顾网络节点的状态进行基于簇首的路由算法进行了研究并申请了专利,申请号为CN201310633716。
在2012年至2014年,出现了大量的分簇及簇首选择的路由分支的专利申请,国内主要申请人为高等院校与少数公司,比如北京邮电大学、南京邮电大学、上海交通大学以及华为技术有限公司、中国联合网络通信集团有限公司,国外主要申请人为富士通株式会社、北电网络有限公司、英特尔公司。
1.3 降低时延的路由分支
无线传感器网络的某些应用通常对网络的实时性都有较高的要求,因此,在降低时延的路由分支在2010年以来陆续出现了许多专利申请,但是较于分簇及簇首选择的路由分支,该分支的申请量还是处于弱势。
并且该分支的专利申请量较为集中在高等院校,比如宁波城市职业技术学院提出了申请号为CN 201010543262,发明名称为“一种用于无线传感器网络的实时通信路由方法”的专利申请,并已经授权。
分析该分支专利申请量较少的原因为,在其他分支的专利申请多少都涵盖了时延的考虑,因此,通过去重之后的统计分析该技术分支的申请量表现较少,实际上,涉及到时延的路由专利申请量比较多,几乎占据整个无线传感器网络路由的一半以上。
1.4 安全可信的路由分支
无线传感器网络建立安全可信的路由是本领域技术人员关注的重要分支,从2011年开始,逐渐有比较成熟的专利申请,并且大多数申请人涉及高等院校,比如在2012年,申请人重庆邮电大学,提出了基于动态探测的无线传感器网络安全路由的方法,该发明采用逐点验证的方式,显著提高路由安全性,同时显著减少能耗。
2013年山东大学提出一种基于拓扑结构的无线传感网络的新型信任管理系统的信任路由算法,申请号为CN201310148141,它考虑节点安全性对路由选择的影响,依据节点的可信度是否满足约束条件来形成有效路径,更好地保证无线数据通信的安全。
在2013年至2014年涌现了大量的院校申请人,比如中国人民理工大学、西北工业大学等对该分支的路由申请了相关专利。
二、无线传感器网络中基于无线节点资源的通信路由研究的技术分支发展态势
国内无线传感器网络中基于无线节点资源的通信路由研究中上述4种技术分支的专利申请趋势如图1所示。
从图1可以看到,对于均衡网络能耗的路由分支在2008年开始至2014年,连续有较多的申请量,数量最多的集中在2010年至2014年,可见在随着无线传感器网络研究的起步,该技术分支不断得到技术人员的研究与申请。
分簇及簇首选择的路由分支在整个无线传感器网络路由专利申请量中占有重要的比例,表明适合于无线传感器网络的分簇结构,是该技术领域较为常用的网络结构,因此基于该网络结构的路由研发分支一直是本领域申请人较为关注和投入精力较多的技术分支。
降低时延的路由分支在2005年至2014年,每年都持续有申请量,表明该技术分支一直是本领域技术人员关注的领域,尽管每年的申请量不多,但是集中在2011年至2013年,申请人加大了该分支的研究与申请,表明该技术分支渐渐成为申请人的重点关注。
安全可信的路由分支在整体的申请量上还不是很多,技术还不够成熟,但是申请量渐渐集中在2012至2013年,引起了申请人的注意,可能成为今后几年的申请重点分支,可以作为后续专利申请分析的关注方向。
关键词:流星余迹通信;网络结构;混合自动请求重传;时延模型;排队论
中图分类号:TP391.9
文献标志码:A
文章编号:1001-9081(2016)11-3039-05
0 引言
流星余迹通信作为最低限度应急通信保障的一种有效手段,在通信领域中占有重要地位。流星余迹信道突发性强、通信距离远、传输速率低,而且信道具有时变衰落特性[1],这使得数据传输变得不可靠。在对流星余迹通信系统进行仿真的过程中,如何采用合适的传输机制以保证通信链路中的可靠传输,同时最大化传输效率,减少传输时延,是值得深入研究的一个问题。
自动请求重传(Automatic Repeat Request, ARQ)机制是被广泛应用于无线通信领域的差错控制技术[2]。近年来,将前向纠错控制(Forward Error Correction, FEC)机制与ARQ结合起来的混合自动请求重传(Hybrid Automatic Repeat Request, HARQ)技术得到了广泛研究[3],并被应用于流星余迹通信系统,极大地提高了流星余迹通信的可靠性和传输效率。研究流星余迹通信系统的时延性能,一个重要的方面就是分析HARQ传输机制对时延性能的影响。
目前,国内外对流星余迹通信中HARQ机制的研究[4-5]不够充分,尤其是关于网络时延性能的研究很少。文献[6-7]分别对流星余迹通信中Ⅰ型HARQ和Ⅱ型HARQ的性能进行了仿真研究,并从吞吐量、重传率、重传次数、信道利用率等方面进行了对比分析,但没有涉及两种机制下的网络时延性能。文献[8]研究了基本ARQ技术的时延性能,并进行了建模仿真,但研究结果未必适应HARQ机制的特点,而且没有在流星余迹通信的背景下进行研究,缺乏适用性。
本文结合流星余迹通信系统的网络结构以及HARQ传输机制的特点,提出了流星余迹通信中HARQ机制的网络时延模型,立足于单条链路上的数据传输过程,利用排队论的相关理论,建立了基于Ⅰ型HARQ的传输时延估算模型,并引入Ⅱ型HARQ的改进机制,进而提出了基于Ⅱ型HARQ的传输时延估算模型,最后通过仿真对两种HARQ的传输时延性能进行了对比分析。
1 流星余迹通信系统
1.1 流星余迹通信系统的网络模型
一个最基本的流星余迹通信结构由一个主站和一个从站组成,流星余迹通信网络可由许多这样点到点的通信结构组成。主从站之间通信通常采用半双工工作方式,而主站之间通信采用全双工工作方式。根据国内外研究现状,流星余迹通信系统的网络拓扑结构一般包括:单主站星型拓扑结构、多主站环型拓扑结构、树形拓扑结构和混合型拓扑结构[9]。
单主站星型拓扑结构是流星余迹通信系统最常见的网络结构,由一个中心节点和多个子节点构成,中心节点是整个网路的核心,子节点只能与中心节点通信。多主站环型拓扑结构中,主站以环形结构相联,各主站以星型结构与若干从站相联,主站节点通过点到点的链路首尾相联形成一个闭合的环,子节点之间的信息传递必须先经过环形结构。树型拓扑结构是一种层次结构,通常由一个控制级联多个主站构成主干网,节点按层次联接,信息交换主要在上下节点之间进行,相邻节点或同层节点之间一般不进行数据交换。混合型拓扑结构则是两种或两种以上的拓扑结构同时使用。
综合考虑各种流星余迹网络拓扑、通信方式的优缺点,同时结合项目要求,本文所涉及的流星余迹通信系统网络模型设计如图1所示。
本网络结构模型由4个星型网络相互联接构成,每个星型网络由1个主站和4个从站组成,主站与从站可以直接通信,从站之间不能直接通信,必须通过主站实现与其他从站之间的通信。主站与从站之间的通信方式为无线通信,通信信道采用流星余迹信道,主站之间的通信方式为有线通信。各星型网通过主站之间的互联实现网间通信。
1.2 流星余迹通信网络的差错控制要求
首先简要介绍一下流星余迹信道的典型特征。流星余迹信道依赖于流星的突发性而产生,具有明显的间断性和瞬时性[1]。以欠密类流星余迹为例,其发生过程时间极短,通常在几百毫秒到1秒之间; 且信道信道时变性强,变化规律呈指数衰减特征,如图2所示[10]。
考虑到流星余迹信道的这些特点,为了保证数据的可靠传输,提高系统传输效率,流星余迹通信中的差错控制协议应当适合突发、非对称的信道特征,且综合考虑纠错与重传的收益,同时还应适当引入变速率技术[1]。近年来,将FEC与ARQ结合起来的HARQ差错控制协议由于对流星余迹信道具有很强的适用性,被广泛应用于流星余迹通信系统中。
2 HARQ传输机制和时延模型
HARQ传输机制的基本思想是,将ARQ和FEC有效结合起来,即在传统ARQ系统中嵌入一个FEC子系统,就得到了HARQ传输系统。它采用的码同时具备纠错功能和检错功能,其中FEC子系统利用纠错码来纠正经常出现的错误,而ARQ系统只在检测出少数不可纠的错误时才请求重传,这样既减少了重传次数,也确保了信息的可靠传输。实际应用表明,HARQ系统的可靠性比FEC系统强,传输效率也比ARQ系统高[11]。HARQ的系统原理如图3。
2.1 Ⅰ型HARQ传输机制
流星突发通信中的Ⅰ型HARQ的基本原理如下:发送端在探测后,向接收端发送一个能纠错同时能检错的码字序列,接收端接收到码组后首先进行检错: 如果检测没有错误则向发送端反馈确认(ACKnowledgement,ACK)信号,码组传输成功;如果检测到一个或多个错误,接收端尝试确定错误位置并进行纠错,若错误在可纠正的范围内,则通过译码器自动纠正后将码组呈送上层,若无法纠错(即译码失败),则接收端向发送端反馈非确认(Negative ACKnowledgment,NACK)信号并将码组丢弃,发送端收到NACK后重新发送与第一次格式相同的码组,接收端重复上述操作,直到接收端正确接收码组为止。其工作原理如图4[12]。
2.2 Ⅱ型HARQ传输机制
Ⅱ型HARQ机制的基本原理如下:通常采用将信息部分和校验部分分开传送的方式,发送端先将携带信息部分的码组传送给接收端,接收端对接收到的码组进行检错: 如果检测没有错误则向发送端反馈ACK信号,码组传输成功;如果检测出错,则向发送端反馈NACK信号,发送端收到NACK信号后,将携带校验部分的码组传送给接收端,接收端将校验部分与之前收到的信息部分结合起来,并对新的码组进行检错纠错。如果码组没有错误或错误在可纠正范围内,则将正确码组呈送上层;如果码组出错难以纠正,则向发送端反馈NACK信号。发送端第二次收到NACK信号以后,每次重传逐渐增加校验信息,从而使接收端合成的码组纠错能力不断增强,接收端则重复上述操作,直到正确接收码组为止。其工作原理如图5。
3.2 引入改进机制的Ⅱ型HARQ传输时延估算模型
Ⅱ型HARQ机制相对于Ⅰ型HARQ机制主要有两方面的改进[16]:一是采用了自适应变速率思想,二是增加了冗余机制。因此,3.1节所描述的延时估算模型不能完全适用于Ⅱ型HARQ机制。针对于此,本文在3.1节模型的基础上进行以下改进。
首先讨论自适应变速率方法对模型的影响。流星余迹通信中常用的自适应变速率方法主要有两种:一种是自适应编码,根据信道特性自适应地改变纠错编码的速率,即通过改变前向纠错码的冗余度改变信息的传输速率,一般保持调制方式和码元速率不变;另一种是自适应调制,保持码元传输速率不变而改变调制方式,即通过改变码元中的比特数目来改变信息的传输速率。以上两种方法中,码元传输速率均保持不变,在模型中的表现为:分组一次正确传输时间tl和分组重传时间tn保持不变,这一点与3.1节模型相同。由此可知,若分组重传n次,则等效服务时延仍与3.1节模型中相同,可参考式(3)。
4 仿真与分析
为了验证流星余迹通信中HARQ的时延性能,本文在C++仿真环境下分别对不同分组正确传输概率和分组时间长度下的两种HARQ机制延时性能进行了仿真,并作了对比分析。
4.1 仿真场景设置
仿真场景设置为流星余迹通信网络中主站到从站通信过程,链路采用欠密类流星余迹信道,余迹持续时间1s,信道中的噪声类型采用高斯白噪声,Ⅰ型HARQ采用固定速率,Ⅱ型HARQ自适应方式采用三档变速率,调制方式分别采用BPSK、4QAM和16QAM,依据文献[1],上述仿真场景对应的主要实验参数设置如表1。
4.2 仿真结果分析
通过仿真分别得到了两种HARQ传输时延随分组传输正确率和分组时间长度的变化规律,如图6和图7所示。
图6比较了Ⅰ型HARQ和Ⅱ型HARQ在不同分组传输正确率下的传输时延。从图6中可以看出,随着分组传输正确率的提高,Ⅰ型HARQ和Ⅱ型HARQ的传输时延均呈现下降的趋势。Ⅱ型HARQ的整体时延均比相同条件下Ⅰ型HARQ的小,当分组传输正确率较小时,Ⅱ型HARQ的传输时延比Ⅰ型HARQ小得多,随着分组传输正确率的不断提高,两者差距才逐渐缩小。这是因为Ⅱ型HARQ的冗余机制能使传输码组的纠错能力不断增强,在链路条件不好的条件下仍能保持较高的传输效率,说明在分组传输正确率较低的情况下,Ⅱ型HARQ的优势比Ⅰ型HARQ更突出。
图7通过改变分组时间长度,得到Ⅰ型HARQ和Ⅱ型HARQ传输时延的比较结果。两种传输机制的时延均与分组时间长度呈正相关。在分组时间长度较小时,Ⅱ型HARQ的强纠错能力不能得以体现,两者的分组传输时延相差不大。随着分组时间长度的增加,由于Ⅱ型HARQ能有效提高传输正确率,从而提高传输效率,其传输时延比Ⅰ型HARQ有了很大改善。
通过分析可知,在流星余迹通信中,Ⅱ型HARQ的传输时延性能比Ⅰ型HARQ有明显优势,Ⅱ型HARQ对流星余迹通信系统具有更好的适用性。
5 结语
本文以流星余迹通信为背景,针对HARQ传输机制下的网络时延性能,主要做了以下几个方面的工作:
1)结合流星余迹通信系统的特点,分析了HARQ传输机制的工作原理,并建立了网络时延的构成模型。
2)从排队论的角度出发,提出了流星余迹通信中Ⅰ型HARQ的传输时延估算模型。模型充分考虑了流星余迹通信的特殊性和HARQ传输机制的特点,对流星余迹通信理论的研究具有一定的参考价值。
3)以Ⅰ型HARQ传输时延估算模型为基础,引入自适应传输与冗余机制的优化特征,改进建立了Ⅱ型HARQ的传输时延估算模型。
4)对两种HARQ的传输时延性能进行了仿真,对比分析了Ⅰ型HARQ和Ⅱ型HARQ的传输时延随不同参数的变化规律。仿真结果表明,在流星余迹通信系统中,Ⅱ型HARQ的时延性能优于Ⅰ型HARQ。
下一步的工作将是把本文的结论应用于更复杂的流星余迹通信网络中,提出更有效的延时估算方法。
参考文献:
[1] 李赞,刘增基,沈健.流星余迹通信理论与应用[M].北京:电子工业出版社,2011:24-28.(LI Z, LIU Z J, SHEN J. Theory and Application of Meteor Burst Communication[M]. Beijing: Publishing House of Electronics Industry, 2011: 24-28.)
[2] 何先刚,夏万林,聂永萍,等.OFDM系统中的混合ARQ结构及性能仿真[J]. 重庆大学学报(自然科学版),2003,26(8):56-59.(HE X G, XIA W L, NIE Y P, et al. Hybrid ARQ structure and performance simulation for OFDM systems[J]. Journal of Chongqing University (Natural Science Edition), 2003, 26(8): 56-59.)
[3] 李旭虹,刘燕,王安义.LTE系统下行链路中HARQ技术的研究与仿真[J].工矿自动化,2012,38(1):62-65.(LI X H, LIU Y, WANG A Y. Research of HARQ technology in LTE system downlink and its simulation[J]. Industry and Mine Automation, 2012, 38(1): 62-65.)
[4] 马志强,王建刚,郑振华.流星突发通信中的混合ARQ技术研究[J].通信技术,2011,44(10):4-6.(MA Z Q, WANG J G, ZHENG Z H. Research on hybrid ARQ technology in meteor burst communication[J]. Communication Technology, 2011, 44(10): 4-6.)
[5] MICHAEL B P, STUART D S. Variable-rate hybrid ARQ for meteor-burst communications[J]. IEEE Transactions on Communications, 1992, 40(1):60-73.
[6] 石会芳.流星余迹通信系统自适应链路传输技术研究[D].西安:西安电子科技大学,2013: 43-63.(SHI H F. Research on the technology of adaptive link in meteor burst communication system[D]. Xian: Xidian University, 2013: 43-63.)
[7] 吴妍.流星突发通信中基于位图反馈的HARQⅡ型链路传输协议研究[D].西安:西安电子科技大学,2014: 33-50.(WU Y. Research on the HARQⅡ link transmission protocol based on bitmap feedback in meteor burst communication system[D]. Xian: Xidian University,2014: 33-50.)
[8] 黎锁平,刘存明,何志鹏.无线数据传输的GBN-ARQ和SR-ARQ系统时延性能研究[J].信号处理,2009,25(3):384-388.(LI S P, LIU C M, HE Z P. Research on the delay performance of GBN-ARQ and SR-ARQ systems in wireless data transmission[J]. Signal Processing, 2009, 25(3):384-388.)
[9] 商英俊.流星余迹信道特征与组网技术仿真研究[D].西安:西安电子科技大学,2009: 5-8.(SHANG Y J. Simulation studies of meteor burst channel characteristics and networking technology[D]. Xian: Xidian University, 2009: 5-8.)
[10] 张金平,韩娟娟,金力军.流星余迹通信信道建模与性能仿真[J].无线电通信技术,2002,28(5):41-44.(ZHANG J P, HAN J J, JIN L J. Modeling and performance simulation of meteor burst communication channel[J]. Radio Communications Technology, 2002;28(5):41-44.)
[11] 李允利.流星余迹通信系统链路传输技术研究[D].西安:西安电子科技大学,2009: 33-48.(LI Y L. Research on link transmission technology in meteor burst communication[D]. Xian: Xidian University, 2009: 33-48.)
[12] 卢世军.时变信道中自适应多状态ARQ系统时延性能建模研究[D].兰州:兰州理工大学,2009: 27-29.(LU S J. Delay performance analysis of the adaptive multi-state automatic repeat request system model in time-varying channel[D]. Lanzhou: Lanzhou University of Technology,2009: 27-29.)
[13] 唐应辉,唐小我.排队论――基础与分析技术[M].北京:科学出版社,2006:137-142.(TANG Y H, TANG X W. Queuing Theory-Foundation and Analysis Technology[M]. Beijing: Science Press, 2006:137-142.)
[14] 周晓波,周健,卢汉成,等.DTN网络的延时模型分析[J].计算机研究与发展,2008,46(5):960-966.(ZHOU X B, ZHOU J, LU H C, et al. Analysis of delay model in DTN[J]. Journal of Computer Research and Development, 2008, 46(5): 960-966.)
关键词:大数据 网络舆情 数据抓取 数据存储 舆情分析
中图分类号:G206 文献标识码:A 文章编号:1674-098X(2017)01(c)-0108-02
S着新兴媒体的发展,互联网舆情已经在社会发展中扮演着重要的角色,它已不仅仅局限于个别范围的使用和拓展,而是演变为全民互动型的参与和讨论,所以如何在众多信息中获取最全面的舆情数据,并将舆情数据以最快的速度和最灵活的方式展现出来,使舆情在可控的范围内实现最大的社会和商业价值,显得尤为重要。
1 网络舆情
网络舆情不同于传统舆情,传统舆情是民意理论中的一个概念,是民意的一种综合反映。该文所提到的网络舆情,是未经任何中介包装和验证,直接于网上的社会舆情,并以互联网为载体,以舆论事件为核心,集民众情感、态度、意见、建议、传播互动和影响力于一身的集合。
因为网络舆情的传播介质是网络,网络既具有公开性又具有隐蔽性,同时需要事件、网民、网民情感,以及通过网络介质的传播和互动,所以在既公开又隐蔽的环境中,从众多的信息中捕获并抽取出复杂的网民情绪和态度非常重要。
2 舆情捕获
由于舆情具有自由性、交互性、多元性、偏差性和突发性,所以如何从众多舆情中获取实时数据并服务于大众,是新兴媒体所面临的严峻挑战和考验。
2.1 关键词确定
在互联网上传播的信息可以用海量来形容,如果针对舆情盲目进行检索,犹如大海捞针,不仅得不到我们想要的数据,还会浪费大量的人力、物力和财力来投入到数据的分析中。所以如何在海量的信息中获取用户想要的数据,“关键词”就显得非常重要,它不仅可以让我们精确地捕获到想要的数据,而且还可以减少脏数据的捕获,大大缩短了舆情分析的时间,提升了舆情分析的反应速率,下面就介绍几种关键词确定的方法。
(1)定制关键词。关键词的确定可以从舆情分析的发出者来反向提出,舆情分析的发出者一定是希望从网络舆情中得到某种相关信息,那么我们可以从需求提出者和需求分析者的角度来确定关键词,即关键词由用户提出,并通过需求分析将用户的表述发展为定制词语,并将其定义为用户定制关键词。根据用户定制的关键词来捕获数据,是最直接明了的数据捕获方式。
(2)热门舆情关键词。很多网站如百度、搜狐、Facebook、新浪等几乎所有的交互网站都会有热门指数,我们可以借助这些网站自身携带的热门指数,来确定关键词。因为通过热门舆情关键词来捕获数据,一定是网站热门数据,这样不仅可以节省我们分析确定关键词的时间,而且还可以用最短的时间获取最多的分析数据,提高大数据在舆情分析中的反应速率。
(3)热搜舆情关键词。热搜舆情关键词不同于热门关键词,由于舆情具有广泛传播性,很多人参与到舆情探讨中,都是通过网络搜索并定位的,所以热搜关键词就是根据搜索引擎的热搜排行榜,来确定舆情关键词,通过热搜排行榜,我们可以第一时间知道并了解网民想要了解的舆论事件。
(4)参考舆情网站。想要找到网络事件的发展状况和原由,最简单也是最直接的方式,就是找到舆情的网站,很多网站就是网络舆情事件的源泉。
2.2 数据抓取
当我们通过各种方式获取并确定了关键词之后,如何把关键词变成我们想要的精确数据,就显得非常重要。我们可以通过网络爬虫技术来获取舆情数据。
当前主流的数据抓取模式主要包含4个主要部分:网络爬虫技术(Spider)、数据处理技术(Data Process)、爬取URL队列(URL Queue)和数据。爬虫主要是从互联网上捕捉网页内容,并从中抽取出需要的内容。数据处理:对爬虫抓取的内容进行处理。URL队列:为爬虫提供需要抓取数据网站的URL。数据包含3个方面:(1)Site URL:需要抓取数据网站的URL信息;(2)Spider Data:爬虫从网页中抽取出来的数据;(3)Dp Data:经过dp处理之后的数据。
2.3 数据存储
因为网络舆情具有及时更新和海量的特性,所以我们如何将抓取到的数据实时保存起来,是非常关键的,它决定了最后舆情分析的全面性和精确性。一般通过IT技术可以将数据存储到数据库中,下面介绍一下当前主流的3种数据库及其区别。
Oracle数据文件都是采用二进制编码的文件,而且它可以对SQL在执行过程中的解析和优化指定统一标准,其中包括RBO、CBO以及HTNT规则,这些都会使在Oracle数据库中执行的SQL拥有极大的优化自由,同时也对CPU、内存、IO资源方面进行优化。
MySQL最大的特点应该属自由选择存储引擎。它的每一个表都是一个文件,都可以选择合适的存储引擎。但由于它的存储引擎是开放式的插件引擎,所以文件的一致性大大降低,并且在SQL优化方面,也会有一些不可避免的瓶颈,例如多表关联、子查询优化、统计函数等都是它的弱项,并且MySQL只支持极简单的HINT。
SQL Server的数据架构基本是纵向划分,分为:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL执行都是逐层,其中Relational Engine中的优化器,是基于成本的,其工作过程跟Oracle是非常相似的。同时它也支持丰富的HINT,包括:连接提示、查询提示、表提示。
虽然,这3个数据库各具特色,但是,如果对数据安全、存储等特性没有特殊要求,通常我们会选取MySQL数据库,因为开源而且操作相对简单。
3 舆情分析
如果说舆情数据的抓取和存储目的是在数据获取方面下工夫,那么舆情分析就是通过比较、论证等方法把数据通过图形报表等更加简洁的方式呈献给用户。
每一个舆情事件的本身都有自己的特点,分析设计人员可以根据不同的特点选择舆情分析的方法或报表。通常舆情分析方法有连续接近法、举例说明法、比较分析法和流程图法等。通常图形报表也有很多种,如趋势图、比例饼图、百分比柱图、流程图、表格等,分析设计人员根据舆情的特点选择合适的图形呈献给用户。
4 结语
通过大数据相关技术对舆情进行全方位收集、存储和分析的过程中,我们既不修饰、篡改舆情事件的真实性,也不隐藏舆情事件的丑陋性,大数据的智能捕获分析,只是将网络舆情更加清晰形象地呈现给用户,使用户在第一时间获取民众态度,掌握民众意见或建议,并根据舆情报告的精准分析反馈,及时对舆情事件做出相应的政策,调整相关的策略,实现商业和政治利益最大化,创造更多的社会价值,并使网络舆情健康良性发展。
参考文献
[1] 王博.大数据时代网络舆情与社会治理研究[D].云南财经大学,2016.
[2] 杨旭东.网络舆情监控系统关键技术研究[J].信息网络安全,2016(9):251-256.
他是一位网络舆情分析师,舆情分析师作为一种新职业,近期被《人民日报》撰文评为“朝阳职业”,从业者大多不敢自言资深或专家,而许多人恐怕还不知晓舆情分析是何物。
网络上的情报收集者?
关于网络舆情,比较权威的解释是:“通过互联网传播的人们对于各种事件的所有认知、态度、情感和行为倾向的集合。”与“舆论”一词不同,舆情是网络上媒体和网民意见的原始表露,可以是多种不同意见的简单集合,而舆论则是倾向于一致的看法和意见。
舆情可能转化为舆论,自然而然地,网络舆情分析师的重要工作即分析舆情、预测走势,在一定程度上防止负面舆论的产生。
对赵嘉和同事们来说,上网阅读新闻便是他们每天工作的开端。他们几乎对网上所有热点事件都有所了解,同时每个人又要着重关注一两个领域,成为半个行家。例如学法语出身的赵嘉就曾硬着头皮研究了经济学知识,因为他服务的客户是贸易部门,在能够基本完成该行业舆情报告的撰写之后,他又“被迫转行”学习了科技知识。
许多媒体对这个行业的介绍中都有这样的描述――专多能的“杂家”。
舆情分析师听起来有点像收集情报者,似乎也能和公关扯上些许关系。为什么一定要冠以“网络”二字?
根据中国互联网络信息中心的最新报告显示,截至20lO年12月底,我国网民规模突破达到4.57亿,互联网普及率攀升至34.3%。在大城市中,主流人群基本上都已经是“网民”。庞大的用户群体和网络迅速的普及速度,使得网络舆论在舆情系统中的地位不断提升。
比较普遍的认识是,国内网络舆情监测与研究机构出现于2008年,网格舆情分析师也随之诞生――之前的2007年,山西爆发“黑砖窑”事件,网络热点的沸腾程度让各方开始重视网络舆情。
如今,一条负面信息从出现到形成热点的周期,已经从原来的24小时缩短到了4小时,相关部门如果不能快速做出反馈、制定应对策略,就可能出现舆论一边倒的局面。
舆情分析师的“网络舆情”
按照分析师的工作思路,《世界博览》记者在搜索引擎中输入了“网络舆情分析师”的关键词,结果是:6月10日,百度找到相关结果约6.42万个,谷歌找到约45.2万条结果。
在中国,人民网舆情监测室、新华网、外文局、国际广播电台、《中国日报》等均提供较为专业的舆情服务,而在国外,“Buzzlogic”、“尼尔森(Nielsen)”、“ReputationDefender”等舆情监控机构早已名声鹊起。
一些经济刊物将“舆情分析”描述为“拥有百万亿潜在市场的大生意”;许多知名大学,例如人民大学成立了专门的研究院;越来越“智能”的搜索引擎还提供了从事舆情分析的专业公司和软件的广告,此类软件系统已成为中国各大部委、省、市、县等各级政府的重要采购对象。
但这并不意味着网络舆情分析师可以被软件取代,相反,分析师在形成舆情报告过程中的作用愈发重要。本质上,机器担当的仍是辅助角色。
赵嘉对《世界博览》记者说,自己每天的工作确实会用到监测软件,但不能依赖,主要使用的工具是百度、谷歌、雅虎等搜索引擎,新闻则来自国内外主流媒体和网站,如西方四大通讯社、各国主流媒体、新华社、《人民日报》等,还有一些专门的数据库搜索和站内搜索,和他所在公司的客户一样,“属于商业机密,无可奉告”。他们的客户以国家机关为主,也有少量的企业和私人客户。
舆情分析师通常需要通过搜索工具和监测平台,反复设置不同的关键词,收集媒体评论和网友言论,最终经过选取、概括和分析形成完备的舆情报告。一些客户还要求归类和制作图表。
赵嘉每天完成的舆情日报,长度一般在八九页左右,一些周报和月报以及重大事件的舆情会更复杂,因为这样的报告是从上百甚至上千篇报道中提炼而成的。
赵嘉同事许欣的报告主要面向国家机关:“有的部门经常提出反馈,有的反馈则较少,但总体来看均属比较重视。他们或是了解境内外动态,或是预警,或是报送领导或上级。”
应该说,客户们越来越重视舆情报告,特别是曾在舆情方面“吃过亏”的客户。近期,舆情关注度较高且应对不力的应属故宫,相继经历了“失窃门”、“错字门”、“会所门”、“解雇门”等负面事件,缺乏信息透明和公关技巧的故宫深陷舆论漩涡。
亟需人手的高负荷工作
和写字楼里压力颇高的白领们差不多,网络舆情分析师也常常抱怨身体“亚健康”,鼠标手、颈椎病、视力下降等职场常见病经常会找上门来。
既然需要关注每天的新闻热点,所以,网络舆情分析师在假期也难有“断网”的日子,有时碰到一些项目,客户规定要在短时间内完成,经常需要加班加点。
许欣对《世界博览》记者说,她做过的最复杂的舆情报告汇编超出2000页,几个人加班到很晚才完成。“最忙的时候连喝水都忘了。”对于每天要浏览的网页数量,赵嘉和同事都算不过来:“大概几百页吧?要想做得好必须不停更换关键词,网页也要尽可能多看。”
在人民网舆情监测窒,“醉驾入刑”的舆情报告需要几位舆情分析师研讨协作,因为仅新浪和腾讯微博上就有近18万条评论,需要多人监测。该监测室主任分析师庞胡瑞说:“舆情分析是脑力活,也是体力活,加班加点、每天浏览成百上千条网页是家常便饭。”由于舆情业务增长,这里一直在扩大舆情分析师的编制。
虽然面对着繁重的任务和较高的压力,分析师们也觉得,在不断获取、整理、推论信息的过程中,自己也收获不小――“对新闻的敏感度和捕捉能力,对重点信息的宏观把握和提取,逻辑思维和综合分析的能力”。
关键词:Web挖掘;文本分类;粮食舆情;舆情分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)10-2426-03
粮食是人类生存之本,粮食安全问题已经成为世界范围内关注的最重要的问题之一。粮食信息数据量大、市场供求信息不明确、技术保障不到位等因素对我国粮食安全敲响了警钟。2009年初中国爆发了几十年来最严重的一场旱灾,国内市场充斥着粮食供应可能趋紧并有可能大量进口粮油产品,以及全球粮油价格将由中国的大量进口而出现暴涨等网络言论并造成了一定的影响。
因此如何引入新的技术手段对粮食情报信息实现有效监管,如何在海量的粮食网络资源信息中,快速有效地挖掘蕴含有巨大潜在价值的粮情知识和信息,同时过滤掉大量无用的或不相关的粮情内容,准确地定位所需要的信息并自动分类,以保证粮食安全,已成为一项重要而迫切的研究课题。该文就基于Web挖掘在粮食情报分析中的应用进行了一些讨论,并提出了一个基于Web挖掘的粮食舆情分析系统的框架。
1 粮食舆情系统模型设计
1.1 Web挖掘简介和粮食舆情分析难点
Web挖掘是从大量Web文档集D中发现隐含的模式W。如果将D看作输入,P看作输出,则Web文本挖掘的过程可看作从输入到输出的映射,即F:CP。网络舆情是公众利用互联网表达或传播的对热点事件和问题的看法和所持观点的较有社会影响力的态度。利用Web挖掘技术进行主题追踪的舆情分析成为近年研究的热点。任海果研究了主题事件的追踪技术,实现了对热点事件的发现、演化和趋势分析[1]。Federico Neri等研究了1000个关于意大利公共广播服务意见的Facebook网贴,得到了观众关注度和兴趣度,并在开源情报信息和Web挖掘中得到应用[2]。Wang等利用垂直搜索技术收集互联网上关于食品质量和安全的网络信息,搭建了食品安全的网络舆情分析系统,满足了对食品安全网络舆情的有效监管[3]。但由于粮食信息的特殊性和复杂性[4],使得粮食舆情信息的采集不够全面,现有分析系统的分析不够深入,总体来说粮食网络舆情挖掘扔存在着一下难点:
1) 粮食舆情影响因素复杂。粮食舆情受多种因数的影响,和粮食直接相关的有粮食产量、销售价格、产地、供求关系等因数,此外还有气象条件、病虫害的等间接影响着粮食安全,目前对粮食安全因素的挖掘不够全面。
2) 粮食舆情信息的存储位置和方式复杂,没有统一的系统来采集各种形式的粮食信息。如粮食产业信息资源,如灾害史、产量信息、气象条件等,并发存储在各家统计机构、管理机构、经营机构的网络环境中,并且没有统一的数据表示形式,没有开发出联合采集各家机构和组织中粮食数据的采集或者存储方法和策略,不利于粮食舆情信息的整合和关联分析。
3) 粮食舆情信息牵涉面广,没有融合各方面信息处理方面的优势。在粮食信息处理方面,没有实现统计学、模式识别、人工智能以及人工神经网络等多种分析方法融合的决策策略。
4) 没有提出预测和预防模型。现在的网络舆情分析往往注重于热点的发现,没有为热点事件建立等级级别区分管理和提供预防,同时对于发现的灾难事件,没有定量的分析灾害危害的严重程度和预警级别。
利于舆情分析技术实现对粮食舆情信息的监控和管理成为一项紧迫的课题。为了解决以上问题,该文设计了一个粮食舆情分析架构模型。
1.2.2 舆情信息预处理模块
舆情信息预处理模块的主要功能是:对采集到的相关网页进行去噪处理,如对广告、注释等噪声数据进行清理,然后用统一的结构化的格式进行文本表示,然后利用分词技术、特征提取技术、权重计算技术等进行特征选择,构建粮食数据仓库,利用分类器实现文本的分类。文本分类技术是整个预处理模块的核心,其步骤描述如下:
本模型主要包括以下三个方面功能:
第一、通过对粮食舆情主题检测进行热点、敏感信息的发现,并针对特定的粮食安全主体,如粮食价格、供求关系、气象条件等各个主题跟踪技术处理,同时设计融合各方面因素的分析策略,及时发现安全隐患,并提供预警信息。
第二、对特定粮食安全事件的公众所持观点和关注度的分析,掌握事件发生、发展和加强的可视化时间序列,开发基于区域性舆情的分别汇总,提供实时的空间和时间的网络舆情趋势信息保障,有利于决策者实施适当的措施。
第三、利用灾害预测、分析和预防的决策系统,对多发性的、危害严重的灾害构建主动分析、及早预测和及时预警的机制,提供相关、相近主题的预防措施经验。同时针对灾害引起的其他方面的问题进行关联分析,比如旱灾有可能引起局部供求关系失衡,灾害的严重性导致价格波动的范围等建立定量的数据分析方法发现彼此存在的联系。
2 结论
利用Web挖掘技术实现对粮食信息的监测,有利于充分海量的粮食网络信息资源,能够及时发现粮食热点事件,为粮食安全提供预警服务。该文着重分析了当前粮食方面舆情分析系统存在的不足,提出了解决方案,构造了一个较完善的粮食舆情分析架构。通过各种算法的编码和改进,实现本文所构建的系统是进一步研究的方向。
参考文献:
[1] 任海果. 基于主题事件的舆情分析系统的设计与实现[D].北京:北京邮电大学,2012.
[2 ] Neri F, Aliprandi C,Capeci F,et al. Sentiment Analysis on Social Media[C]. Istanbul, Turke:Advances in Social Networks Analysis and Mining,2012:919-926.
[3]Wang Su, Liang Meiyu, Gao Tian and Du Junping. Realization of Product Quality and Food Security Internet Public Opinion Supervision System[C]. Jinan, China:Proceedings of the 8th World Congress on Intelligent Control and Automation, 2010:2736-2739.
[4] 龙方. 新世纪中国粮食安全问题研究[J]. 湖南农业大学学报:社会科学版,2007 (3):7-14.
[5] 孙立伟,何国辉,吴礼发. 网络爬虫技术的研究[J]. 电脑知识与技术,2010(15):4112-4115.
摘要:本文以基于数据挖掘的决策支持系统方法整合网络舆情信息,建立网络舆情信息仓库,对非结构化的模糊复杂的信息,运用数据挖掘中文本挖掘技术有效分析网络热点事件的舆情,及时发现重大突发事件,减少危机损失,提高政府管理和监控舆情危机的能力。
关键词:网络舆情 数据挖掘 决策支持系统
1、引 言
近几年,随着Web2. 0的兴起与普及,互联网已成为一个开放的、个性化的社会环境形态,对社会稳定和国家安全的维护带来了严峻挑战。但是现在我们政府情报机构网络安全管理和监控能力比较薄弱,难以适应复杂的环境。因此,建立基于数据挖掘的网络舆情预警决策支持系统,对非结构化的模糊复杂的信息,运用文本挖掘技术有效分析网络舆情事件,及时发现重大突发事件,减少危机损失,提高政府管理和监控能力势在必行。
2、基于数据挖掘的决策支持系统
决策支持系统(DSS) [1]是利用大量信息,数据结合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统。它是融计算机技术、信息、技术、人工智能、管理科学、决策科学等学科和技术于一体的技术继承系统,包括数据仓库和数据挖掘分析系统,由以下三个主体[2]组成:
(1)模型库系统和数据库系统结合,作为该系统的基础,为决策问题进行模型计算和定量分析,提供辅助决策信息。
(2)知识库系统和数据挖掘的结合,从数据库和数据仓库中挖掘知识放入专家系统的知识库中,通过知识推理定性分析,辅助决策。
(3)数据仓库和OLAP,从数据仓库中提取综合数据和信息来反映了其内在本质。
3、基于数据挖掘的网络舆情预警决策支持系统的定位
从网络舆情预警决策支持系统的功能和实现方式对其定义:基于决策支持系统技术,将联机分析处理、数据挖掘模型(文本挖掘模型)、数据仓库、知识库、方法库等相结合,应用于情报机构的网络舆情预警中的人机结合系统。
3.1数据仓库
数据仓库[3]的设计要满足决策支持系统的要求,即数据要具备概括性、抽象性、统一性三个特点。所以图1中数据仓库和部门数据库加上一个虚拟层,实现数据挖掘的数据清洗,为数据仓库提取有用数据。
3.2数据挖掘方法
数据挖掘[4],简单点说,就是从大量数据中寻找规律的技术,通过处理海量的、不完全的、随机的、结构复杂的数据选择有用数据,建立知识模型。网络舆情预警决策支持系统运用数据挖掘中文本挖掘技术,包括自动分类技术、自动关联技术、观点挖掘技术、自动分词技术、结构化抽取技术以及自动摘要、关键词技术等。
图1 决策支持结构系统
4、基于数据挖掘的网络舆情预警决策支持系统的构建
基于数据挖掘的决策支持系统采集网络中的新闻网页、论坛、博客、新闻评论,贴吧等网络资源,发现突发性热点事件,进行热点跟踪定位和实时舆情预警,帮助政府及时掌握舆情动向,准确捕捉预警信息,对有较大影响的重要事件快速发现、快速处理,为政府决策提供信息依据[5]。
4.1数据准备
网络舆情预警需要多样化的信息,在整理信息的时候,需要做到全面、准确、及时。本系统涉及的信息有:
文本信息:新闻、博客、产品评论、论坛帖子等文本信息,包括主题、关键词、时间、URL等。
词汇信息:包括现在词典中的字或词和现在网络用语的语义、适用的语境和是否带有情感等。
图像信息:主要是新闻、博客、产品评论、论坛帖子等上的图片,包括主题、内容、时间、URL、浏览数量等。
视频音频信息:主要是新闻、博客、产品评论、论坛帖子等上的视频音频,包括主题、内容、时间、、URL、浏览数量等。
这些来自互联网的大量信息,通过收集、整理、存储、预处理在数据库中作为原始数据,这些数据是离散的、模糊的。
4.2系统功能模块
根据网络舆情预警的规划,如舆情分类、情感分类与趋势预测、舆情检索以及统计分析等,本系统建立了舆情信息采集管理系统、舆情分类管理系统[6]、舆情来源管理系统、舆情情感分类管理系统和用户管理系统。
①舆情分类管理系统:舆情分类即对海量信息的自动(文本语义分析)分类。通过关键字样本、文件样本、自定义等把原始信息分类,形成分类别(危害国家安全、危害社会治安、扰乱社会秩序等)的分类库,分类管理可以对分类的类别数据进行增加、删除、修改等操作。
②舆情信息采集管理系统:舆情信息采集管理系统对文本信息、图像信息、视频音频信息的来源,如新闻、博客、产品评论、论坛帖子、网站及其网站的权威性进行分析统计。
③舆情来源管理系统:舆情来源管理部门对文本信息、图像信息、视频音频信息的来源,如新闻、博客、产品评论、论坛帖子、网站及其网站的权威性进行分析统计。
④舆情情感分类管理系统:舆情分类管理部门从根据新闻、博客、产品评论、论坛帖子等收集的文本信息、图像信息、视频音频信息,经过预处理之后,通过观点挖掘方法对舆情信息的情感倾向进行分析,及时发现消极情感的信息,以便迅速做出反应。
⑤舆情统计系统:统计舆情分类管理系统和舆情情感分类管理系统的信息,为政府提供报表或报文,供政府决策使用。
5、结 论
基于数据挖掘的网络舆情预警决策支持系统可以有效解决现在网络舆情预警系统中存在的问题,通过文本挖掘技术对非结构化的模糊复杂的信息分析处理,及时发现重大突发事件,减少危机损失,提高政府管理和控制舆情的能力。
参考文献:
我国的网络舆情研究还是处于初级阶段,一方面,政府投入资金鼓励研究,建立了基础性的理论知识;另一方面,舆情的采集和分析缺乏相应的制度,同时舆情的应用也面临着很大的挑战。目前只有人民网的舆情监测室和一些企业开发系统研究,在农业方面则更加缺乏。在国外,网络舆情研究比较早。刚开始的研究都与政府有关,特别是与政治生活密切相关的大型选举活动的选情分析和研究。此外,针对舆情规范部分国家已经上升到行政制度层面,提出和采取了一系列的措施。伴随互联网的快速发展,农业网络舆情研究已经广泛发展,政府研究机构和企业对舆情的研究技术相当成熟。
2模型设计
云环境下的农业网络舆情监测模型由三部分构成,即舆情信息采集层、舆情分析层和舆情服务层(图1)。为了对主流媒体、门户网站、资讯平台、知名论坛、搜索引擎、博客、贴吧等网络载体的监测,全面掌控互联网上与农业相关的人、地、物、事、组织,不漏掉有价值的舆情信息,通过收集相关网页信息,并对其过滤、分类;对已经处理与农业相关的舆情信息进行动态分类采集、智能化分析,及时发现隐藏热点舆情、突发事件和重大公共事件信息。在整个过程中,农业网络舆情监测的信息都在云数据中心计算和存储。
3系统功能模块
3.1舆情信息采集
舆情信息采集模块是整个系统数据处理分析的信息源[6]。舆情信息采集主要是由网络爬虫来实现,系统采用NUTCH采集信息,从给定的一个初始集URLs出发,依次按顺序出去URL,获取该URL指向的网页,同时将页面中的新链接加入到URLs中,不断重复上述过程,直至所有的URLs全部被采集完终止。为了提高网页的采集速度,系统设计了多个采集器并行采集,同时在将采集到页面中的链接进行过滤,除去重复的、过时的URL(图2)。上述流程的输入是给定的URL,URL过滤规则和页面过时判定值,而输出的是网页的正文内容。当进行信息采集时,由于整个互联网包含的信息量太大,在消耗系统资源和网络宽带的情况下,采集有效的页面率却不高。系统对舆情主题进行规划,使用主题网络爬虫,提高系统资源利用率(图3)。将采集得到的信息存入云数据中心,进行舆情信息预处理。信息预处理主要实现的功能是解析网页正文内容、进行中文分词、特征提取和关键词提取、删除停用词[7]。
3.2舆情分析模块
舆情分析模块是系统中最核心的处理模块,利用信息技术对预处理后的舆情信息进行分析挖掘,实现舆情信息的热点发现和话题追踪等(图4)。本体是通过某领域内诸多知名专家协作共同构建该领域概念体系、公理和体系关系集合体,以计算机所能理解的语言和形式描述、表示和组织知识,促进知识重用、知识共享和知识服务。而农业本体是通过农业与其他领域(如农产品加工、经济管理等领域)专家的积极参与和通力协作,从而构建的以机器能理解的形式化语言表示和组织的农业知识和模型[8]。构建农业领域本体,能够更好的发现舆情信息,提高预警能力。敏感话题识别主要是分析在不同时间内的某一主题关注程度。随时间的变化,话题关注度也会出现一定的波动。敏感话题不等同于热点话题,涉及范围比较广。敏感话题主要处理过程包括对网络舆论内容进行分词,并针对当前社会形势,总结出目前较为敏感的词汇,建立农业敏感词库。其具体实现是将根据分词后的结果与敏感词库中的敏感词匹配来完成,从而实现当前网络中敏感话题自动发现。热点话题是文本聚类分析的结果。其主要流程是将预处理的文本信息归入相关的话题中,文本聚类就是将话题按照文档进行聚类,从而发现新的热点。话题追踪是得到的热点话题与用户感兴趣的进行比较,若判断是用户感兴趣的则交给用户,这里还可以通过机器学习不断地向用户兴趣进行修正,使得系统能够更好地满足用户的需求。此外,热点发现还可以通过对用户的访问日志信息挖掘。用户在浏览网页时,网页日志中会记载相应的IP地址、浏览时间和URL地址等信息,通过统计分析日志得到某地区某时某刻的热点信息。另外,还可以通过统计用户在某段时间内搜索的关键词量,来描述网民关注点的产生和变化过程,甚至可以追踪到舆情产生和变换的源头。
3.3舆情服务平台
舆情服务平台是系统和用户的交互界面。系统在经过舆情分析之后,将产生的结果结合可视化技术呈现给用户。同时也可以进行个性化的定制将农业舆情报告提供给舆情监管部门或者决策者,决策者或者监管部门在进行舆情报告评估基础上产生新的舆情需求,进行舆情采集主题规划。舆情服务还包括敏感话题的趋势分析、热点话题排行榜等,当这些超过了系统预先设定好的阀值,系统将发出预警信息,提前采取措施应对。
4结束语