时间:2023-03-22 17:33:18
绪论:在寻找写作灵感吗?爱发表网为您精选了8篇语音识别技术,愿这些内容能够启迪您的思维,激发您的创作热情,欢迎您的阅读与分享!
1.概况
语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。
目前上海地铁
一、
二、
三、
五、
六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,
增加了车站站名动态显示地图。
如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,
对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。
设计一种符合现代化要求的乘客信息显示系统是非常必要。
2.设计
地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。
针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。
语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。
(1)输入控制部分:
通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。
(2)语音识别部分:
利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。
(3)噪音滤波部分:
滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。
(4)执行显示部分:
将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。
(5)录音功能部分:
在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。
3.结论
语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。
本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。
参考文献:
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成电路实用大全上海科技普及出版社
3.①获得“2003年上海市优秀发明选拔赛三等奖”
4.①编入《中国科技发展精典文库》第四辑
关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。
1 语音识别技术的发展
语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。
20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。
20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。
20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。
20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。
2 语音识别基础
2.1 语音识别概念
语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
2.2 语音识别基本原理
从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。
语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。
图1 语音识别基本原理框图
由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。
声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。
搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。
2.3 声学建模方法
常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。
DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。
HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。
ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。
3 语音识别的应用
语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。
语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。
4 结 语
语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。
参考文献
[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.
[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.
[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.
[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.
[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.
【关键词】语音识别技术;发展趋势
语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。
一、语音识别技术概述
语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
二、语音识别的研究历史
语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。
1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。
60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。
进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。
进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。
三、语音识别技术的发展现状
语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。
由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。
目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。
我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。
四、语音识别技术发展趋势
语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.
虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:
1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。
2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。
3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。
[关键词]语音识别系统;差异性;指标需求
一、引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
二、语音信号分析与特征提取
1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。
关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用
中图分类号:TN912.34
1 语音识别技术基本原理及过程介绍
语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。
图1 一般语音识别系统框图
2 语音识别方法
目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。
2.1 动态时间规整
动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。
2.2 隐马尔可夫模型
隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]
HMM可用三元组表示:λ=(π,A,B)
A:状态转移概率的集合。
B:观察概率的集合,表示每个状态输出相应观察值的概率。
π:系统初始状态的集合。
这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程。
HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。
尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。
2.3 人工神经网络
人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。
3 语音识别的应用和前景
如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面。
语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率。语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车驾驶的安全性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技术同样可以运用于银行服务、医疗服务等方面。语音识别技术还可以应用于口语翻译,例如,可以让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就可以通过语音合成技术和语音识别技术将手语翻译成声音语言,同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有广阔的应用空间。语音识别将不断发展,不断丰富人类的生活。
参考文献:
[1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).
[2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.
[3]吕云芳,基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.
[4]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004(03):507-510.
语音识别技术的应用
与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别.我们最容易想到的还要数不会讲笑话的Siri。
作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice.各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了201 5CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。
在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景.诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。
随着互联网技术的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。
如今国内也有了相应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。
从打字到语音的习惯改变
随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。
腾讯、百度都建立了自己的语音团队,在移动搜索领域发力 随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”
今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。
关键词:语音识别;HMM;俄语声学模型;俄语语言模型
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)29-0155-04
Research Status and Development Trend of Russian Speech Recognition Technology
MA Yan-zhou
(PLA University of Foreign Languages, Luoyang 471003, China)
Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.
Key words: speech recognition; hmm;russian acoustic models; russian language models
俄语(Русскийязык)[1]是俄罗斯和联合国的官方语言,也是我国少数民族正式语言。在前苏联和俄罗斯使用,俄语在苏联时期具有很重要的地位,直到现在仍然有些独联体国家在广泛使用,虽然这些国家已经开始强调本地语言的重要性,但在这些国家之间依然使用俄语进行交流。全球有超过一亿四千万把俄语作为母语使用,有近四千五百万人以第二语言使用,使用俄语媒体的有3亿多人。我国俄罗斯族使用俄语进行交流,聚集地分布在新疆地区的阿勒泰、伊犁、塔城及内蒙古呼伦贝尔市的额尔古纳、满洲里等地,
语音识别(Speech Recognition)[2]是指在各种情况下,识别出语音的内容,让机器听懂人说的话,根据其信息而执行人的不同意图。它是一门交叉学科,涉及与计算机、语音语言学、通信、信号处理、数理统计、神经心理学人工智能、和神经生理学等学科。能够能满足不同需要的语音识别系统的实现已经成为可能,它的前提是模式识别、信号处理技术、计算机技术和声学技术等的发展。近年来,军事、交通等领域,尤其在计算机、人工智能等领域得到广泛应用。
俄语语音识别是一个有巨大潜力的研究方向,不仅能够为人们的生产生活、日常交往提供极大的便捷性和高效性,而且在政治、军事、经济等各个领域都有着重要的研究价值和应用前景。本文着重介绍语音识别发展历程、阐述俄语语音识别关键技术、分析俄语语音识别未来的发展趋势。
1 俄语语音识别的现状
俄语连续语音识别取得快速发展,利益于技术的进步。随着语音识别在技术层面的不断突破与创新,对英语的识别慢慢成熟,然后逐渐扩展到其他语种如汉语、俄语等。
1.1语音识别技术的发展
20世纪50年代,语音识别的研究开始借助机器来实现。1952年,一个特定人独立数字识别系统[3]由贝尔(Bell)实验室的Davis、Diddulph和Balashelk首次研制,该系统成功识别10个英语数字。1959年,英格兰的Fry和Denes利用谱分析技术和模板匹配技术,提高了音素的识别精度,建立了一个能够识别9个辅音和4个元音的识别系统。20世纪60年代,经过Faut和Stevens的努力,语音生成理论初步形成。动态规划方法[4]由苏联的Vintsyuk提出,并实现了对两段语音进行对齐。70年代取得一系列重大突破,基本实现孤立词识别。俄罗斯推进了模板匹配思想在语音识别中的应用;利用动态规划方法实现语音识别也由日本的科学家实验成功。20世纪80年代,语音识别研究的一个主要特点是由模板匹配方法向统计建模方法的转变,特别是隐马尔可夫模型[5-6]。尽管HMM众所周知,但是直到20世纪80年代中期HMM模型才广泛被世界各地的语音识别实验室熟悉和采纳。另一个新方向是利用神经网络解决语音识别问题,促进了该技术在语音识别领域的应用[7-9]。20世纪80年代后期,在DAPRA的支持下,对大词汇连续语音识别系统的研制也取得了显著的成果,研究机构主要有CMU、BBN、林肯实验室、MIT、AT&T贝尔实验室。
20世纪90年代以来,语音识别开始实用化研究,并取得了突破性的进展。其中算法的研究取得了非常明显的效果,并提升了系统的性能,如最大似然线性回归(Maximum Likelihood Linear Regression, MLLR),最大后验概率准则估计(MaximumA-Posteriori Estimation, MAP),以及用于模型参数绑定的决策树状态聚类等算法,这些算法的不断优化,也使得应用于实际的语音识别不断出现。最具有有代表性的系统有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform语音平台,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美国国家标准和技术研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不断推动下,各个研究机构不断尝试语音识别任务,目的是不断提高识别的性能。进入21世纪,在向广度和深度两方面,自动语音识别得到了更为广泛的研究。鲁棒性语音识别,进行了了细致的调研,特别是在置信度和句子确认方面非常有效,尤其对处理病句。在21世纪的前10年,信息技术领域最重要的十大科技发展技术之一就有语音识别技术的一席之地,人机接口关键的语音识别技术,已经成为一个具有竞争性的新兴高技术产业,它的实用化研究将成为未来的方向。
1.2俄语语音识别技术的发展
语音技术的研究主要集中在几个主要的语言,如英语,法语,西班牙语,汉语和西班牙语,一些其他语言尤其是东欧语言很少受到注意。但是近几年在俄罗斯,捷克,波兰,塞尔维亚,克罗地亚等俄语区对俄语语音技术的研究活动正在稳步上升。
俄罗斯科学院紧跟世界语音识别技术的发展,结合俄语自身的独有发音特点进行了卓有成效的研究并取得了一系列的成果。在开发声学,词汇和语言模型时采取特别重视俄语的细节,对于声学模型,采用知识和基于统计的方法来创建几个不同的音素集10。对于语言模型(LM),从不同网站自动收集新闻文本语料,用统计分析的方法将训练文本数据和语法相结合,计算不同情况下n-gram中单词的频率,优化n-gram模型,以建立更好的n-gram模型[11]。在基本语音识别单元的问题上采用距离最小信息不匹配的原则,建立语素级单元,显著减少误差概率[12]。
语料库是语音识别最基本的支撑,文本语料和口语语料都是一个语料库不可或缺的组成部分,任缺其一则语料库就不能反映该语言的完整信息,也没有办法在此基础上进行大词汇、非特定人连续俄语语音识别的研究[13]。俄罗斯对语料库的研究起步比较晚,在20世纪一直落后于世界语料库的发展,缺乏系统的理论研究和先进的实践成果。但近十年来,随着俄罗斯国家语料库建立和不断完善,俄语语音技术的研究正在慢慢兴起并取得了一些瞩目的成就。
国内对俄语语音的研究主要集中在教学方面。使用统计的方法,基于HMM对俄语语音进行建模和识别研究,目前还没有发现相关的文献记录。
2 语音识别技术
语音识别系统根据角度、范围、性能等差别,有以下的分类。
根据词汇量的大小分可为小词汇量(10至100)、中词汇量(100至500)和大词汇量(大于500)。根据发音方式可分为孤立词(isolated word)识别、连接词(connected word)识别、连续语音(continuous word)识别等。根据说话人特征可分为特定(speaker-dependent)说话人和非特定(speaker-independent)说话人。根据语音识别的方法不同进行了模板匹配、随机模型和概率语法分析等分类方法。
2.1 语音识别基本原理
通过计算机的辅助功能把输入的语音信号变换为对应的文本和命令,并且能够接受人类的语音、理解人类的意图,是语音识别技术研究的根本目的。语音识别系统核心是一套语音取样、识别、匹配的模式匹配系统[2],基本原理如图1所示。
语音识别系统由三个基本单元组成,它包含特征提取、模式匹配和参考模式库,虽然它是模式识别系统,但它的结构要比普通的模式识别系统要复杂,因为语音所包含的信息是复杂多样的语言信息,结构也是多变的。首先对输入的语音信号进行预处理,预处理包括适当放大信号功率并对增益进行有效控制,之后进行反混叠滤波以消除信号的干扰;然后将模拟信号转化为数字信号即数字化处理,便于存储和处理;然后进行特征提取,并使用一些参数来表示的语音信号的特性;最后对其进行识别。语音识别又分为两阶段:训练和识别。在训练阶段,利用特征参数表示语音信号的相应特征,得到标准数据即模板,将模板构建成一个数据库即模板库;在识别阶段,将语音特征与模板库中的每一个模板进行比较,找到了最相似的参考模板,这就是识别的结果。
2.2 HMM模型技术
语音识别早期采用的有矢量量化(Vector quantization, VQ)技术、动态时间规整(dynamic time warping, DTW)技术等,从处理难度上看,最简单的是小词汇量、特定人、孤立词的语音识别,最难解决的是大词汇量、非特定人、连续语音识别。当今语音识别系统采用的主流算法是HMM模型技术。
HMM模型的状态不能被直接观察到,但可以通过观测向量序列来观察到,这些向量都是通过某些特定的概率密度分布来表现为各种状态的,每个观测向量都是由一个状态序列产生的,这些状态序列具有相应的概率密度分布。HMM是一个双重随机过程:具有一定状态数量的隐马尔可夫链和显示随机函数集。HMM的基本问题及解决算法6-9
1)评估问题(前向算法)。
现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何计算观测序列的概率,进一步可对该HMM做出相关评估。利用forward算法分别以每个HMM产生给定观测序列O的概率进行计算,然后从其中选出最优秀的HMM模型。
经典应用例子就是语音识别。在HMM的语音识别描述中,每个单词对应一个HMM,每个观测序列全部由一个单词的语音来构成,单词的识别可以通过评估而选出最可能的HMM,此HMM由产生观测序列所代表的读音实现。
2)解码问题(Viterbi算法)
现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何寻找最优的隐含状态序列。此类问题比较关注马尔科夫模型中的隐含状态,在这些状态中虽然不能直接观测,但价值更大,可以利用Viterbi算法来解决。
实际例子是进行分词,分词问题可以用HMM来解决。这句话的分割方法可以看做是一个隐式的状态,而这句话可以被视为一个给定的条件,从而找出基于HMM的可能正确的分割方法。
3)训练问题(Baum-Welch算法即前向后向算法)
此时HMM的模型参数λ=(π,A,B)未知,对这些参数进行调整,使得观测序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解决。
2.3 大词汇量连续语言识别
在语音识别研究中难度和挑战性最大为课题应该是基于大词汇量的、非特定人的连续语音识别[13]。在词汇量大于1000词的时候,比较容易混淆的词数量增加,误识率约为基于小词汇量的、特定人的孤立词识别系统的50倍左右。而且还带来两个重要的、不易解决的问题:语流的切分和连续语音的发音变化。此时采用统一框架可以有效解决这个问题。大词汇量连续语音识别总体框架[14]如图2所示。
俄语语音信号分析后,形成特征向量,并通过字典识别模型,然后,根据语言模型的语法,将输入的语音与模板匹配,在句子层面进行组合。从俄语声学模型、俄语语言模型叙述大词汇量连续语音识别的过程。
2.3.1声学模型
设计俄语语音识别系统底层相应的HMM子词单元模型,需要充分考虑俄语声学和语音学的特征。俄语基本声学单元的选择是声学建模过程中一个基本而重要的问题。在俄语连续语音识别中,可供选择的基本单元包括词、音节、元辅音等。识别基本单元的选择一般基于语音学知识。
俄语字母是语音的书面形式,每个俄语字母都有自己的字母名称。元音字母的名称和读音相同,辅音字母的名称是在该辅音后加一个元音[15-16]。如字母с的名称为эс,字母б的名称为бэ等。字母名称通常用于读某些缩写词。俄语字母共有33个字母如表1所示。
根据俄语词的发音特征、音节的发音特征和字母的发音特征,选择音素作为子词单元,然后就可以进行HMM训练,首先用一种很粗糙的方法进行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自动收敛到一个最佳的模型,并实现了一个合理的子词分割。这样就可以初步完成俄语的声学建模,建设一个俄语语音参考模式库。
2.3.2 统计语言模型
自然语言处理问题必然要乃至统计语言模型[17],如语音识别、机器翻译、分词、词性标注等等。统计语言模型是计算概率的模型,即。使用语言模型,可以确定一个单词序列的概率,或给定一个单词的数目,它可以预测下一个最有可能的单词。
那么如何计算一个句子的概率呢?给定句子(词语序列),它的概率可以表示为:
由于上式中的参数过多,因此需要近似的计算方法。下面介绍适用于俄语的n-gram统计语言模型。
n-gram模型即n-1阶马尔科夫模型,首先假设:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:
当n值为1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率。N取值越大,模型越准确但计算越复杂计算量越大。在俄语语言模型的建立过程中,采用最多是二元模型和三元模型。
2.3.3 连续语音识别系统的性能评测
评定连续语音识别系统的优劣,观测系统的性能,一般都是针对不同的识别任务,不同的任务单词库和任务语句库,需要不同的评价标准。如果要想粗略地评估某个系统,可以从两个方面去考虑,一是系统识别任务的难易程度即复杂性;另一个是采用该系统的识别系统的识别方法对该难度的识别任务的识别效果即识别率。在连续语音识别系统中,通过对音素、音节或词的识别率进行识别性能评价,常用的系统参数是正确率(正确率),错误率和识别准确率。
其中的正确数、转换数、插入数和脱落数,采用主观的方法来目测,马可以通过统计的方法来得到。
2.4 HTK工具
语音识别过程涉及的算法复杂,其中最为著名的HTK由剑桥大学研发,主要用来建立基于HMM的大规模连续语音识别系统。该软件集为开放源代码,可以在UNIX/Linux和Windows环境下运行。HTK提供了一系列命令函数用于语音识别,包括一系列的运行库和工具,使用基于ASNIC模块化设计,可以实现语音录制、分析、标示、HMM的训练、测试和结果分析。整个HTK的工作过程包括数据准备、模型训练和识别过程。
3 语音识别的应用
随着计算机技术的进步、算法的不断优化、信息处理技术的智能化,俄语语音识别技术的发展会越来越光明。应用的范围也会越来越广,可能会出现一些新的应用。
1)俄语语音信息检索
网络技术和多媒体技术的迅速发展,数据量急剧增多,如何在海量数据中挑选出有用的信息,并进行相应的分类和检索,对合理地利用信息资源具有重要的意义。多媒体检索技术应运而生。
2)俄语发音自学技术
非母语语言学习成为目前教育领域的一个热点,而自学是语言学习的一个有效途径,它具有不受时间和空间限制、灵活方便的特点,一种称为计算机辅助语言学习的技术诞生了。有几个普通问题和关键技术是必须要考虑和解决的:标准发音语料库和非标准发音语料库、学习者发音的分级标准、语音对齐、衡量发音质量的评判标准和发音矫正。
3)基于俄语语音情感处理
人与人的交流,除了语言信息外,非语言信息也起着非常重要的作用,包含在语音信号中的情感因素[18],也反映了信息的一个方面。情感的分析和识别也是一个非常困难的研究方向。
4)嵌入式俄语语音识别技术
后PC时代智能终端的飞速发展,为人机之间的自然、快捷交互提供了可能。当前嵌入式语音识别的应用领域还比较有限,未来应用可能会更加广泛。
4 总结
语音识别技术的实用研究是一项极具挑战性的工作,虽然经历了近半个世纪的发展,取得了一些突破性的进展。语音识别技术在俄语方面的应用更是如此,不仅要解决语音识别技术本身的问题,还要解决高质量的俄语语音语料库和文本语料库的问题,同时还要解决各种算法与俄语适应和匹配等其他问题,如俄语自然语言的识别与理解、俄语语音信息的变化范围与幅度、俄语语音的清晰度、俄语语音发音与环境噪声及上下文的影响等等。虽然面临诸多困难,但是随着人类文明的不断发展与科技的不断进步,相信这些问题会在不久的将来逐一得到解决,展现在人们面前的是更加流畅、更加智能的人机交互界面。
参考文献
[1] 赵力.语音信号处理 [M].北京:机械工业出版社,2011:191-215.
[2] 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2013:241-255.
[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.
[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.
[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.
[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.
[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.
[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.
[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.
[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.
[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.
[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.
[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.
[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.
[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.
[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.
此外,对于超声科等医技科室,由于医生工作的特殊性,大多通过“一对一”聘请专业录入员的方式提高检查报告录入效率。有些医院为了节约人力,让医生把给病人检查时的语音通过录音设备录制下来,后续通过录入员测听音频文件进行转录,实现一个录入员服务多个医生,以此在一定程度上节约人力,但同时也延长了输出检查报告的时间。 在电子文本的录入过程中基于模板填写具体信息工作量还是比较大的。
另外,模板仅能解决一些常规情况的描述,如果完全按照模板填写,对每位患者的情况记录就缺少了个性化描述,不利于后续诊断使用。为提高文本录入效率,有些医生会使用“复制”、“粘贴”方式,通过在相似患者的病历上进行修改完成病历记录,但有漏改、漏删情况,这种方式在很大程度上增加了病历记录的出错率,对医疗文本录入的准确性是一个比较大的挑战。
语音识别技术在医疗领域的应用越来越多
语音识别技术在欧美国家医疗领域已使用将近10年,主要用于节约医生电子文本录入的时间,降低文本录入工作难度,提高医生工作满意度,让医生把更多时间和精力用在与患者及家俟低交流、为更多患者诊断等事情上。
美国Nuance公司的英文语音识别技术及电脑辅助病历抄写系统,医生可使用掌上移动型设备将病患看诊状况口述下来,存成语音档案,直接传送到语音识别服务器,10小时的语音可在5分钟内完成转录,大大缩短音频文件转录文本的时间。皇家飞利浦电子公司推出的面向医疗领域实时语音识别的专用麦克风,表面采用符合医疗专业要求的防菌抑菌材质,并定制了针对实时语音识别所需的声学硬件模块,使医院工作站实时语音识别实现成功应用,并已在欧美医院成功推广。在放射科等文本录入工作量很大的医技科室尤其受到欢迎。
从统计资料看,美国临床中使用语音识别录入的应用比例已达到10%~20%,主要用于放射科、病理科、急诊室等部门,有效控制电子文本记录及诊断报告生成时间和质量,明显提高工作效率。
语音识别技术是理想的人机交互方式之一,它能够让机器通过识别和理解过程把语音信号转变为相应的文本或命令。北京协和医院在国内首先提出使用语音识别技术录入医疗领域电子文本时,医生纷纷表示担忧,在国内的医疗中语音识别技术的使用和推广面临以下几个难点。
目前国内主流的HIS系统已做了大量工作减少医生输入病历、医嘱时的工作量,如提供大量结构化的病历。医生已习惯这种工作模式。通过语音识别来录入电子文本,尤其在超声科、门诊等环节,医生需要一个熟悉过程。
国内医生的工作环境较复杂,口音等问题也较国外更加突出,医疗特殊单位特殊符号较多,如何保证识别的准确率,让医生用的更加流畅,也是这个项目面临的重要挑战之一。国内移动医疗的趋势越来越明显,基于移动端小屏幕的文本输入一直是语音识别应用致力于解决的问题。如何保障医院复杂环境下移动端的语音识别效果是需要探讨的问题之一。
由于医疗行业的专业性较强,每个学科差异较大,所使用的信息化系统也比较分散,如影像科使用PACS,内科使用HIS等。需要录入文字的工作量较大,但使用的信息化系统较多,要求提供的语音录入文本解决方案,需同时支持多个信息化系统使用,且最大限度降低与原有系统的耦合性。
以上问题,经过为期1年的医疗领域语音识别应用探索和实践,都得到较好解决,超过95%的中文医疗垂直领域语音识别准确率已达到实用水平,中文医疗语音识别技术探索应用方案得到北京协和医院医生认可。
北京协和医院语音识别应用探索和实践
医疗语音识别技术的应用,能将医生口述的语音转成准确度高、完全格式化的初步文件,医生可快速加以核对、编辑,每天可节约1小时左右时间。医生普遍认为语音录入病历可提高文字输入效率,降低工作难度,从总体上提高医院收容处理病人的能力,同时缩短病人的无效等待时间,增加病人满意度。
针对中文医疗语音识别的技术难点,北京协和医院做了很多探索实践工作。
一是定制医疗领域语言模型:针对各科室业务进行梳理,整理了超过30G的医疗文本资料,并对这些资料进行分类、检索等处理。使得定制语音模型覆盖各个科室常用的病症、药品名称、操作步骤等关键信息,使语音识别准确率超过95%的水平。 二是定制个性化语言模型:不同科室的医生在录入医嘱时说的话也不同。北京协和医院语音录入系统和用户的账号系统绑定。医生登录HIS时会加载所在科室的语言模型,这样就可以有效降低模型大小,提高识别准确度。同时医生也可根据自己的使用习惯,向系统中添加自己常用的词汇。 三是一体化私有建设:实现一套私有化部署的语音云支持多渠道多终端的一体化建设。除支持HIS、PACS等PC端应用,还支持移动查房等pad端应用,真正实现跨平台的多渠道互联互通应用,大大降低医疗信息化建设成本。 医疗语音识别系统采用分布式计算,具有高健壮性、高度灵活性、高性价比等特点,主要包括操作系统层、引擎层、资源包和管理工具4个层次。操作系统层提供开发接口,以及开发人员关注的接口定义、功能和使用方法;引擎层提供核心的语音处理功能,作为应用接口的功能实现者;在引擎层之上提供覆盖医疗领域的资源包,为科室提供语音识别优化的功能。同时系统完美地支持传统API调用和手机APP开发,为医院原有信息化系统提供了相关接口和SDK。
北京协和医院医疗语音识别应用效果初现
据了解,医疗语音识别已在北京协和医院病房、医技科室、手术休息区进行了尝试使用。为更好地测试语音识别效果,北京协和医院组织医生进行了语音识别系统测试和主观体验,随机抽样了135例样本进行精确统计。
已上线科室使用医疗语音识别系统的医生表示,该系统的语音识别效果较好,可以有效提高工作效率,降低工作强度,减轻工作量,尤其对长段信息、自由医嘱录入的效果明显。超过50%的大夫认为语音识别技术每天可节约1小时左右时间。超过90%的大夫希望使用语音录入方式,以提高工作效率。