Embedded Digital System
Speech Recognition |
|||||
语音识别技术新热点 语音识别专用芯片
引言 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这 些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品 的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用 ,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理 专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(S ystem on Chip,SOC)的出现,为其广泛应用创造了极为有利的条件。
本文将主要介绍关 于语音识别专用芯片的基本情况。 应用领域 语音识别专用芯片的应用领域,主要包括以下几个方面: 1、 电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功 能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2、 汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在 汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的门、 窗、空调、照明以及音响等设备,同样也可以由语音来方便的控制。 3、 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时 ,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做 出应答。 4、 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很 小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现 多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现 在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少 量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机 交互界面。 5、 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命 令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有 很大的市场潜力,而其关键在于降低语音芯片的价格。 6、 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器 就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单 易行。 除了上文中所提到的应用以外,语音识别专用芯片在其他方面的应用可以说是不胜枚举。 随着语音识别专用芯片的技术不断提高,将给人们带来极大的方便。 功能特点 对比语音识别技术的两个发展方向,由于基于不同的运算平台,因此具有不同的特点。 大词汇量连续语音识别系统一般都是基于PC机平台,而语音识别专用芯片的中心运算处理器 则只是一片低功耗、低价位的智能芯片,与一台甚至多台PC机相比起来,其运算速度,存 储容量都非常有限,因而这些由专用芯片实现的语音识别系统有如下几个特点: 1、 多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才 有连续数码或连续字母语音识别专用芯片实现。 2、 一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训 练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别 ,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习而直接 应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训 练好的语句。 3、 由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个 好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回 放(语音编解码记录)功能。 4、 多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应, 这就对电路的运算速度有较高的要求。 5、 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱 低等特点。
语音识别专用芯片的类型 根据识别性能及语音识别算法的不同,语音识别专用芯片大致有以下几种类型: 1、 由多带通滤波器及线性匹配电路构成。这是在二十世纪80年代初期的产品,也是最早 期的语音识别专用集成电路(Integrated Circuit, IC)。它是由一组带通滤波器组成特 征提取电路,然后用线性匹配电路进行模式匹配。这种电路的语音识别性能低,现已很少 应用。最典型的芯片是东芝公司1986年生产的T6658A,它由23个开关电容LSI(Large Sca le Integration,大规模集成电路)组成的带通滤波器及线性模式匹配电路组成,为特定 人孤立词识别,最高识别40个词条,平均识别率为80%左右。 2、 由单片微控器(Micro-programmed Control Unit, MCU)组成的语音识别专用IC。用 8位机或16位机为计算核心,外加A/D变换,D/A变换以及存储器组成。由于MCU的运算能力 有限,因而其识别算法不可能复杂,精度也低,故一般识别率不会太高。典型芯片是1996 年美国Sensory公司生产的RSC-164。 3、 由数字信号处理器(Digital Signal Processor, DSP)组成的语音识别系统。一般由 定点16位DSP组成,外加A/D变换、D/A变换,以及ROM、RAM、FLASH等存储器组成。由于DS P包含用作数字信号处理运算的专用部件,因而运算能力强,精度高,适于组成较高性能的 语音识别系统。最常用的DSP芯片有Ti公司的TMS320AC54XX系列,AD公司的ADSP218X系列, 以及DSPG公司开发的OAK系列。用DSP组成的语音识别系统可以实现孤立词特定人和非特定 人语音识别功能,其识别词条可以达到中等词汇量。此外,还可以实现说话人识别以及高 质量高压缩率语音编解码功能,因而同时可以产生高品质的语音合成和语音回放功能,这 是当前语音识别专用芯片的主流组成。 4、 由人工神经网络构成的语音识别专用芯片。由于语音信号是一个时间区间动态变化的 信号,一般采用的多层前向感知机算法。但是,由于人工神经网络很难达到和语音信号的 最佳匹配,因此用人工神经网络实现的语音识别系统的识别性能很不理想。而如果采用时 延单元神经网络,并且与其他方法配合,则可以实现较高性能的语音识别。例如1991年GM ResLab利用时延单元神经网络(Time Delay Neural Network, TDNN)模拟芯片实现了特定 人英语数字串的识别,8个数字串的识别率达到了98%以上。 5、 语音识别片上系统(System on Circuit, SOC)。将MCU或DSP、A/D、D/A、RAM、ROM 以及预放、功放等电路集成在一个芯片上,只要加上极少的电源供电等单元就可以实现语 音识别语音合成以及语音回放等功能,这是最近两年出现的最先进的语音识别芯片,其性 能价格比较高,功耗省。最有代表性的是Sensory公司的RSC-364,这芯片将在下文进行详 细介绍。
算法特点 语音识别系统的基本流程如图1所示 语音信号输入后首先经过滤波器,去除干扰及可能造成混淆的成分,然后由前端处理模块 提取语音识别所需的特征参数。当前语音识别所用的特征参数主要有两种类型:线性预测 倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)和MEL频标倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)。 LPCC系数主要是模拟人的发声模型,未考虑人耳的听觉特性。它对元音有较好的描述能力 ,对辅音描述能力及抗噪性能比较差,而其优点为计算量小,易于实现。 MFCC系数则考虑到了人耳的听觉特性,具有较好的识别性能。但是,由于它需要进行快速 傅立叶变换(Fast Fourier Transform Algorithm, FFT),将语音信号由时域变换到频域 上处理,因此其计算量和计算精度要求高,必须在DSP上完成。 语音识别模块的作用是将输入信号的特征与模板库中已训练好的语音模板进行比较识别, 找到最好的识别结果。 现在应用较为广泛的语音识别的算法主要有以下几种: 1、 动态时间规整(Dynamic Time Warping, DTW)。这一方法自六七十年代发展至今,现 在在孤立词、特定人、小词表识别系统中,仍然有其优点。其训练方法简单,计算量较小 ,在很多任务简单的识别系统当中,还在使用这种方法。 2、 离散隐马尔可夫模型(Discrete Hidden Markov Model, DHMM)。HMM方法是当前语音 识别系统的主流识别算法。它是建立在统计模型基础上的识别方法,其识别性能高,稳健 性(Robust)好,尤其在非特定人识别中,具有明显的优势。离散HMM方法是先将特征参数 进行矢量量化(Vector Quantization, VQ),用离散的数值表示特征矢量,然后再进行H MM的统计识别,这样可以大大压缩特征参数在识别过程中的运算量和存储空间。当然,在 量化过程中会带来损失,对识别性能有一定的影响。但是,为了能在资源非常有限的芯片 上进行非特定人、孤立词识别,DHMM方法仍是可行的方案。 3、 连续隐马尔可夫模型(Continuous Hidden Markov Model, CHMM)。该方法识别精度 高,但运算量大,主要用于大词汇量连续语音识别,并且一般都需要基于PC机平台,目前 尚未在专用芯片上实现。 4、 人工神经网(Neural Network, NN)。正如前文所提到的,由于语音信号具有动态时 间特性,因而应用人工神经网络优化有一定困难,难以达到很高的识别性能,而且学习时 间长,运算量过大,只有极少量的语音识别专用芯片使用该算法进行识别。
典型语音识别专用芯片举例 在20世纪六七十年代以来,语音识别的研究人员一直致力于语音识别专用芯片的研究,但 是,大多数的语音识别专用芯片识别性能差,不具备实用的要求。直到近十年以来,随着 语音识别算法的深入研究和集成电路技术的发展,才出现了一些具有实用价值和市场前景 的语音识别专用芯片。其中,较为成功的两个芯片详细介绍如下: 1、 RSC-364 由美国Sensory Integrated Circuit公司开发,2000年开始生产,是一颗为消费类电子产 品应用的低价位的语音识别专用芯片,其结构图如图2所示。 RSC-364是一片以8位MCU为核心的CMOS器件,片上还集成了ROM、RAM、A/D、D/A、前端放大 器及功率放大器件。因此,可以说它是一颗片上系统(SOC),只要加上很少的外围元件就 可以组成一个语音识别系统。其运算能力为4MIPS(Million Instructions Per Second) ,为了提高运算能力,片上包括了一个24位Χ24位的乘法器。 RSC-364使用预先学习好的人工神经网络进行非特定人语音识别,不需要经过训练就可以识 别Yes、No、Ok等简单语句,其Data Book上称其识别率为97%。此外,RSC-3 64可以识别特定人、孤立词命令语句,约60条左右,其Data Book上称其识别率为99%以上 。 RSC-364还具有5~15kb/s的语音合成,其语音合成由Sensory专门设计,其音质较好。它还 具有改进的ADPCM(自适应差分脉冲调制)语音编解码功能,用作语音回放。 国内语音识别专用芯片的现况 国内在语音识别专用芯片的开发与研究方面起步较晚,本实验室是国内最早专门从事语音 技术与专用芯片设计研究单位之一,承担了国家863项目,以及国际合作项目语音识别专 用芯片研究开发课题,研究开发了国内的第一个具有自主知识产权的语音识别专用芯片 的软件部分。该芯片以8位MCU为核心,采用嵌入式芯片设计方法。芯片中包括了8位MCU核 、低通滤波器、A/D、D/A、预放、功放、RAM、ROM、PWM等模块,并载入了语音识别、语音 压缩编码、语音合成算法,构成一个完整的高集成度语音识别片上系统。该芯片能够识别 约20~30条特定人语音命令,同时具有语音合成(提示)与语音编解码(回放)功能。语 音识别率达到98%以上,性能达到国际先进水平。 目前正在研发新一代基于16位定点DSP的语音识别专用芯片,其性能将更加强大。该芯片将 能够识别特定人、非特定人语音命令和汉语数码,识别的语音命令可以达到200条以上。此 外,系统中还包括:高质量低速率语音编解码、语音合成、说话人识别、回声抵消、噪声 相消等其他功能。其中,非特定人汉语数码语音识别率达到98%以上,人名呼叫拨号识别率 达到99.5%,达到国际先进水平。该芯片可以用于汽车电子系统,实现语音控制和语音拨号 ,语音PDA,高档语音智能玩具,语音监录器,智能语音遥控器,高档电话伴侣等。
Embedded Digital System Co.,Ltd. CANADA 嵌入数码系统公司 Email: embedigital@yahoo.com copy right © 2002 All Rights Reserved |
|
|
|