〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜

                         “君子動口不動手”
               ―――淺談国際語音技術(科技漫話)

  劉仲華

  “君子動口不動手”,只要会説話,誰都会使用計算机。這是語音技術帶給
計算机行業的新境界。

  日前,由英特尓公司牽頭、有7家世界著名学術机構参與的国際語音技術研
究組織在北京正式成立,以共同推進語音技術在全球范圍内的發展和應用,尤其
是致力于中文語音技術的開發。自1981年第一台个人電腦問世以来的近20年里,
个人電腦性能不断提高,已成爲人們生活、工作、娯樂不可缺少的夥伴和工具。
但人與電腦的溝通總要通過西文鍵盤、鼠標等,這對非專業使用者尤其是非英語
用戸造成很大障碍。随着微處理器性能的迅速提高,人們期待着更加智能化的電
腦。而語音技術的出現將真正改變人與計算机的互動模式,使電腦人性化―――
能“听”、会“説”、善“做”,領会毎个人的工作方式,从而使人們的双手得
以真正的解放。

  長期以来,計算机專家一直希望電腦能識別和理解人的“自然語言”。語音
識別技術的研究始于50年代,但直到現在,一些關鍵性技術的突破,才使得語音
技術的广泛運用成爲可能。這些技術包括:計算能力日益強大,而計算机成本不
断降低;計算机平台技術的整体發展,例如通用串口總綫技術和更快的存儲技術;
語音算法和信号處理技術的改進;軟件編程水平的提高等。1997年以国際商用机
器公司推出的語音听寫軟件爲代表的一系列語音軟件問世后,語音技術開始走向
成熟并進入市場。据估計,1997年語音技術的總銷售額爲5億美元,到2000年這
个数字將増加一倍。今年以来,英特尓、国際商用机器公司、朗訊公司等都競相
推出了更先進的語音技術産品,語音技術已成爲整个計算机行業矚目的焦点。

  語音技術的發展有三个歩驟:語音識別、語音合成、自然語音合成―――不
但能將人的話轉化成文本,還能理解語意,并有相應回應。在開發語音識別技術
方面,一个很大的困難是讓計算机理解人的“自然語言”。人們常常不按語法説
話,有時還説俗話、玩笑話和省略語等,給理解其意義造成了困難。語音識別要
克服的ling4一大障碍是人們説話時吐字速度變化不定,科学家用動態時間離散
技術解决了這个問題。

  語音識別技術的應用主要有兩方面:一是用于操控電腦和人机交流。動動口,
就能打開或關閉程序,改變工作界面。无論ni3在家、辧公室或在路上,只要用
声音控制,ni3就可電話購物和取款、投資股市、上网處理電子郵件乃至開車等。
安全系統也可用語音識別輸入密碼,應用于辧公区、禁区、銀行等。二是用于語
音輸入和語音(合成)輸出。以中文輸入而言,普通人用鍵盤輸入一般毎分鐘30―
50字,而語音輸入則能達到毎分鐘150字。不必動手,就能完成从文字輸入到格
式編排的全部工作。直接听寫使人講話更連貫,思維更流暢,靈感不会受pin1寫
和拆字的影響。装有語音軟件的電腦還能用根据需要用各種語言將文件“説”出
来,這將大大推動遠程通信、网絡電話和盲人電腦的發展。

  現階段,語音技術將主要用于電子商務、商業服務和教育培訓中。在服務業、
医葯、法律等領域,語音識別技術的開發與應用已逐歩産生效益。据估計,應用
語音技術將帶来60%的年收益率。朗訊公司將其開發的語音識別装置應用于銀行
和金融公司的電話中心,在客戸打進電話時,爲毎位客戸節省了20―25秒時間。
聯合包裹公司過去在毎年業務最繁忙時,都要雇用臨時人員以加強電話中心的工
作,1997年該公司以語音識別系統代替了臨時雇員,成本僅爲雇用人員費用的1/
3。日本京都的高級電信研究所爲自動翻譯系統開發了語音識別技術,在這个系
統中,打電話人説的是英語,而傳到受話人耳中時,已是人工合成的日語了。飛
利浦公司開發的医療語音系統軟件也很受放射学家歡迎,原来医務人員毎天要填
寫数十分臨床化驗報告,改用向机器口述后可使時間縮短40%。下一代奔馳豪華
汽車的駕駛者可用声音来操縱車上的電話、收音机和激光唱机,无需動手,只要
動口,車上的声控計算机將執行駕駛者的命令。

  人生下来就有用語言交換信息的能力,語音技術讓人直接和計算机説話,是
最自然的人机交流方式,它比鍵盤更方便,比鼠標更直接。語音技術將跨越非英
語国家使用計算机和因特网的一个主要障碍,即對于西文鍵盤的依頼,从而使更
多的人進入計算机的天地,將給全球計算机用戸及信息産業乃至全球經濟帶来極
大好處。

《人民日報 》1998-12-21 第7版