〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 “君子動口不動手” ―――淺談国際語音技術(科技漫話) 劉仲華 “君子動口不動手”,只要会説話,誰都会使用計算机。這是語音技術帶給 計算机行業的新境界。 日前,由英特尓公司牽頭、有7家世界著名学術机構参與的国際語音技術研 究組織在北京正式成立,以共同推進語音技術在全球范圍内的發展和應用,尤其 是致力于中文語音技術的開發。自1981年第一台个人電腦問世以来的近20年里, 个人電腦性能不断提高,已成爲人們生活、工作、娯樂不可缺少的夥伴和工具。 但人與電腦的溝通總要通過西文鍵盤、鼠標等,這對非專業使用者尤其是非英語 用戸造成很大障碍。随着微處理器性能的迅速提高,人們期待着更加智能化的電 腦。而語音技術的出現將真正改變人與計算机的互動模式,使電腦人性化――― 能“听”、会“説”、善“做”,領会毎个人的工作方式,从而使人們的双手得 以真正的解放。 長期以来,計算机專家一直希望電腦能識別和理解人的“自然語言”。語音 識別技術的研究始于50年代,但直到現在,一些關鍵性技術的突破,才使得語音 技術的广泛運用成爲可能。這些技術包括:計算能力日益強大,而計算机成本不 断降低;計算机平台技術的整体發展,例如通用串口總綫技術和更快的存儲技術; 語音算法和信号處理技術的改進;軟件編程水平的提高等。1997年以国際商用机 器公司推出的語音听寫軟件爲代表的一系列語音軟件問世后,語音技術開始走向 成熟并進入市場。据估計,1997年語音技術的總銷售額爲5億美元,到2000年這 个数字將増加一倍。今年以来,英特尓、国際商用机器公司、朗訊公司等都競相 推出了更先進的語音技術産品,語音技術已成爲整个計算机行業矚目的焦点。 語音技術的發展有三个歩驟:語音識別、語音合成、自然語音合成―――不 但能將人的話轉化成文本,還能理解語意,并有相應回應。在開發語音識別技術 方面,一个很大的困難是讓計算机理解人的“自然語言”。人們常常不按語法説 話,有時還説俗話、玩笑話和省略語等,給理解其意義造成了困難。語音識別要 克服的ling4一大障碍是人們説話時吐字速度變化不定,科学家用動態時間離散 技術解决了這个問題。 語音識別技術的應用主要有兩方面:一是用于操控電腦和人机交流。動動口, 就能打開或關閉程序,改變工作界面。无論ni3在家、辧公室或在路上,只要用 声音控制,ni3就可電話購物和取款、投資股市、上网處理電子郵件乃至開車等。 安全系統也可用語音識別輸入密碼,應用于辧公区、禁区、銀行等。二是用于語 音輸入和語音(合成)輸出。以中文輸入而言,普通人用鍵盤輸入一般毎分鐘30― 50字,而語音輸入則能達到毎分鐘150字。不必動手,就能完成从文字輸入到格 式編排的全部工作。直接听寫使人講話更連貫,思維更流暢,靈感不会受pin1寫 和拆字的影響。装有語音軟件的電腦還能用根据需要用各種語言將文件“説”出 来,這將大大推動遠程通信、网絡電話和盲人電腦的發展。 現階段,語音技術將主要用于電子商務、商業服務和教育培訓中。在服務業、 医葯、法律等領域,語音識別技術的開發與應用已逐歩産生效益。据估計,應用 語音技術將帶来60%的年收益率。朗訊公司將其開發的語音識別装置應用于銀行 和金融公司的電話中心,在客戸打進電話時,爲毎位客戸節省了20―25秒時間。 聯合包裹公司過去在毎年業務最繁忙時,都要雇用臨時人員以加強電話中心的工 作,1997年該公司以語音識別系統代替了臨時雇員,成本僅爲雇用人員費用的1/ 3。日本京都的高級電信研究所爲自動翻譯系統開發了語音識別技術,在這个系 統中,打電話人説的是英語,而傳到受話人耳中時,已是人工合成的日語了。飛 利浦公司開發的医療語音系統軟件也很受放射学家歡迎,原来医務人員毎天要填 寫数十分臨床化驗報告,改用向机器口述后可使時間縮短40%。下一代奔馳豪華 汽車的駕駛者可用声音来操縱車上的電話、收音机和激光唱机,无需動手,只要 動口,車上的声控計算机將執行駕駛者的命令。 人生下来就有用語言交換信息的能力,語音技術讓人直接和計算机説話,是 最自然的人机交流方式,它比鍵盤更方便,比鼠標更直接。語音技術將跨越非英 語国家使用計算机和因特网的一个主要障碍,即對于西文鍵盤的依頼,从而使更 多的人進入計算机的天地,將給全球計算机用戸及信息産業乃至全球經濟帶来極 大好處。 《人民日報 》1998-12-21 第7版