IBM語音識別系統實現錯詞率重大突破

草根影響力新視野編譯:鍾藝圖片:百度圖片

IBM01

技術領域的從業者花了數年時間開發語音識別軟體。目前，IBM稱其語音識別軟體的字詞錯誤率僅為5.5％，低於之前的6.9％的記錄。這對於語音識別行業來說是重大的里程碑，可能最終會引領Siri和Alexa等語音助手的技術改進。

微軟聲稱去年10月使用類似於聯想詞雲的神經語言模型達到5.9％的錯詞率。當時，該公司認為這個數據能與人類錯詞率相媲美。但IBM說這個數據並不值得慶祝。 IBM主要研究科學家喬治·薩恩（George Saon）在本周發表的一篇博客中寫道：「我們是實現今天里程碑的重要貢獻者，然而我們確定人類實際錯詞率比目前所有語音識別系統能達到的錯詞率都低－僅為5.1％。」

IBM通過所謂的長短期內存（Long Short-Term Memory），人工神經網路、與三種強大的聲學模型相結合的WaveNet語言模型，開發出了錯誤率僅為5.5％的語音識別系統。然後使用「SWITCHBOARD」語料庫對此語音識別系統進行測量，該語料庫是幾十年來被用作語音識別軟體測量的標準。實現 5.5% 的詞錯率是一個大突破，但實際上，測試標準並不總能體現真實數據的複雜性和多樣化，與此同時，人類實際詞錯率的確定也表明我們還遠沒有達到最終目標。

哥倫比亞大學計算機科學系教授Julia Hirschberg說：「降低語音識別錯詞率和衡量人類詞錯率是一個持續性的挑戰。因為人類的言語，特別是在隨意交談的時候，是非常複雜的。同時，我們也很難為人類錯詞率做標準界定，因為每一個不同的個體在理解他人語言上水平參差不齊。」

相關信息補充：

IBM公司語音識別研究團隊一直以「創造一種更具活力的電腦交互方式」作為重要使命之一。IBM於上世紀50年代末開始語音識別的技術研究。在1962年西雅圖世界博覽會上，由IBM研發出的「鞋盒」大放異彩，成為當時世界上最先進的語音識別機器，這台機器能理解人類口述數字0~9以及簡單的運算口令。但在之後的很長一段時間裡，由於電腦技術和語音識別研究方法的限制，語音識別並沒有太大進展。直到信息理論的強大統計演算法的出現，語音識別才重新踏上了進步發展之路，能識別5000個英語單詞的語音識別系統面世。但還有一個問題擺在技術人員面前：這台語音識別處理機大的出奇，無法實現應用普及化。

IBM02

時至今日，對於大眾最為熟悉的語音識別系統是Apple的Siri。藉助高速網路的發展，Apple利用高性能伺服器代替了手機來進行有大量複雜運算需求的語音識別工作。同時，搜索引擎和ios手機系統的結合，更使得Siri用戶體驗性得到大幅度提升。在Siri大獲全勝後，Google等高科技企業也紛紛加入語音識別的開發洪流，而曾經的「語音識別奠基人」 IBM也在這個洪流中再度佔據鰲頭。

資料來源 :

IBM inches toward human-like accuracy for speech recognition