|
樓主
今天微軟在官方博客撰文表示在語音識別方面已經(jīng)取得了重大突破,在對話交流中微軟的語音識別技術已經(jīng)可以像人類的耳朵一樣識別對話。根據(jù)本周一美國康奈爾大學的一篇論文顯示,一支由微軟人工智能研究部門的研究者和工程師組成的團隊開發(fā)的語音識別系統(tǒng)的識別正確率相當高,甚至可以和專業(yè)速記員相提并論:錯字率(WER,Word error rate)僅有5.9%,而在短短的一個月之前,這個數(shù)字還是同樣由微軟寫下的6.3%。
按照行業(yè)標準Switchboard的語音識別任務測試,目前由專業(yè)速記員組成的人類對照組將語言轉(zhuǎn)錄成文字目前的記錄就是前文中的5.9%。微軟首席語言科學家黃學東表示這樣的一個成績已經(jīng)達到了人類的同等水平,稱之為歷史性的成就也毫不為過。這也是歷史上首次計算機可以和人類一樣識別對話的詞組的構(gòu)成和含義。
一直領導微軟人工智能研究集團的Harry Shum表示這項智能識別上的成就將幫助小娜(Cortana)更強大、更智能。和很多人想象的不一樣的是,即使是人類在錯字率實驗中也無法完美地通過測試,當然機器也不能,就像微軟在日志中舉例的那樣,“A”和“The”聽起來的偏差是難以避免的。
根據(jù)微軟的介紹,他們使用大量的數(shù)據(jù)來指導計算機識別輸入樣本,比如聲音和圖片,而這之中的工具被稱為Computational Network Toolkot(CNTK),這套本地化深度學習系統(tǒng)可以知曉詞與詞之間的語義關系而使得每一個詞被充分概念化。具體的原理相當復雜生硬,感興趣的網(wǎng)友可以前往微軟亞洲研究院的微博查看。
目前研究人員正在努力將語音識別的效果帶到更生活化、更真實的環(huán)境,比如有更多環(huán)境噪音的聚會,或者是駕駛中的車廂內(nèi)(雖然這很危險)。事實上現(xiàn)在的小娜(Cortana)對于我們命令的措詞的辨析精度已經(jīng)很高,除了直接的命令,我們在Windows 10下調(diào)用小冰聊天呢。
關注微信號expkf01,第一時間獲知精彩活動和原創(chuàng)科技資訊。
來源:網(wǎng)絡轉(zhuǎn)載 |
|