4月14日,記者從云從科技獲悉,通過針對語音技術(shù)難點(diǎn),創(chuàng)新提出的新模型,在語音識別、語義糾錯、深度學(xué)習(xí)降噪等領(lǐng)域刷新多項(xiàng)國際、國內(nèi)語音識別權(quán)威紀(jì)錄,推動技術(shù)朝更智能地“聽”邁進(jìn)了一大步。
據(jù)了解,近年來整個人工智能語音領(lǐng)域取得快速發(fā)展,但目前常見語音交互場景多是在安靜環(huán)境下的單人交互,在日常應(yīng)用仍有諸多問題亟待突破:例如在多人場景的語音、噪聲混合中,如何追蹤并識別至少一個聲音、正常在嘈雜環(huán)境下正常交流,也就是“雞尾酒會問題”,仍是研究者們致力解決的難題。針對這些技術(shù)難點(diǎn),云從在語音識別、語義糾錯、深度學(xué)習(xí)降噪等多個方向上,創(chuàng)新性提出新模型,并在多個數(shù)據(jù)集上刷新最優(yōu)成績。
在語義糾錯技術(shù)上,字錯率降低代表使語音更準(zhǔn)確地轉(zhuǎn)換文字,糾正語義的錯誤。針對常見的語法糾錯、拼寫糾錯與語音識別系統(tǒng)轉(zhuǎn)寫的錯誤分布差異較大、傳統(tǒng)模型不適合直接使用等問題,云從科技提出一種基于BART預(yù)訓(xùn)練模型的語義糾錯技術(shù)方案,不僅可以對數(shù)據(jù)中常見的拼寫錯誤進(jìn)行糾正,還可以對一些常識錯誤、語法錯誤,甚至一些需要推理的錯誤進(jìn)行糾正。在權(quán)威中文語音識別數(shù)據(jù)集Aishell和清華大學(xué)語音Thchs30測試集上,云從科技將字錯率(Character Error Rate,CER)第一遍WFST解碼以及第二遍RNN重打分結(jié)果分別相對降低21.7%和10.3%。
語義糾錯技術(shù)的提升意味著讓AI更加“聽得懂”,而語音識別技術(shù)的提升意味著讓AI“聽得出”,即將每個人同“指紋”一樣獨(dú)有的“聲紋”識別出來,指標(biāo)提升意味著更精準(zhǔn)識別出說話者。
語音識別技術(shù)刷新Aishell紀(jì)錄,將字錯率降低到4.34%,較過去最好成績降低了8%;云從團(tuán)隊(duì)提出的新模型,巧妙融合了語音識別和說話人識別,提高識別率的同時,極大提升了在不同說話人場景下的魯棒性。
深度學(xué)習(xí)降噪模型針對在嘈雜環(huán)境去除噪聲,使語音更清晰。云從科研團(tuán)隊(duì)提出一種基于U-Net和注意力機(jī)制attention的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型CARN模型,在國際頂會Interspeech2020 DNS Challenge比賽數(shù)據(jù)集上取得了目前最好的結(jié)果。(記者 雍黎)
標(biāo)簽: 云從科技語音技術(shù)
熱門
關(guān)于我們| 廣告報價| 本站動態(tài)| 聯(lián)系我們| 版權(quán)所有| 信息舉報|
聯(lián)系郵箱:905 144 107@qq.com
同花順經(jīng)濟(jì)網(wǎng) 豫ICP備20014643號-14
Copyright©2011-2020 m.09115.cn All Rights Reserved