近日,有消息稱科大訊飛語(yǔ)音識(shí)別的正確率有了巨大的提升,此消息一出引發(fā)網(wǎng)友關(guān)注,具體情況快隨小編看看吧!
今天下午,科大訊飛AI研究院常務(wù)副院長(zhǎng)劉聰發(fā)表了關(guān)于“構(gòu)筑AI科技樹,煥新美好新生活”的主題演講。在演講中,劉聰提到了如何保持AI技術(shù)不斷突破以及如何實(shí)現(xiàn)應(yīng)用落地的問題。
劉聰認(rèn)為,在人工智能的應(yīng)用場(chǎng)景中,最重要的一個(gè)就是語(yǔ)音交互。他稱語(yǔ)音識(shí)別是訊飛的傳統(tǒng)強(qiáng)項(xiàng)。近年來(lái),科大訊飛陸續(xù)推出了方言識(shí)別、遠(yuǎn)場(chǎng)交互、多麥克風(fēng)陣列等相關(guān)的功能,將語(yǔ)音聽寫從簡(jiǎn)單場(chǎng)景的可用做到了通用。
下一步,科大訊飛將持續(xù)深耕語(yǔ)音識(shí)別,去挑戰(zhàn)更加復(fù)雜的場(chǎng)景,去實(shí)現(xiàn)從語(yǔ)音到聲音,從單純的文字內(nèi)容的識(shí)別,到音頻的全場(chǎng)景解析。例如直播場(chǎng)景這樣有游戲、音樂以及笑聲、掌聲等各種音效嘈雜的背景下,如何有針對(duì)性地提取想要的聲音。
面對(duì)這種復(fù)雜的環(huán)境,科大訊飛已經(jīng)有一套全場(chǎng)景音頻解析的整體方案。目前,可達(dá)訊飛在直播場(chǎng)景下的識(shí)別準(zhǔn)確率已經(jīng)從從60%提到了85%。未來(lái),這些相關(guān)技術(shù)會(huì)在科大訊飛的開放平臺(tái)、訊飛聽見等上線。