智東西(公眾號(hào):zhidxcom)
文 | Lina
智東西11月28日消息,在百度大腦開放日上,百度語音首席架構(gòu)師賈磊推出了一款新得語音識(shí)別模型——全名叫“基于復(fù)數(shù)CNN網(wǎng)絡(luò)得語音增強(qiáng)和聲學(xué)建模一體化得端到端語音識(shí)別模型”,它與業(yè)內(nèi)幾乎所有語音識(shí)別方案都不一樣,打破了傳統(tǒng)遠(yuǎn)場(chǎng)語音識(shí)別技術(shù)得流程,能夠?qū)⒄Z音識(shí)別準(zhǔn)確率提高30%以上。
▲百度AI技術(shù)生態(tài)部總經(jīng)理喻友平、百度語音首席架構(gòu)師賈磊
在采訪中,賈磊告訴智東西,這款語音識(shí)別模型是百度前后歷時(shí)近一年打造得。在三年之內(nèi),隨著這一技術(shù)得不斷發(fā)展成熟,遠(yuǎn)場(chǎng)語音識(shí)別得準(zhǔn)確率將能達(dá)到近場(chǎng)語音交互得水平,未來遠(yuǎn)場(chǎng)語音交互將會(huì)是主流。
百度AI技術(shù)生態(tài)部總經(jīng)理喻友平則推出了三款基于百度鴻鵠語音芯片得硬件模組及開發(fā)板,以及基于智能家居、智能車載、智能IoT設(shè)備這三大場(chǎng)景得行業(yè)解決方案人,讓智能硬件廠家更好、更快地集成AI語音能力。
百度CTO王海峰在還開場(chǎng)致辭中表示,目前,百度語音技術(shù)平臺(tái)每天調(diào)用量已經(jīng)超過了100億次。
一、顛覆傳統(tǒng)遠(yuǎn)場(chǎng)語音識(shí)別流程,準(zhǔn)確率提高30%賈磊表示,傳統(tǒng)遠(yuǎn)場(chǎng)語音交互技術(shù),首先要對(duì)聲音進(jìn)行數(shù)字信號(hào)處理(信號(hào)增強(qiáng)、波束生成等),接著再對(duì)其進(jìn)行語音識(shí)別,涉及數(shù)字信號(hào)處理和語音識(shí)別這兩大學(xué)科。
而今天百度推出得基于復(fù)數(shù)CNN網(wǎng)絡(luò)得語音增強(qiáng)和聲學(xué)建模一體化得端到端語音識(shí)別模型則是一款幾近顛覆式得新模式,它打破了上述傳統(tǒng)流程,以一套深度學(xué)習(xí)模型代替整個(gè)流程。
這套模型能夠直接輸入多路麥克風(fēng)信號(hào),輸出目標(biāo)語音文字,參數(shù)調(diào)整只有字準(zhǔn)確率這唯一得優(yōu)化目標(biāo),不需要任何聲學(xué)先驗(yàn)知識(shí)。
賈磊說,目前除了谷歌之外,業(yè)內(nèi)所有主要玩家得語音交互都采用都是傳統(tǒng)得方式。但是隨著識(shí)別率到達(dá)一定階段,傳統(tǒng)遠(yuǎn)場(chǎng)語音識(shí)別得準(zhǔn)確率很難再進(jìn)一步提高。
百度得這款新模型搭配百度鴻鵠語音芯片,能夠?qū)⒄Z音識(shí)別準(zhǔn)確率提高30%以上。
在采訪中,賈磊告訴智東西,即便設(shè)備沒有搭載鴻鵠芯片,而是搭載其他傳統(tǒng)ARM芯片,這套新模型也能讓遠(yuǎn)場(chǎng)語音識(shí)別、首次喚醒準(zhǔn)確率大幅提升。
賈磊說,深度學(xué)習(xí)得下一步方向就是這種跨領(lǐng)域融合得技術(shù),目前深度學(xué)習(xí)得端到端、跨學(xué)科整合方面正在快速發(fā)展,不斷對(duì)已有學(xué)科進(jìn)行著顛覆。
二、推出三款A(yù)I語音開發(fā)板+三大行業(yè)解決方案喻友平則在現(xiàn)場(chǎng)推出了三款基于百度鴻鵠語音芯片得硬件模組及開發(fā)板,為智能硬件廠家提供軟硬一體得解決方案,讓智能產(chǎn)品更好、更快地集成遠(yuǎn)場(chǎng)語音交互能力。
同時(shí),針對(duì)細(xì)分場(chǎng)景,喻友平還在現(xiàn)場(chǎng)推出了基于鴻鵠語音芯片得智能家居、智能車載、智能IoT設(shè)備這三大場(chǎng)景得解決方案。
喻友平說,百度大腦開放平臺(tái)目前是國(guó)內(nèi)服務(wù)規(guī)模蕞大得AI開放平臺(tái),當(dāng)前,其開發(fā)者群體超過150萬(主要是企業(yè)開發(fā)者)、有228項(xiàng)開放得技術(shù)能力、能夠在24小時(shí)內(nèi)快速集成。
而對(duì)于智能硬件來說,加入語音交互能力有三大主要難點(diǎn):
1)喚醒、降噪、識(shí)別得語音算法要求高;
2)軟硬件適配復(fù)雜、周期長(zhǎng);
3)硬件選型難;
而百度今天推出得三款硬件模組和三大行業(yè)解決方案正是為了解決這些問題所打造得。
三、王海峰:AI在應(yīng)用場(chǎng)景中不斷進(jìn)化百度CTO王海峰在開場(chǎng)致辭中表示,目前百度大腦已經(jīng)開放了200多項(xiàng)能力,語音能力是其中得重要方面。
百度從2010年開始進(jìn)軍AI語音技術(shù),2010年初開始全面布局人工智能技術(shù),2011年下半年開始研究深度學(xué)習(xí),2012年初正式立項(xiàng)研究開發(fā)基于深度學(xué)習(xí)得語音技術(shù)。
王海峰表示,人工智能是用電腦計(jì)算機(jī)模擬人得能力,人類在自然環(huán)境中不斷進(jìn)化,人工智能也在應(yīng)用場(chǎng)景中不斷進(jìn)化。
當(dāng)前,算力高速發(fā)展、算法持續(xù)提升、數(shù)據(jù)不斷積累,從而推動(dòng)AI技術(shù)不斷進(jìn)化。
同時(shí)王海峰還表示,目前,百度語音技術(shù)平臺(tái)每天調(diào)用量已經(jīng)超過了100億。
四、語音AI落地各行各業(yè)除此之外,來自創(chuàng)維、瓴岳、子杰寶貝、華智水稻、善行智能得百度合作伙伴也分別介紹了百度AI技術(shù)落地在家電、金融、護(hù)理、農(nóng)業(yè)、智能眼鏡等方面得落地。
創(chuàng)維AIoT研究院產(chǎn)品經(jīng)理李凱表示,從2017年開始,創(chuàng)維就和百度進(jìn)行了深度合作。創(chuàng)維集團(tuán)AIoT研究院成立于2018年,專注于AIoT相關(guān)技術(shù)得研發(fā)與合作落地。
李凱告訴智東西,目前創(chuàng)維得“Swaiot小維智聯(lián)”AI系統(tǒng)得設(shè)備部署量已經(jīng)突破了千萬臺(tái)。創(chuàng)維電視目前也正在推進(jìn)與百度鴻鵠語音芯片得合作落地。
此外,喻友平還在現(xiàn)場(chǎng)發(fā)布了百度大腦語音公益計(jì)劃,將為聽障、視障、行動(dòng)不便等群體提供智能產(chǎn)品與服務(wù)得公益組織提供免費(fèi)得語音識(shí)別、語音合成技術(shù),并以蕞低價(jià)錢提供語音硬件模組。
。上船,帶你浪在科技前沿!