端云一體、軟硬結(jié)合,先聲互聯(lián)想要提供智能語(yǔ)音交互一站式解決方案
智能語(yǔ)音交互成為新趨勢(shì),以麥克風(fēng)陣列為代表的聲學(xué)前端器件的重要性日益凸顯。從傳統(tǒng)聲學(xué)器件廠商、互聯(lián)網(wǎng)公司、聲學(xué)初創(chuàng)公司、語(yǔ)音技術(shù)服務(wù)商都紛紛推出相關(guān)產(chǎn)品。我們近期接觸的先聲互聯(lián)科技也是其中的一家,主要面向家居、車載等消費(fèi)應(yīng)用市場(chǎng),為有智能語(yǔ)音交互需求的客戶提供包括聲學(xué)結(jié)構(gòu)設(shè)計(jì)測(cè)試、硬件模組設(shè)計(jì)加工、終端語(yǔ)音模塊研發(fā)、端云一體語(yǔ)音交互、場(chǎng)景定制NLP開發(fā)、產(chǎn)品準(zhǔn)入認(rèn)證與評(píng)測(cè)等在內(nèi)的端云一體、軟硬結(jié)合的一站式解決方案。
當(dāng)前,智能語(yǔ)音交互的諸多問(wèn)題,都是伴隨著遠(yuǎn)場(chǎng)出現(xiàn)的。移動(dòng)互聯(lián)網(wǎng)時(shí)代,語(yǔ)音交互多是發(fā)生在近場(chǎng)環(huán)境中,比如語(yǔ)音通信、調(diào)用Siri等語(yǔ)音助手,但目前家居、車載、可穿戴等智能語(yǔ)音交互的常見場(chǎng)景中,人與機(jī)器的交互基本都是發(fā)生在以米計(jì)量的距離內(nèi)。一般來(lái)說(shuō),人聽到的聲音包括直達(dá)聲和反射聲(人聽自己說(shuō)話的聲音還包括骨導(dǎo)傳輸),當(dāng)距離聲源較遠(yuǎn)以后,聲波的反射效果增強(qiáng)形成較強(qiáng)的混響,特別是在一些聲學(xué)效果較差的環(huán)境,如果附近還有其他的噪聲干擾,例如電視、風(fēng)扇、汽車等等,即便我們?nèi)祟愐埠茈y聽清遠(yuǎn)處的人聲,這就直接影響了遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的準(zhǔn)確率,也會(huì)產(chǎn)生遠(yuǎn)講語(yǔ)音喚醒和識(shí)別等難題。要想提升智能語(yǔ)音交互的體驗(yàn),KUKA機(jī)器人維修,就必須解決遠(yuǎn)場(chǎng)帶來(lái)的這些問(wèn)題。
為此,先聲互聯(lián)研發(fā)了自己獨(dú)有的多通道語(yǔ)音前端信號(hào)處理引擎,綜合利用了多麥克風(fēng)空間濾波、語(yǔ)音分離、解混響和聲源定位等多項(xiàng)基于物理建模的信號(hào)處理技術(shù),KUKA機(jī)器人示教器維修,并融合了基于機(jī)器學(xué)習(xí)的數(shù)據(jù)建模機(jī)制,可以適用于遠(yuǎn)場(chǎng)免提模式的語(yǔ)音識(shí)別和通信應(yīng)用,幫其抑制背景噪聲、非平穩(wěn)干擾、設(shè)備回聲、房間混響等不利聲學(xué)因素,提升聲學(xué)效果及相關(guān)用戶體驗(yàn)。
相比于目前市面上的大部分方案,先聲互聯(lián)多通道語(yǔ)音前端信號(hào)處理引擎采用了物理信號(hào)建模與機(jī)器學(xué)習(xí)數(shù)據(jù)建模相結(jié)合的實(shí)現(xiàn)路徑,這使得使用更少的麥克風(fēng)達(dá)到更好的效果有了可能,對(duì)麥克風(fēng)間距、陣列拓?fù)浣Y(jié)構(gòu)、以及陣元一致性要求也低于傳統(tǒng)的陣列增強(qiáng)算法,實(shí)施效率和靈活性較高。目前市面上大多聲學(xué)方案都僅采用物理信號(hào)建模的處理方式,這也是比較經(jīng)典的處理方式。但隨著機(jī)器學(xué)習(xí)等技術(shù)的成熟,數(shù)據(jù)建模的效果也逐步體現(xiàn)。比如,GoogleHome智能音響,僅使用2個(gè)麥克風(fēng)的陣列達(dá)到了一定的效果,背后也是有類似技術(shù)的支持。
之所以做這樣的嘗試,與團(tuán)隊(duì)過(guò)去聲學(xué)領(lǐng)域的研究和經(jīng)驗(yàn)密不可分。創(chuàng)始人兼CEO付強(qiáng)博士于2000年語(yǔ)音處理專業(yè)博士畢業(yè),并在美國(guó)和歐洲的一流科研機(jī)構(gòu)從事過(guò)相關(guān)的博士后研究,曾是中國(guó)科學(xué)院聲學(xué)所的研究員,20余年語(yǔ)音信號(hào)處理領(lǐng)域的研究,在包括IEEETrans.等國(guó)內(nèi)外權(quán)威學(xué)術(shù)刊物及會(huì)議上發(fā)表論文70余篇,專利10余項(xiàng)。完成了國(guó)家和省部委的幾十項(xiàng)科研課題,其中多項(xiàng)成果在相關(guān)部委列裝。并在2006年和2008年分別和通用、大眾合作,將遠(yuǎn)場(chǎng)語(yǔ)音方案應(yīng)用到車載環(huán)境中。2013年與長(zhǎng)虹合作完成國(guó)內(nèi)首顆智能語(yǔ)音SoC。2014年帶領(lǐng)團(tuán)隊(duì)與海信合作完成國(guó)內(nèi)首臺(tái)具有遠(yuǎn)講語(yǔ)音交互功能的智能電視。2016年中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟先進(jìn)個(gè)人。另外,付強(qiáng)博士的學(xué)生團(tuán)隊(duì)曾在2016年國(guó)際語(yǔ)音分離和識(shí)別挑戰(zhàn)賽CHiME4中,在主辦方提供的基線識(shí)別系統(tǒng)上,僅靠在前端處理部分做的工作,就取得了較好的綜合成績(jī);在前端算法性能提升的橫向比較當(dāng)中,位于國(guó)際前列。
為了方便客戶快速開發(fā),先聲互聯(lián)也希望提供圍繞智能語(yǔ)音交互相關(guān)的更多產(chǎn)品和服務(wù),包括端云一體語(yǔ)音交互、場(chǎng)景定制NLP開發(fā)、測(cè)試服務(wù)等。語(yǔ)音交互方面,先聲互聯(lián)在后端對(duì)接了百度、騰訊、阿里、亞馬遜的智能語(yǔ)音服務(wù),也自研發(fā)了自然語(yǔ)言處理相關(guān)技術(shù),可以為用戶提供場(chǎng)景定制NLP開發(fā)。公司也希望未來(lái)可以借助云服務(wù),成為語(yǔ)音內(nèi)容分發(fā)的入口。
目前,先聲前端處理引擎可支持家居、車載、會(huì)議等多種應(yīng)用場(chǎng)景。根據(jù)不同的場(chǎng)景需求,先聲前端處理引擎目前可支持三種不同的解決方案:
●雙麥克風(fēng)方案。主要面向以家用電子為主的消費(fèi)類電子應(yīng)用,可以靈活地應(yīng)用于消費(fèi)類音響、電視機(jī)頂盒、空調(diào)以及網(wǎng)絡(luò)路由器等設(shè)備;
●四到六麥克風(fēng)方案。主要面向高端家用電子產(chǎn)品、企業(yè)級(jí)應(yīng)用以及機(jī)器人,陣列拓?fù)洳⒉幌抻跇?biāo)準(zhǔn)的線陣和環(huán)陣,可以根據(jù)產(chǎn)品形態(tài)定制陣列結(jié)構(gòu);
●七麥克風(fēng)以上方案。主要面向?qū)π阅芤蟾叩钠髽I(yè)級(jí)應(yīng)用和機(jī)器人。
與市面上一些廠商做標(biāo)準(zhǔn)化的硬件路徑不同,先聲互聯(lián)會(huì)在固定方案的基礎(chǔ)上,會(huì)針對(duì)客戶做一定的定制,以達(dá)到更好的效果。CEO付強(qiáng)博士表示,因?yàn)閳F(tuán)隊(duì)已有多年的產(chǎn)品落地經(jīng)驗(yàn),目前這種定制更多是體現(xiàn)在麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)的變化上,可以做到根據(jù)客戶的ID設(shè)計(jì)來(lái)給出最佳的選擇,也是由于先聲互聯(lián)的前端處理算法自身的適應(yīng)性較強(qiáng),所以這種定制并不會(huì)帶來(lái)系統(tǒng)的復(fù)雜,也不會(huì)增加工時(shí)。事實(shí)上,目前現(xiàn)階段,C端消費(fèi)級(jí)市場(chǎng)的客戶很多還處于嘗試階段,銷量還相對(duì)有限,短期內(nèi)各家廠商的訂單量都還不大。
目前先聲互聯(lián)的技術(shù)及產(chǎn)品已有多項(xiàng)落地,TCL智能電視、海信智能電視、物靈的luka閱讀養(yǎng)成機(jī)器人、極米科技的LightankW100、數(shù)字家圓的親見H2、360的巴迪龍兒童陪伴機(jī)器人等產(chǎn)品都采用了先聲互聯(lián)的遠(yuǎn)講算法以及麥克風(fēng)拾音模組(由共達(dá)電聲合作生產(chǎn))。此外,先聲互聯(lián)也正在和小米、聯(lián)想、阿里、騰訊、優(yōu)必選等公司就某些智能硬件產(chǎn)品展開合作。
因?yàn)樘幱诋a(chǎn)業(yè)鏈的上游,此前聲學(xué)前端器件廠商給外界留下的印象多是不賺錢。幾家聲學(xué)相關(guān)的上市公司,聲學(xué)直接相關(guān)的業(yè)務(wù)營(yíng)收也都相對(duì)有限。不過(guò),智能家居、智能車載等新場(chǎng)景上,傳統(tǒng)輸入方式受限,對(duì)智能語(yǔ)音交互需求有了提升。調(diào)研機(jī)構(gòu)預(yù)測(cè),2020年聯(lián)網(wǎng)設(shè)備將達(dá)340億臺(tái)(激進(jìn)數(shù)據(jù)預(yù)測(cè)或達(dá)460億臺(tái)),產(chǎn)值也有望增長(zhǎng)到500億美元;屆時(shí)全球語(yǔ)音市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到191.7億美元。這樣的前景之下,這一領(lǐng)域不僅涌現(xiàn)出了多家初創(chuàng)公司,也吸引了資本的青睞。成立于2016年的聲智科技已于2016年底獲得1600萬(wàn)元Pre-A輪融資,由洪泰基金領(lǐng)投,峰瑞資本跟投;成立于2016年下半年的GMEMS已經(jīng)完成來(lái)自北極光的A輪融資,庫(kù)卡機(jī)器人驅(qū)動(dòng)器維修,預(yù)計(jì)今年的訂單量可以達(dá)到七八千萬(wàn)元。




