2017年是AI彩電產(chǎn)品的元年——所謂AI彩電就是一種新的、能聽懂大家的語言,執(zhí)行語言命令,甚至可以和大家自由對話的電視機產(chǎn)品。統(tǒng)計數(shù)據(jù)表明,2017年新上市彩電機型中,近四分之一配備了語音智能功能。
2018年初,語音智能AI電視進一步升級。業(yè)內預計,2018年新發(fā)布的彩電產(chǎn)品配備AI語音技術的比例,將迅速上升到8成以上,即除了少數(shù)主打低價格的產(chǎn)品外,大部分新品都將成為智能電視。智能語音正在進入一個快速發(fā)展的“新階段”。
消費電子產(chǎn)品,語音技術成為標配
1月29日,作為小米電視2018年推出的第二款新品——小米盒子4正式發(fā)布,其最大特點是直接預置人工智能語音系統(tǒng)。智能盒子產(chǎn)品是“存量老電視體驗升級”的關鍵工具。國內彩電用戶大概有半數(shù)采用智能盒子、OTT盒子、IPTV盒子等產(chǎn)品接入電視網(wǎng)絡。小米盒子4標志著,這一“存量”市場,進入關鍵的“智能語音化”發(fā)展新階段。
智能語音技術的另一個新消費類產(chǎn)品是“智能音箱”。2018年CES展會,百度系展示了3款智能音箱產(chǎn)品。該產(chǎn)品還是三星、蘋果、谷歌等國際巨頭的必爭之地。國內市場,天貓系也在2017年中推出了智能音箱產(chǎn)品。目前,智能音箱產(chǎn)業(yè)開拓最好的是美國市場:在美國,2017年有近六分之一的人(超過5000萬)擁有智能音箱,這個數(shù)字比16年翻了一倍還多。
從國內市場看,智能語音盒子、智能語音音箱和智能語音電視已經(jīng)構成家庭和個人消費“智能語音”應用的三大平臺。且每一個品類的潛在市場規(guī)模都是“千萬臺”的。但是,這三個品類與智能語音應用的王者:智能手機比較,銷量真的有點“小”。手機產(chǎn)品應用語音輸入、語音操作等技術已經(jīng)很久了。其中,更有6成以上的用戶,經(jīng)常使用語音輸入。不過作為掌上設備,語音操作在手機上的應用卻不明顯。
除了以上消費電子設備外,家電行業(yè)還看好“空調”的語音智能化、抽油煙機的聲音感知與油煙感知的自動運行等“家電嵌入智能”技術的發(fā)展。有空調屆人士表示,語音控制的空調產(chǎn)品和環(huán)境自動感知技術結合,能帶來更好的操作體驗、更好地無操作自動環(huán)境控制體驗和避免空轉的節(jié)能效果。
作為人類最重要的溝通方式,語音技術的發(fā)展顯然已經(jīng)成為消費電子產(chǎn)業(yè)重要的創(chuàng)新環(huán)。彩電產(chǎn)品語音化更是成為重要行業(yè)趨勢,并快速邁向普及。
語音智能很神奇,如何做到真好用
很多人覺得,智能電視語音技術就是“多安裝一個軟件”。但是,真實的產(chǎn)品研發(fā),卻要比“一個軟件”復雜的多。
實現(xiàn)語音交互,首先需要為設備配備“麥克風”,也就是“拾音”產(chǎn)品。與我們一般的會議講話、KTV娛樂的麥克風不同,智能語音電視機的麥克風必須具有三個技術特征。第一是,遠場效果好。即至少在5米遠,能夠準確識別日常對話,甚至識別壓低聲音但清晰的對話。這與手機、KTV、直播、會議室麥克風“對著嘴”的應用截然不同。
第二,智能語音技術麥克風必須是“全向拾音”。由于語音交流不是“嘴對著麥克風吹”,也就導致交流人員與麥克風等設備的“角度關系”千差萬別。比如一個智能音箱,擺放在茶幾上,那么他就需要對360度方位內的聲音都能很好識別。因此,智能語音產(chǎn)品通常采用一個“多麥耦合”陣列,實現(xiàn)全方向全域拾音。
第三,智能語音技術的麥克風必須有很高的“信噪比”。即要能夠對抗多種噪聲的干擾。遠場和全向拾音,進一步增加了對麥克風信噪比的考驗。
但是,對于智能語音設備而言,其最大的技術要求顯然不在“苛刻的拾音技術上”,而在于“語音到語意”的理解上。智能語音設備的目的是理解對方的具體意思。這與傳統(tǒng)的會議、KTV、電話等場景,麥克風和語音系統(tǒng)只負責“原樣搬運聲音”的工作完全不同。
識別語音的含義,有哪些難關呢?比如,要從多人語音,尤其是居家環(huán)境下的多人對話、對正在播放的視聽內容的聲音中有效區(qū)分“和誰對話、誰在對話”。這就涉及一種稱為聲紋的身份識別和認證技術(類似于指紋識別、人臉識別等的功用)。再比如,不是每個人都是“新聞聯(lián)播”式的標準普通話應用者:口音、方言、口頭禪,這些的處理具有很大的“個人性”、“差異性”。這需要智能語音系統(tǒng)能夠學習和升級自己,適應“主人”的語言特征。后者涉及到機器學習等高級智能技術。
當然,智能語音技術的電視機,不是“一個人在戰(zhàn)斗”,這種電視機首先是一種“網(wǎng)絡電視機”。即,語音技術可以從網(wǎng)絡上得到更強大的“支持”。包括,智慧程序和算法的升級、個人語言特征和習慣的遠程訪問和使用、遠程云計算提供更為強大的算法和理解計算力支撐,支持更多的“潛在應用”開發(fā)等等。
綜上所述,AI語音電視的升級,不是簡單增加一個軟件而已。而且隨著語音和人工智能技術的進一步發(fā)展,引入專門的智能協(xié)處理器、神經(jīng)元處理器、改變傳統(tǒng)產(chǎn)品的底層架構是大勢所趨。語音技術和彩電產(chǎn)品的整合,將是一個系統(tǒng)性的產(chǎn)品技術體系革新。
有了AI語音,彩電能做什么
彩電和其它消費電子、家電企業(yè)在AI語音技術上的熱情,足以說明這一技術進步的“戰(zhàn)略性”和“重要意義”。
就目前而言,彩電AI語音功能更多的是扮演了“遙控器”的替代者的角色。很多時候找遙控器、遙控器摔壞、遙控器沒電是“很惱人”的事情。彩電行業(yè)一直在嘗試尋找“遙控器替代者”。早期,曾經(jīng)發(fā)展過肢體語言和隔空觸控的技術。但是,這種技術體驗精度、交互廣泛性并不友好,沒有成為主流。
而采用語音技術的產(chǎn)品,不僅可以直接呼喚彩電菜單、電視臺和電視網(wǎng)絡中節(jié)目菜單的內容,也可以實現(xiàn)文字輸入、直接查詢網(wǎng)絡上的以文字信息為索引的“非標準菜單”內容;蛘哒f,語音技術不僅“替代了遙控器的所有功能”,而且還“創(chuàng)造出遙控器不擅長的(例如文字輸入)和不存在的(語音對話)等功能”。
從未來發(fā)展看,語音智能技術會為彩電產(chǎn)品打開一些嶄新的應用場景。傳統(tǒng)彩電的作用主要是視頻娛樂——即內容始終是單向傳輸?shù)。但是,語音技術可以讓彩電成為一個“關鍵節(jié)點”。作為一個語音交互和信息處理器,彩電可以成為其他智能家居產(chǎn)品的“中控大腦”。作為一個連接云系統(tǒng)的輸入終端,彩電可以依賴背后更強大的計算與知識能量,與“觀眾對話、拉家常”,甚至實現(xiàn)更多的主動行為功能、大量互聯(lián)網(wǎng)應用的入口與界面……
某種意義上,智能語音技術的彩電只是彩電真正進入“人機智能”時代的一個窗口。以此為線索,涉及的是整個家居、生活、家庭和個人“智能應用”的體系網(wǎng)絡;以及這個網(wǎng)絡背后所依賴的云存儲、計算和知識體系。彩電企業(yè)高度看中AI電視的發(fā)展,恰是因為語音電視背后巨大的“潛在可能”。
甚至,語音語意技術的創(chuàng)新已經(jīng)成為一項重要的國家戰(zhàn)略。2017年12月,工業(yè)和信息化部印發(fā)了《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》的通知。其中就提到,“支持新一代語音識別框架、口語化語音識別、個性化語音識別、智能對話、音視頻融合、語音合成等技術的創(chuàng)新應用”!2020年,實現(xiàn)多場景下中文語音識別平均準確率達到96%,5米遠場識別率超過92%,用戶對話意圖識別準確率超過90%”;“多語種智能互譯取得明顯突破,中譯英、英譯中場景下產(chǎn)品的翻譯準確率超過85%”;“智能電視市場滲透率達到90%以上等重要目標和要求”。
2010年開始的智能電視革命,讓電視上網(wǎng)成為一種流行和主要體驗方式;現(xiàn)在智能革命進入第二階段“人機智能”正在以語音交互為最初的鑰匙,打開彩電業(yè)的未來之門。