揭秘語(yǔ)音交互：個(gè)性化AI打造“數(shù)字化的你”

2025China.cn 2018年07月18日

　　從更精美的照片、更高的安全性到更自然的用戶界面(UI)，人工智能(AI)正以無(wú)縫的方式更多地豐富我們的生活。高能效和個(gè)性化是Qualcomm AI Research的核心研究領(lǐng)域，因?yàn)樗鼈儗?duì)于下一代無(wú)處不在的智能用戶體驗(yàn)而言不可或缺。終端側(cè)AI正在支持虛擬助理的發(fā)展，而個(gè)性化正成為今天的虛擬助理和未來(lái)真正個(gè)人助理之間的主要差異。

AI驅(qū)動(dòng)語(yǔ)音交互革命

　　語(yǔ)音是我們一直期盼的變革性交互方式，它可以提供用戶與終端間的自然交互，而無(wú)需任何手部操作。先進(jìn)的語(yǔ)音交互具有始終開啟、對(duì)話式、個(gè)性化和私密的特征，可支持我們進(jìn)行高效且自然的對(duì)話。從智能手機(jī)、智能音箱到擴(kuò)展現(xiàn)實(shí)(XR)設(shè)備和汽車，語(yǔ)音交互正在眾多產(chǎn)品種類中日益發(fā)展和普及。

　　要實(shí)現(xiàn)端到端的語(yǔ)音交互體驗(yàn)，其中需要多個(gè)組件的支持(見圖1)。語(yǔ)音交互的流程是這樣的：首先麥克風(fēng)采集語(yǔ)音信號(hào)，然后是語(yǔ)音預(yù)處理、語(yǔ)音激活、語(yǔ)音識(shí)別和自然語(yǔ)言理解，最終是終端通過(guò)語(yǔ)音合成的方式響應(yīng)用戶。由此可見，端到端的語(yǔ)音交互是個(gè)多步驟的復(fù)雜流程。

　　圖1：語(yǔ)音交互的功能組件。

　　為什么今天語(yǔ)音交互變得如此普及?一個(gè)重要因素是，機(jī)器學(xué)習(xí)已經(jīng)點(diǎn)燃了語(yǔ)音交互的革命。機(jī)器語(yǔ)音識(shí)別的準(zhǔn)確率正不斷逼近95%，達(dá)到與人類準(zhǔn)確率相當(dāng)?shù)乃?。?dāng)機(jī)器準(zhǔn)確率不能達(dá)到人類的水平，整個(gè)語(yǔ)音交互過(guò)程就沒法做到對(duì)話式的自然高效交流，因此用戶體驗(yàn)會(huì)有顯著下降。機(jī)器學(xué)習(xí)技術(shù)可應(yīng)用于幾乎所有的語(yǔ)音交互組件之上，從而提升各方面及整體的交互體驗(yàn)。

終端側(cè)的語(yǔ)音交互至關(guān)重要

　　因計(jì)算、內(nèi)存和功率的限制，主要語(yǔ)音交互組件(如自動(dòng)語(yǔ)音識(shí)別和自然語(yǔ)言處理)傳統(tǒng)上都由云端AI所支持。但是，終端側(cè)處理具有眾多獨(dú)特的優(yōu)勢(shì)，包括更快的響應(yīng)速度、更高的可靠性和更好的隱私保護(hù)。尤其是在私密性方面，今天的消費(fèi)者渴望把數(shù)據(jù)掌握在自己手中，并且有權(quán)選擇是否將數(shù)據(jù)發(fā)到云端進(jìn)行處理或存儲(chǔ)。因此，更多在終端上進(jìn)行處理并為云端功能提供補(bǔ)充，這是目前行業(yè)的重要趨勢(shì)之一。而其中的主要挑戰(zhàn)在于，需要在移動(dòng)終端的功耗和散熱限制下運(yùn)行并實(shí)現(xiàn)復(fù)雜的語(yǔ)音交互功能。

　　圖2：語(yǔ)音交互的主要組件正向終端側(cè)遷移。

　　Qualcomm正積極應(yīng)對(duì)這項(xiàng)挑戰(zhàn)，并把低功耗的終端側(cè)AI應(yīng)用于語(yǔ)音交互組件之上。以下是幾個(gè)例子：

　　● 語(yǔ)音降噪將帶噪語(yǔ)音處理成清晰語(yǔ)音并輸出，這在嘈雜環(huán)境中尤其重要。Qualcomm AI Research正在開發(fā)一個(gè)降噪深度學(xué)習(xí)模型，該模型與傳統(tǒng)方法相比有顯著的性能提升，并具有較高效率可在助聽器這樣非常受限的處理能力、功耗和散熱條件下運(yùn)行。

　　● 自動(dòng)語(yǔ)音識(shí)別將語(yǔ)音轉(zhuǎn)錄為文本。測(cè)試表明，深度學(xué)習(xí)技術(shù)可在移動(dòng)終端上實(shí)現(xiàn)頂級(jí)的語(yǔ)音識(shí)別準(zhǔn)確率。Qualcomm AI Research已經(jīng)完成了一個(gè)深度學(xué)習(xí)聲學(xué)模型的訓(xùn)練并使其適應(yīng)每個(gè)用戶的口音和環(huán)境，從而提高個(gè)性化程度。

　　今天，終端側(cè)的語(yǔ)音交互已經(jīng)成為現(xiàn)實(shí)。Qualcomm AI Research已經(jīng)可以在終端側(cè)實(shí)現(xiàn)整體的端到端語(yǔ)音交互處理，并在2018年的CES大會(huì)上演示了智能家居中的端到端語(yǔ)音交互體驗(yàn)。在適應(yīng)口音和環(huán)境后，這項(xiàng)演示對(duì)特定領(lǐng)域的指令集已經(jīng)可以實(shí)現(xiàn)超過(guò)95%的意圖理解準(zhǔn)確率。

個(gè)性化成就真正的虛擬助理

　　真正的虛擬助理是在終端里面有一個(gè)“數(shù)字化的我”。因此，它需要分析個(gè)人信息并不斷學(xué)習(xí)用戶偏好，從而成為真正了解用戶的數(shù)字助理。情境式智能是實(shí)現(xiàn)個(gè)性化的必備條件，而實(shí)現(xiàn)情景式智能需要融合多種終端側(cè)傳感器的數(shù)據(jù)(如麥克風(fēng)、攝像頭和陀螺儀)及其他終端側(cè)和終端外數(shù)據(jù)(見圖3)。

　　圖3：情境式智能融合多種傳感器和個(gè)人信息。

　　增強(qiáng)個(gè)性化的一大好處在于，它能夠推動(dòng)個(gè)人助理進(jìn)一步發(fā)展并兼具響應(yīng)性和主動(dòng)性。真正的個(gè)人助理不僅能夠在用戶提問時(shí)提供個(gè)性化的答案，還能基于情境分析進(jìn)行自主決策和無(wú)提示對(duì)話。

　　為進(jìn)一步提升虛擬助理的個(gè)性化程度，Qualcomm AI Research正對(duì)終端側(cè)的“AI agent”展開研究，它有望從所有傳感器數(shù)據(jù)中不斷學(xué)習(xí)個(gè)人信息，最終實(shí)現(xiàn)直觀行動(dòng)。AI agent的關(guān)鍵功能包括情境式融合及學(xué)習(xí)，這最終將支持個(gè)性化響應(yīng)并豐富我們的生活。初步研究結(jié)果已展現(xiàn)出終端側(cè)個(gè)性化的遠(yuǎn)大前景。個(gè)性化不僅將提升虛擬個(gè)人助理的用戶體驗(yàn)，而且將豐富我們生活的方方面面。這項(xiàng)技術(shù)將變革眾多行業(yè)，不斷推動(dòng)行業(yè)創(chuàng)新。

（轉(zhuǎn)載）

標(biāo)簽：Qualcomm

我要反饋

2018年6月27日，上?！猀ualcommIncorporated(NASDAQ:QCOM)子公司QualcommTechnologies,Inc.在世界移動(dòng)大會(huì)·上海(MWC上海)宣布，推出專門針對(duì)4G聯(lián)網(wǎng)兒童手表的首款平臺(tái)。Qualcomm?S... [詳情]

2018年07月18日 Qualcomm Snapdragon

Qualcomm宣布推出三款全新驍龍移動(dòng)平臺(tái)拓展中高端層級(jí)

2018年6月27日，上?！猀ualcommIncorporated(NASDAQ:QCOM)子公司QualcommTechnologies,Inc.宣布推出Qualcomm?驍龍?600和400層級(jí)的三款全新產(chǎn)品——驍龍632、439和429移動(dòng)平臺(tái)。上述... [詳情]

2018年07月18日 Qualcomm 驍龍

Qualcomm和機(jī)智云合作打造全球首個(gè)可支持遠(yuǎn)程升級(jí)至LTE IoT的商用物聯(lián)網(wǎng)開發(fā)平臺(tái)

2018年6月28日，上?！澜缫苿?dòng)大會(huì)·上海，QualcommIncorporated(NASDAQ:QCOM)子公司QualcommTechnologiesInc.和全球物聯(lián)網(wǎng)(IoT)開發(fā)平臺(tái)領(lǐng)軍企業(yè)機(jī)智云宣布，計(jì)劃通過(guò)提供全球首個(gè)... [詳情]

2018年07月18日 Qualcomm 機(jī)智云物聯(lián)網(wǎng)