目前來說離線語音芯片和在線語音芯片的應用前景都非常廣泛,離線語音芯片和在線語音芯片的主要區別在于離線語音芯片無需依賴網絡即可實現語音指令控制產品,一個需要聯網來實現更好的語音交互功能,很多人也把在線語音芯片稱之為AI交互語音芯片主要應用于產品的AI對話功能比如唯創知音的WT2606A和WT3000A。

離線語音芯片的工作原理講解
這里以唯創知音的離線語音芯片WTK6900FC來舉例,這款離線語音芯片支持四國語言分別是中文/英語/韓語/日語,同時還支持喚醒詞10條、喚醒詞自學習1條、命令詞300條、命令詞自學習19條。
以上這些功能都是直接在本地完成的,離線語音芯片通過聲音采集、信號處理、語義識別、指令判斷、指令執行這幾個環節來實現離線語音控制功能的,下面我們一起來詳細了解一下離線語音芯片的工作過程。
1.聲音采集
人說話的時候會產生聲波,麥克風(內置或外接)接收空氣中的聲波,通過聲電轉換原理,將聲波振動轉化為連續的模擬電信號(如電壓變化)。模擬電信號會先經過一個簡單的前置放大電路(增強弱信號)和抗混疊濾波器(過濾高頻干擾)最終由
ADC 轉換器按固定頻率(如 16kHz 采樣率)對模擬信號 “采樣”,并將其量化為離散的數字信號(如 16 位精度的數字數據),存入
WTK6900FC的RAM 臨時緩存。
2.信號處理
臨時緩存當中的信號含有各種各樣的環境噪音,比如在電風扇在工作狀態下就會產生一些嗚嗚或者嗡嗡的聲音,還有一些周邊的環境聲,如果直接識別這些聲音則會影響識別準確率,所以我們的離線語音芯片WTK6900FC需要對這些“噪音”進行處理,采用專用算法(如譜減法、維納濾波),通過分析
“語音信號” 與 “噪聲信號” 的頻率差異,剔除背景噪聲,保留純凈的聲音信號。
3.語義識別
離線語音芯片其實在業內的名稱叫語音識別芯片,語義識別也是影響識別率非常重要的因素之一,離線語音芯片最常用的特征是MFCC(梅爾頻率倒譜系數),其設計靈感源于人耳的聽覺特性(人耳對不同頻率的敏感度不同,對中低頻更敏感)。過程如下
將每幀時域語音信號轉換為頻域信號,得到各頻率成分的能量分布(傅里葉變換)
用一組模擬人耳聽覺特性的 “梅爾濾波器” 對頻域信號濾波,保留人耳敏感的頻率成分,剔除不敏感成分(梅爾濾波組)

對濾波后的能量值取對數(模擬人耳對聲音強度的對數感知),再通過 DCT 壓縮數據,最終得到 12-16 維的MFCC
特征向量(每幀語音對應一個特征向量,數據量大幅減少)【對數與離散余弦變換(DCT)】。
除 MFCC 外,部分芯片也會用LPCC(線性預測倒譜系數)(基于語音的線性預測模型,計算量更小,適合低功耗場景)。
4.指令判斷
因為多數離線語音芯片的一大優勢就是響應快,但是受困于成本能夠在市面上普及的離線語音大多數價格都比較親民,成本限制了離線語音芯片的端側算力,所以這幾年的主流方案都是采用
CNN、RNN、Transformer 的輕量化版本 Tiny Transformer的模型,模型參數被壓縮到幾十 KB - 幾 MB(適配芯片存儲),通過本地
NPU/DSP 快速運算,輸出 “是否匹配某指令” 的概率(如概率>90% 則判定識別成功。
5.指令執行
這一步就最簡單了,指令識別成功以后可以通過通信的方式發給MCU,然后MCU驅動響應的功能打開。
以上這就是離線語音芯片的工作原理,離線語音芯片的特點是響應快,安全性高(不聯網不用擔心信息泄露)。
而在線語音芯片的工作原理是類似的,區別在于在線語音芯片可以通過云端算力來輔助識別,識別率會更高,同時可以接入大模型有更豐富的內容可以輸出,但是缺點也比較明顯因為需要上傳信息到服務器并且等待大模型響應并返回,即便是使用流式傳輸也會有一定的延遲。
但是在線語音芯片+大模型這種方式,雖然在響應上比離線語音芯片多一些延遲,但是可以進行更豐富的玩法,比如給玩具賦能讓玩具可以和孩子說話,讓寶貝不再孤單,也可以接入自己設計的智能體充當語音說明書
,適合一些共享設備。

其實還有一款離在線語音芯片,這款芯片及支持離線使用也支持在線使用,完美的契合了兩者的優點,目前主要面向需要AI對話的產品,為機器人、Ai玩具等產品賦予語音控制和開口說話的能力。
總結:離線語音芯片和在線語音芯片各有優劣,離在線語音芯片也很強,但是各自都有各自的使用場景,離線語音芯片你可以理解為語音遙控器或者聲控芯片,而在線語音芯片你可以理解為AI對話芯片AI交互芯片,離在線語音芯片則是兼顧了遙控器和AI對話功能的完全體。