科技

5G高清語音VoNR與VoLTE。為什麼通話聲音會越來越清晰?

4G已經商用5年,但高清語音VoLTE(Voice over LTE,基於4G網路的語音業務)仍然沒有普及。

圖1 VoLTE與5G

如果你的手機上顯示"HD"或者"VoLTE",那麼表示你已經在享受高清語音服務了。

圖2 高清語音的標誌

同樣的,5G網路也有高清語音,叫做VoNR

5G網路部署初期,語音通話"借道"4G,回落到4G,通過VoLTE甚至2/3G(CSFB)實現。但隨著5G網路的普及以及發展,VoNR將逐步成為主流語音方案。具體演進過程有3條路徑。

圖3 VoNR演進路線

體驗過VoLTE的同學都知道,相較於非高清HD語音,高清語音更加清晰與細膩。

GSM語音編碼FR(全速率編碼)處理的語音頻寬是200~3400Hz,VoLTE的語音編碼AMR-WB(自適應多速率編碼)是50~7000Hz。可見VoLte的處理頻寬更寬,這樣意味著VoLte可以採集編碼到更多低頻和高頻聲音,還原後的聲音比GSM更豐富。

VoLTE的取樣率達到16kHz,位元速率可以支援到23.85kps。實測VoLTE電話如圖4所示:

圖4 VoLTE分析測試

高清語音實現的離不開採樣率的提升,這也是本文的主題。

文 | 通訊M班長,閱讀時間預計2分鐘

導讀

取樣是模擬訊號數字訊號之間的橋樑。面對一個模擬訊號,我們如何合理地去將其變成離散的訊號,並將其交給數位電路或者計算機去處理。

1928年,貝爾實驗室的科學家哈里·尼奎斯特(Harry Nyquist)在他的論文"電報傳輸理論的一定論題"中首次提到了這個問題與答案。1949年,數學工程師克勞德·夏農(Claude Shannon)在他的文章中證明了這一點。

圖5 奈奎斯特

"模擬"訊號來源於來大自然,模擬一詞是指它與大自然本真的訊號"相似"。

一個"真實世界"的模擬聲音訊號可以用麥克風捕捉到,如圖6所示,聲波被麥克風捕捉後轉換為電訊號。

圖6 模擬訊號的產生

麥克風中有一個薄膜(membrane),當聲音傳來時,聲波帶動薄膜振動,根據聲波壓力的變換,隔膜被前後推動。

圖7 麥克風的工作原理

膜片的位移被轉換成一個時變的電壓——一種模擬電訊號。當薄膜振動時,帶動線圈振動,線圈和永磁鐵的相對位置改變,這使得穿過線圈的磁場發生變化,磁場變化了會線上圈中產生感應電動勢,也就產生了電流。特定的聲音有特定的振動,特定的振動產生特定形式的電流。所以話筒就把聲音"編碼"成了電流的形式。

為什麼要取樣?

模擬訊號是時間上連續的訊號。

連續時間訊號在任意時刻t都有瞬時的值,所以在計算機中不能儲存或處理這樣的連續訊號。

因此,模擬訊號必須被數字化(離散化)以產生用於計算機使用的數字集合。

圖8 模擬到數字,數字再到模擬轉換

離散時間訊號具有有限(可數的)序列,每個序列都有限的可能值。

圖9 取樣的過程

以規則的時間間隔取連續訊號的各個值的過程稱為取樣,如圖9所示。

模擬(連續)訊號被數字化(離散化)的過程稱為模擬-數字轉換,使用稱為模數轉換器(ADC)的硬體完成。

圖10 輸入是模擬訊號,輸出是數字訊號

為了正確地表示模擬訊號,ADC必須完成兩項任務:

抽樣:在一定的時間間隔內取值,使連續時間變數t數字化;量化:使用有限的計算機位給樣本分配一個值,數字化瞬時振幅x(t);樣本之間的時間間隔(以秒為單位)稱為取樣週期Ts,取樣週期與取樣率成反比fs=1/Ts。

圖11 對模擬訊號取樣,用序列索引

以連續時間正弦訊號x(t)=Asin(Ωt+Φ)舉例,Ω稱之為連續的時間頻率。

當我們對其離散化,可以這樣表示x(n)=Asin(ΩnTs+Φ),由整數n索引的數字序列。

我們令ω=ΩTs=Ω/fs,ω為離散時間頻率,它是Ω關於fs的歸一化頻率。

圖12 正弦訊號的取樣過程

需要多久取樣一次原始的模擬訊號?

假設我們得到一個模擬訊號為圖13(A)。現在我們用幾種不同的取樣率對原始訊號(A)進行取樣,如(B)(C)(D)。問題是"哪一個(BCD)最能代表原始訊號(A)?"。

換句話說,如果我們將取樣訊號(BCD)轉換回模擬訊號(EFG),那麼EFG中哪一個與原始訊號(A)最接近(最相似)?

答案將是簡單和直觀的。

你很容易就會選擇(C)作為最好的答案。是的,這是對的。最好的答案是(C)。

但是要對訊號進行高速取樣,需要高速的ADC和大容量的儲存能力!

圖13 不同的取樣速率

那麼,一定存在一個最小的取樣率,按照這個取樣率,我們再接收端恢復原始訊號時,不會丟失關鍵資訊。

抽樣理論就是在這裡開始的。

滿足要求的最小取樣率稱為"奈奎斯特抽樣率"

抽樣理論的定義:

在進行模擬/數字訊號的轉換過程中,當取樣頻率fs.max大於訊號中最高頻率fmax的2倍時(fs.max>2fmax),取樣之後的數字訊號完整地保留了原始訊號中的資訊,一般實際應用中保證取樣頻率為訊號最高頻率的2.56~4倍;取樣定理又稱奈奎斯特定理。

在圖14(A)情況下,原始訊號只有一個頻率分量。因此,任何取樣率等於或大於fm的兩倍(2xfm),都將保留原始訊號中包含的所有關鍵資訊。

在(B)情況下,原始訊號由從0到fh的多個頻率分量組成。因此,任何取樣率等於或大於fh的兩倍(2xfh),都將保留原始訊號中包含的所有關鍵資訊。

在(C)情況下,原始訊號由多個頻率分量組成,但起始頻率不是0,而是從fl頻率開始到fh。我們把fh和fl之間的頻帶稱為訊號的頻寬,fw。因此,任何取樣率等於或大於fw的兩倍(2×fw),都將保留原始訊號中包含的所有關鍵資訊。

圖14 奈奎斯特頻率

為什麼是2倍呢?

取樣定理的證明

將訊號進行傅立葉變換,在頻域內作相關分析,很容易得出奈奎斯特的結論。

圖15 衝激抽樣訊號的頻譜

現在我們有一個訊號f(t),對其求傅立葉變換得到F(ω),頻率範圍為-ωm~+ωm;

通過沖激抽樣函式δt(t)對訊號f(t)進行抽樣,得到抽樣函式fs(t)=f(t)δt(t)

時域的乘積,對應頻域的卷積

這裡用到了一般週期訊號的傅立葉變換公式

其中T1是訊號的週期。

Fs(ω)的表示式告訴我們,取樣訊號的頻譜就是原始訊號頻譜的週期延拓,延拓的週期為ωs(或者fs)。如果ωs大於2倍的ωm,顯然如圖15(b)所示,互相之間不影響;如果ωs小於2倍的ωm,顯然如圖15(c)所示,互相之間影響"混疊"。

此時,再通過傅立葉反變換求取訊號f(t)的時候,必然造成失真。

這就是前面所說的奈奎斯特定理。

觀察圖16,原始訊號的頻譜不在零頻附近,而是在取樣頻率整數倍處,類似於圖14(c)。這不影響取樣定理的執行,取樣訊號的頻譜依然是週期延拓。

圖16 非零頻對稱的原始頻譜 週期延拓

同樣的,原始訊號可能是多個,其對應的頻譜也會是多個。圖17中,原始訊號的頻譜為圖中帶"斜線"的方塊,從左到右依次為"深藍藍色紫色紅色青色黃色",這些頻譜只要它的週期延拓不產生混疊,那麼依然可以無失真的恢復關鍵資訊。

圖17 多個頻譜的週期延拓

總結

如果想要獲得好的通話體驗,必須要儘可能多"取樣"聲音訊號(當然還與編碼方式有關)。GSM的取樣率是8kHz,VoLTE達到16kHz。人說話的聲音為300~3400Hz,按照奈奎斯特的取樣定理,至少採樣率為6.8kHz。

所以GSM網路採用的取樣率為8kHz滿足基本要求。

像CD的取樣率達到44.1kHz。用44.1KHZ的取樣頻率進行取樣,則可還原最高為22.05KHZ的頻率-----這個值略高於人耳的聽覺極限(20Hz~20000Hz)。這是CD為什麼音質清晰的原因!

通訊領域內受限於裝置的處理能力和容量,並不能一味地追求高取樣率與編碼演算法。

HD高清語音是相對傳統的語音編碼而言的,技術指標上要求取樣頻率高於傳統的語音,量化方法和編碼速率同樣有更高的要求。從感知上說,傳統語音侷限於人聲的表達,高清語音除人聲之外還能表達更多的環境上的聲響。

References

[1]Eric Jacobsen, "Frequency-Domain Periodicity and the Discrete Fourier Transform", dsprelated.com, August, 2012.

[2]Sharetechnote,"Communication - Sampling Theory ".

[3]鄭君裡,應啟珩,楊為理."訊號與系統(第三版)",2010.

看到這裡為班長點贊吧,歡迎在評論區留言討論。

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題