高級搜索
您當前的位置:首頁 > 雜志文章

增強型語音通話服務(EVS)編解碼器

時間:2015-10-19 14:00:28

目前,由于音頻帶寬較窄及非語音信號處理水平較差等限制因素,通話服務往往無法提供高品質的聲音體驗。然而,語音和音頻編碼技術取得的最新進展將有助于大幅提升通話服務質量,通過提供全頻帶音頻傳輸實現更貼近原聲的聲音體驗,并改善語言清晰度及聆聽舒適度。

最新通過標準化的增強型語音通話服務(EVS)編解碼器是首個提供超寬帶音頻帶寬,且在9.6kbps比特率下仍能極大改善語音通話質量的3GPP編解碼器。同時,在處理音樂以及混合內容等信號方面,EVS的性能可與最新的音頻編解碼器相媲美。EVS的關鍵技術是在處理語音信號和音樂信號的專業編碼模型之間進行靈活切換。這一編解碼器由運營商、終端設備、基礎設施和芯片提供商以及語音與音頻編碼方面的專家聯合開發,其中包括愛立信、Fraunhofer集成電路研究所、華為技術有限公司、諾基亞公司、日本電信電話公司(NTT)、日本NTT DOCOMO公司、法國電信(ORANGE)、日本松下公司、高通公司、三星電子公司、VoiceAge公司及中興通訊股份有限公司等。

*Fraunhofer美國數字媒體技術部隸屬于Fraunhofer美國分部,旨在推廣和支持Fraunhofer集成電路研究所在美國推出的產品。

本文旨在簡要介紹EVS技術的通信系統藍圖。在強調主要設計制約因素和特征的同時,也包含了簡要的技術見解,并展示與探討了在標準化過程中,尤其是選擇和測定階段所進行的音質評價測試結果。

通信系統

語音通話質量與電視上播放的電影原聲相比,標準手機通話的語音通常都非常模糊。這主要是受現有電話系統音頻帶寬的限制。圖1顯示了傳統通信/廣播電視系統的不同音頻帶寬容量及人耳聽覺系統所能聽到的聲音頻率范圍。

圖1:廣播電視和通信系統的音頻質量

老式電話系統主要支持窄帶音頻信號,音頻帶寬的頻率僅到3.4kHz。高清語音服務(WB)則可支持寬帶音頻信號,音頻帶寬的頻率達到7kHz。考慮到人耳聽覺能力,實現高保真音質需要帶寬頻率支持到20kHz,而高清語音服務技術仍無法實現。因此,在高清語音技術之后又進一步出現了全高清語音技術,可提供超寬帶和全頻帶的語音通話質量。超寬帶技術的音頻頻譜為16kHz,而全頻帶的頻率分量高達20kHz。

目前,固話服務可實現窄帶或寬帶語音質量。這些系統主要采用比特率為64kbit/s的G.711【1】或G.722【2】編解碼技術。在移動通信環境下,窄帶為默認質量標準;而現在出現了越來越多的寬帶服務。用于窄帶或寬帶移動通信服務的編解碼器通常采用AMR-NB【3】和AMR-WB【4】編解碼技術,并且一般在12kbit/s比特率下運行。一些移動網絡甚至可支持如23.85kbit/s等更高的AMR-WB速率,盡管與默認速率相比,在語音質量方面的改善仍較為有限。移動通信編解碼器在處理語音信號方面進行了極大的優化,其結果導致在處理音樂等信號方面的能力則不盡如人意。

目前,用于遠程或專用視頻會議的通信系統已能實現全高清語音通話質量。針對這些系統的現行標準編解碼器為AAC-(E)LD音頻編解碼器【5】。這類編解碼器可在24kbit/s至64kbit/s的比特率范圍下運行,能夠傳輸語音和音樂信號。

AAC-(E)LD音頻編解碼器也被應用于OTT服務。典型的OTT應用包括Skype、Facetime等,針對這些應用的IP數據包傳輸處理不涉及運營商的網絡管理。

3GPP EVS編解碼器【6,7】解決了移動通話和固話系統中存在的兩大主要問題,即音頻帶寬較窄及非語音信號處理能力較差。同時,這一編解碼器能在移動服務的常用比特率下運行。這為適用于各類網絡通信質量方面的用戶體驗新標準奠定了基礎,包括固話服務、移動通話服務和OTT服務等。在以下的章節中,本文將概述EVS設計可大幅提升服務質量的主要技術要素。需要注意的是,除音頻編碼器之外,還有很多因素也會對端到端服務的用戶體驗產生重大影響。這些因素包括音頻前端處理(包括回聲消除、噪聲抑制、自動增益控制、風噪聲過濾和混響消除等)以及導致延遲抖動及數據丟包等的網絡行為。

EVS編解碼器介紹

設計目標

EVS編解碼器于2014年9月在3GPP通過標準化評估【6】,具有多項功能實現前所未有的多功能性及通訊高效性。這一編解碼器主要面向VoLTE服務,可實現3GPP設定的以下目標:

1. 提高窄帶(EVS-NB)和寬帶(EVS-WB)語音服務的質量和編碼效率;

2. 引入超寬帶(EVS-SWB)語音服務,提高通信質量;

3. 提高會話應用程序中混合內容和音樂信號的質量;

4. 具備防止數據丟包和延遲抖動的能力;

5. 針對AMR-WB編解碼器【20】向下兼容。

如上文所述,本文將主要圍繞設計目標2和3展開討論。為確保信息完整性,本文后面部分也將討論如何改善目標1中提出的傳統窄帶和寬帶服務。除上述指出的質量改善外,EVS編解碼器還具備通信系統所需的一系列功能,如語音活動檢測(VAD)、非連續傳輸(DTX)、舒適噪音生成(CNG)或抖動緩沖管理(JBM)等。該編解碼器可在5.9kbit/s至128 kbit/s寬比特率范圍內運行,從而提供可適用于所有網絡的比特率。參考【6】中介紹了EVS標準化中所有的設計限制因素。

技術概述

編碼模式

總體來看,音頻編碼可被分為以下兩種模式:

  • 語音編碼:模擬人類聲道
  • 感知編碼:利用人類聽覺系統感知的限制因素

正如參考【8】中所述,AMR-NB和AMR-WB等高效的語音編碼體系通常擁有三大主要組成部分,包括:(1)模擬人類聲道的短期線性預測(LP)濾波器;(2)模擬聲帶激勵信號周期的長期預測(LTP)濾波器;及(3)用于對語音信號非預測性內容進行編碼的創新型代碼本。

AAC【9】等感知編碼體系主要基于以下三大步驟:(1)進行時間/頻率轉換;(2)通過后續量化階段減少不相關性,在這一階段可使用心理聲學模型信息來控制量化誤差;(3)減少冗余,即在編碼階段,通過熵編碼的方式使用代碼表處理量化頻譜系數和相關邊信息。這就形成了適應于輸入信號數據及人類感知特點的受源代碼控制的編解碼器。

一般來說,在低比特率情況下,語音編碼方式可更好地處理純粹、清晰的語音信號,而感知編碼方式可更好地處理音樂等一般聲音內容,并實現可感知的、明晰的聲音質量。

首個結合了這兩大編碼方式的編解碼器為語音/音頻統合編解碼器(USAC)【8】。USAC算法延遲超過了100毫秒,這是雙向通信應用不可接受的。然而,得益于USAC卓越的編碼性能,這一統合的編碼方法已經被采用并且取得了進一步的優化,以滿足EVS極具挑戰性的要求。

低延遲語音/音頻切換編碼

在32毫秒低算法延遲下,EVS編解碼器是首個在語音和音頻壓縮之間部署基于內容且具備即時切換功能的移動通信編解碼器,極大地改善了針對音樂信號等一般內容的編碼性能。

該語音編碼器是改進型代數碼激勵線性預測(ACELP),還采用了適合不同語音類別的線性預測模式。對于音頻信號編碼,則采用頻域(MDCT)編碼方式,并特別關注低延遲/低比特率情況下的頻域編碼效率,從而在語音處理器和音頻處理器之間實現無縫可靠的切換。圖2展示了EVS編碼器和解碼器的高級框圖。

EVS編解碼器結構

圖2:EVS編解碼器結構

超寬帶編碼及更先進的技術

EVS可支持超寬帶甚至全頻帶服務,從而克服當前通話中聲音不清晰的問題。從技術上來看,EVS可通過擴展帶寬實現這一目標。根據是否采用語音或音頻模式,可部署時域帶寬擴展(TBE)技術或一體化頻域解決方案。后者可提供多個子模式,如可處理傳統音樂信號的諧波模型編碼模式等。EVS是首個可提供通過不同方式優化的帶寬擴展方式的編解碼器,而這樣的帶寬擴展方式通常基于源代碼控制來進行使用或切換。基于專用的內容優化方式,即便在比特率非常低的情況下也能夠提供非常自然、清晰的音質。

性能評估

3GPP EVS編解碼器針對多帶寬清晰語音的鑒定測試結果

圖3:3GPP EVS編解碼器針對多帶寬清晰語音的鑒定測試結果

3GPP EVS編解碼器針對多帶寬混合內容和音樂信號的鑒定測試結果

圖4:3GPP EVS編解碼器針對多帶寬混合內容和音樂信號的鑒定測試結果

目前,3GPP已進行了大量測試來驗證EVS在不同情況下以及處理不同內容【11】時所表現出的性能,其中包括根據P.800 DCR方法【12】進行的多頻帶測試。圖3和圖4分別顯示了(DOMS評分表)中清晰語音(英語)及混合內容和音樂信號的音質級別。結果顯示了在不同比特率下移動蜂窩業務常用的窄帶、寬帶和超寬帶下的不同音質。下面將對這些結果進行討論:

對于(超寬帶模式下運行的)EVS編解碼器,比特率為9.6kbit/s時純語音音質評價值已非常高,大大超過了AMR-WB在23.85kbits/s比特率下的音質,同時這一數值將隨比特率的增加而增加。從13.2kbits/s開始,EVS-SWB的語音音質已經接近“直接來源”(原音)的音質。

(在超寬帶模式下運行的)EVS編解碼器在處理混合內容和音樂信號時的性能大大優于AMR-WB編解碼器。在相同比特率下,其得分基本都比AMR-WB編解碼器高出1.2個平均意見得分(MOS)。在比特率為24.4kbit/s的情況下,EVS編解碼器在處理混合內容和音樂信號時所呈現的音質可接近“直接來源”(原音)的音質。

甚至在寬帶模式(當前僅支持寬帶模式的設備或服務)下,EVS編解碼器在比特率為9.6kbit/s時所能呈現的音質超過了AMR-WB編解碼器在比特率為23.85kbits/s時所能實現的音質。此外,在同一比特率(24.4kbit/s)下,EVS編解碼器在處理純語音以及音樂信號時所呈現的音質要遠遠好于AMR-WB編解碼器。

初看上去,在同等比特率下,即便使用雙倍音頻帶寬,AMR-WB編解碼器在處理混合內容和音樂信號時呈現的音質也比不上AMR-NB編解碼器,這讓人覺得出乎意料。但EVS編解碼器已經解決了這一問題。

在處理窄帶輸入信號時,EVS編解碼器處理純語音及混合內容和音樂信號時實現的音質要優于AMR-NB編解碼器。這一模式在連接至如固話網絡等窄帶網絡時非常有用。

眾所周知,由于語言和所選內容的不同,測試的結果及結果分析也各有不同。然而,在3GPP進行篩選的階段,EVS編解碼器已經過10種語言、6種不同背景噪音及各種音樂內容的測試,展現出了其卓越的性能并大大改善了早期標準。這些測試結果以及之后對EVS編解碼器進行的進一步性能鑒定結果已在3GPP發布的技術報告(TR)26.953【11】中公布。

應用

自第四代移動網絡標準LTE問世以來,蜂窩電話網絡開始向基于IP的傳輸方式轉變。LTE標準以發展成熟的GSMUMTS標準為基礎,可提供全IP架構和實現低延遲。LTE需要部署全IP語音業務或VoLTE業務,而這也可促使所有語音服務采用IP網絡進行傳輸,最終淘汰基于GSM、UMTS和CDMA等網絡的傳統轉換服務。

在全高清語音技術的推動下,服務提供商可擺脫這些傳統服務的限制,包括音頻帶寬方面的較大限制及需要使用以處理語音信號為主的編解碼器等。由于VoLTE可在管理有序的網絡中提供優質服務(QoS),EVS有望在音質、穩定性和服務可用性方面超越Skype或Viber等OTT服務。因此,移動運營商將可能在語音服務領域收復失地。

得益于杰出的防錯能力【10】,EVS非常適用于Wi-Fi語音等最佳網絡,而且未來還可用于3G/電路交換系統。

結語

憑借無法比擬的語音和音頻質量等多項新特性,符合3GPP最新標準的EVS編解碼器可作為一種效率最高、功能最全的編解碼器適用于各種網絡(尤其是蜂窩LTE網絡和Wi-Fi語音網絡等),以實現高質量通信。即便在移動通信服務中,EVS編解碼器也能呈現接近原音的音質,從而為用戶帶來全新的體驗。因此,即將推出的EVS編解碼器可為移動通信運營商及其客戶帶來長遠的好處。

參考資料

[1] ITU-T Rec. G.711,“語音頻率的脈沖編碼調制”

[2] ITU-T Rec. G.712,“64kbit/s內的7kHz音頻編碼”

[3] K. Jarvinen.“自適應多速率編解碼器的標準化”,Proc. EUSIPCO,2000年9月

[4] B. Bessette等,“自適應多速率帶寬語音編解碼器(AMR-WB)”,電氣與電子工程師協會(IEEE)“語音和音頻處理”譯文,第10卷,第8號,第620-636頁,2002年11月

[5] M. Schnell等,“MPEG-4 增強型低延遲ACC——高音質通信新標準”,第125屆音頻工程師協會大會,2008年10月

[6] S. Bruhn等,“新EVS編解碼器標準化”,Proc. ICASSP,2015年4月

[7] Martin Dietz等,“EVS編解碼器架構概述”,Proc. ICASSP,2015年4月

[8] M. Neuendorf等,“低比特率下高音質語音/音頻統合編碼方案”,Proc. ICASSP,2009年4月

[9] M. Bosi等,“ISO/IEC MPEG-2增強型音頻編碼”,第4382號論文,第101屆音頻工程師協會大會,1996年11月

[10] V. Atti等,“3GPP EVS渠道感知編碼可改善VOLTE及VOIP的容錯性”,Proc. ICASSP,2015年4月

[11] 3GPP TR 26.952,“通用移動通信系統(UMTS);LTE;EVS編解碼器;性能鑒定”,http://www.3gpp.org/DynaReport/26952.htm

[12] ITU-T Rec. P.800,“傳輸質量主觀驗證方法”,1996年8月

本文檔的內容“按原樣”提供,不帶有任何明示或暗示的擔保或條件,包括但不限于適銷性、針對特定用途的默認擔保等。

本文檔內容的版權歸Fraunhofer-Gesellschaft所有,并可在不另行通知的情況下隨時進行修改和/或更新。因此,不允許轉售本文全部或部分內容或將其用于商業用途,或將其用于其他產品




    
來頂一下
返回首頁
返回首頁
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
 
推薦資訊
長飛光纖成功被納入恒生滬深港通AH指數系列
長飛光纖成功被納入恒
中國聯通與中國信科簽署戰略合作協議 共促信息化發展
中國聯通與中國信科簽
2019年江蘇省檢察機關第一期網絡大講堂開講 崔根良受邀主講
2019年江蘇省檢察機關
 汾湖召開高質量發展大會,永鼎榮膺多項表彰
汾湖召開高質量發展
大发快三app下载